|
2021年第十三届华中杯数学建模竞赛赛题-详细数据见附件
% k3 _! N' P' S+ G, g# y4 _# E' Y6 ]A题-马赛克瓷砖选色问题
5 h& H% j7 D1 B* }- {4 j" O 马赛克瓷砖是一种尺寸较小(常见规格为边长不超过 5cm)的正方形瓷砖,便于在非平整的表面铺设,并且容易拼接组合出各种文字或图案。但是受工艺和成本的限制,瓷砖的颜色只能是有限的几种。用户在拼接图案时,首先要根据原图中的颜色,选出颜色相近的瓷砖,才能进行拼接。
5 w/ s! Z9 [& x2 L' ~+ d 某马赛克瓷砖生产厂只能生产 22种颜色(见附件 1)的马赛克瓷砖。该厂要开发一个软件,能够根据原始图片的颜色,自动找出颜色最接近的瓷砖,以减少客户人工选色的工作量。该厂希望你们团队提供确定原始颜色与瓷砖颜色对应关系的算法。假设原始图像为24 位真彩色格式,即 R、G、B 三个颜色分量均为 8 位,共有2 8 × 2 8 × 2 8 = 16777216种颜色,对于任何一种指定的颜色,算法输出颜色最相近的瓷砖的颜色编号。
$ |0 L; {+ U% Y 请完成以下任务。
) R. c+ N* G8 M: v/ v& ? 1)附件 2是图像 1 中的 216种颜色,附件 3是图像 2中的 200 种颜色,请找出与每种颜色最接近的瓷砖颜色,将选出的瓷砖颜色的编号按照附件 4 的要求输出至结果文件。0 X% Y: n. M# p8 \. T) F' a9 u
2)如果该厂技术革新,计划研发新颜色的瓷砖。那么,不考虑研发难度,只考虑到拼接图像的表现力,应该优先增加哪些颜色的瓷砖?当同时增加 1 种颜色、同时增加 2 种颜色、……、同时增加 10 种颜色时,分别给出对应颜色的 RGB编码值。
+ Q' A. E A9 I- s- Z% e n 3)如果研发一种新颜色瓷砖的成本是相同的,与颜色本身无关,那么,综合考虑成本和表现效果,你们建议新增哪几种颜色,说明理由并给出对应的 RGB编码值。/ o/ i/ A$ V, ~
% X6 ^ ]1 e* X' _) v G/ v
B 题 技术问答社区重复问题识别
! m+ ~" l. E7 h* e% J. o4 X7 K3 U% J% c5 v8 P( F1 Y/ M6 H+ z
技术社区问答平台作为用户互相分享交流的社区平台,近年来逐步成为用户寻找技术类疑难解答的首要渠道。 各分类技术性问题的文本数据量不断攀升,给问答平台的日常运营维护带来了挑战。随着新用户的不断加入以及用户数量的增加,新用户提出的疑问可能已经在平台上被其他用户提出并解答过,但由于技术性问题的复杂性,各个用户提问的切入角度不同,用问题标题关键词匹配的搜索系统无法指引新用户至现有的问题。于是,新用户会提出重复的问题,而这些问题会进一步增加平台上的文本量,导致用户重复响应相同的问题。对于这种现象,通常的做法是及时找到新增的重复问题并打上标签,然后在搜6 p, a" D7 U. Y
索结果中隐藏该类重复问题,保证对应已解决问题出现的优先度。所以,建立一个基于自然语言处理技术的自动标重系统会对问答平台的日常维护起到极大帮助。% h6 X9 S" `0 J' [% U
目前,问答平台上的问题标重主要依靠用户人工辨别。平台用户会对疑似重复的问题进行投票标记,然后平台内的管理员和资深用户(平台等级高的用户)对该问题是否被重复提问进行核实,若确认重复则打上重复标签。该过程较为繁琐,依赖用户主观判断,存在时间跨度大、工作量大、效率低等问题,增加了用户的工作量且延长了新用户寻求答案所需的时间。因而,如能建立一个检测问题重复度的模型,通过配对新提出问题与文本库中现存问题,找出重复的问题组合,就能提高重复问题标记效率,提高平台问题的文本质量,减少问题冗余。同时,平台用户也能及时地根据重复标签提示找到相关问题并查看已有的回复。9 d6 E% O# m$ {* e4 ], q1 B
附件给出了问答平台上问题的文本内容记录,以及比较两个问题之间是否重复的数据集。请根据附件给出的问题文本数据及问题配对信息,建立一个能判断问题是否重复的分类模型,并解决:. U: i4 Q2 B+ O3 d; H5 Y
1)输出样本问题组为重复问题的概率;通常使用 F1-score 对分类模型进行评价:( ^- X6 Q# f& J: I9 q( l
\(F_1 = \frac{1}{n}\Sigmoid_{i=1}^{n}\frac{2P_iR_i}{P_i+R_i}\)
0 k( d" k s0 q q其中\(P_i\)为第𝑖类的查准率,\(R_i\)为第𝑖类的查全率;
- D* D$ q7 B: h: E2)从附件问题列表中,给出与目标问题重复概率最大的前 10 个问题的编号;
0 ?) y" p) [) j, K7 ^1 a T3 W对于每个问题的预测结果采用 top K 列表对其进行评估,评估公式如下:9 X8 j* ?' E( D$ T0 Q/ ^6 f8 z1 _
\(R = \frac{N_{detacted}}{N_{total}}\)8 K+ X) ~1 @2 }3 _6 e) o
其中\(N_{detected}\)为在 top K 列表结果中正确检测到的重复问题编号数量,\(N_{total}\)为该样/ P+ I' v. W$ H, C' e1 }) N
本实际拥有的重复问题数量。评估时 K 取 10,若样本中无重复问题则不会计分。) x+ V" ?/ Z7 g2 X
/ g; B6 l4 B, p4 Y6 S. }& U' i1 n5 U
|