2021年第十三届华中杯数学建模竞赛赛题
第十三届“华中杯”大学生数学建模挑战赛题目A题 马赛克瓷砖选色问题 马赛克瓷砖选色问题 马赛克瓷砖选色问题 马赛克瓷砖选色问题
马赛克瓷砖是一种尺寸较小(常见规格为边长不超过 马赛克瓷砖是一种尺寸较小(常见规格为边长不超过 5cm 5cm)的正方形瓷砖,便于在非 平整的表面铺设,并且容易拼接组合出各种文字或图案。但是受工艺和成本限制瓷砖的颜色只能是有限几种。用户在拼接图案时,首先要根据原中选出相近的瓷砖,才能进行拼接。
某马赛克瓷砖生产 厂只能22 种颜色(见附件 1)的马赛克瓷砖。该厂要开发一个 软件,能够根据原始图片的颜色自动找出最接近瓷砖以减少客户人工选作量。该厂希望你们团队提供确定原始颜色与瓷砖对应关系的算法假设图像为24 位真彩色格式,即 R、G、B三个颜色分量均为 8位,共有 28×28×28=16777216种 颜色,对于任何一种指定的算法输出最相近瓷砖编号。
请完成以下任务。
1)附件 2是图像 1中的 216 种颜色,附件 3是图像 2中的 200 种颜色,请找出 种颜色,请找出 种颜色,请找出 种颜色,请找出 与每种 颜色 最接近的瓷砖颜色 ,将选出的瓷砖颜色编 号按照附件 4的要求输出至结 果文件 。
2)如果该厂技术革新,计划研发颜色的瓷砖。那么不考虑难度只到 如果该厂技术革新,计划研发颜色的瓷砖。那么不考虑难度只到 拼接图像的表现力,应该优先增加 哪些颜色瓷砖?当同时1种颜色、同时增加 2种 颜色、 …… 、同时增加 10 种颜色时,分别给出对应的 RGBRGB 编码值。
3)如果研发一种新颜色瓷砖的成 本是相同,与身无关那么综合考虑如果研发一种新颜色瓷砖的成 本是相同,与身无关那么综合考虑本和表现效果,你们建议新增 哪几种颜色, 说明理由并 给出对应的 RGBRGB 编码值。
附 数据说明
附件1:现有瓷砖颜色
编号
RGB
编号
RGB
编号
RGB
编号
RGB
编号
RGB
1 0,0,0
6 27,115,186
11 92,59,144
16 17,168,226
21 249,225,214
2 255,255,255
7 53,118,84
12 11,222,222
17 255,110,0
22 186,149,195
3 255,0,0
8 244,181,208
13 228,0,130
18 201,202,202
4 246,232,9
9 255,145,0
14 255,218,32
19 255,249,177
5 72,176,64
10 177,125,85
15 118,238,0
20 179,226,242
附件2:图像1颜色列表
附件3:图像2颜色列表
附件4:选色结果文件格式
1. 附件2的选色结果保存在result1.txt中。附件3的选色结果保存在result2.txt中。
2. 只写瓷砖颜色编号(附件1中“编号”列),不要写RGB值。
1
第十三届“华中杯”大学生数学建模挑战赛题目
B题 技术问答社区重复题识别 技术问答社区重复题识别 技术问答社区重复题识别 技术问答社区重复题识别 技术问答社区重复题识别
近年来逐步成寻找技术 社区问答平台作为用户互相分享交流的,近年来逐步成寻找类疑难解答的首要渠道。 各分类技术性问题的文本数据量不断攀升,给答平台日常运 各分类技术性问题的文本数据量不断攀升,给答平台日常运 各分类技术性问题的文本数据量不断攀升,给答平台日常运 营维护带来了挑战。随着新用户的不断加入以及数量增,提出疑问可能已经在平台上被其他用户提出并解答过,但由于技术性问题的复杂各个切入角度不同,用问题标关键词匹配的搜索系统无法指引新户至现有。于是用户会提出重复的问题,而这些进一步增加平台上文本量导致响应相同的问题。对于这种现象,通常做法是及时找到新增重复并打上标签然后在搜索结果中隐藏该类重复问题,保证对应已解决出现的优先度。所以建 立一个基于自 然语言处理技术的自动标重系统会对问答平台日常维护起到极大帮助。
目前,问答平台上的题 标重主要依靠用户人工辨别。会对疑似复目前,问答平台上的题 标重主要依靠用户人工辨别。,然后平台内的管理员和资深用户(等级高)对该问题是否被重复提问进行核实,若确认重则打上标签。该过程较为繁琐依赖用户主观判断存在时间跨度大、工作量效率低等问题,增加了用户的且延长新寻求答案所需的时间。因而,如能建立一个检测问题重复度模型通过配对新提出与文本库中现存问题 ,找出重复的组合就能提高标记效率,提高平台问题的文本质 量,减少问题冗余。同时平台用户也能及地根据重复标签提示找到相关并查看已有的回复。
附件给出了问答平台上题的文本内容记录,以及比较两个之间是否重复数据 附件给出了问答平台上题的文本内容记录,以及比较两个之间是否重复数据 附件给出了问答平台上题的文本内容记录,以及比较两个之间是否重复数据 附件给出了问答平台上题的文本内容记录,以及比较两个之间是否重复数据 附件给出了问答平台上题的文本内容记录,以及比较两个之间是否重复数据 附件给出了问答平台上题的文本内容记录,以及比较两个之间是否重复数据 附件给出了问答平台上题的文本内容记录,以及比较两个之间是否重复数据 附件给出了问答平台上题的文本内容记录,以及比较两个之间是否重复数据 附件给出了问答平台上题的文本内容记录,以及比较两个之间是否重复数据 附件给出了问答平台上题的文本内容记录,以及比较两个之间是否重复数据 附件给出了问答平台上题的文本内容记录,以及比较两个之间是否重复数据 附件给出了问答平台上题的文本内容记录,以及比较两个之间是否重复数据 集。请根据附件给出的问题文本数及配对信息,建立一个能判断是否重复分类模型,并解决:
1)输出样本问题组为重复的概率;
通常使用 F1-score对分类模型进行评价:
𝐹1=1𝑛Σ2𝑃𝑖𝑅𝑖𝑃𝑖+𝑅𝑖𝑛𝑖=1 ,
2
其中 𝑃𝑖为第 𝑖类的查准率, 𝑅𝑖为第 𝑖类的查全率;
2)从附件问题列表中,给出与目标重复概率最大的前 10个问题的编号;
对于每个问题的预测结果采用 top K列表对其进行评估,公式如下: 列表对其进行评估,公式如下:
𝑅=𝑁𝑑𝑒𝑡𝑒𝑐𝑡𝑒𝑑𝑁𝑡𝑜𝑡𝑎𝑙,
其中 𝑁𝑑𝑒𝑡𝑒𝑐𝑡𝑒𝑑 为在 top K列表结果中正确检测到的重复问题编号数量, 列表结果中正确检测到的重复问题编号数量, 𝑁𝑡𝑜𝑡𝑎𝑙为该样 本实际拥有的重复问题数量。评估时 K取 10,若样本中无重复问题则不会计分。
附 数据说明 数据说明
每个问题类别对应两附件。
附件 1为问题编号、对应内容和该分类的数据。具体表结构示例如下: 为问题编号、对应内容和该分类的数据。具体表结构示例如下:
问题编号
问题内容
86333
我有印度行政区的形状文件。 和海岸线折如何输出一张表格告诉我哪些地区有海岸线的? 如何输出一张表格告诉我哪些地区有海岸线的? 如何输出一张表格告诉我哪些地区有海岸线的? 如何输出一张表格告诉我哪些地区有海岸线的? 如何输出一张表格告诉我哪些地区有海岸线的? 如何输出一张表格告诉我哪些地区有海岸线的?
谢!
68897
我选择了一些地址点,想基于中的行更新字 我选择了一些地址点,想基于中的行更新字 我选择了一些地址点,想基于中的行更新字 我选择了一些地址点,想基于中的行更新字 我选择了一些地址点,想基于中的行更新字 我选择了一些地址点,想基于中的行更新字 我选择了一些地址点,想基于中的行更新字 段。如何弄清楚选择 段。如何弄清楚选择 Taable的名称以传递给 的名称以传递给 的名称以传递给 ArcPy.updateCursor()?
…
…
附件 2为问题两组合成的。每个对应了标示该内是否重 为问题两组合成的。每个对应了标示该内是否重 为问题两组合成的。每个对应了标示该内是否重 复的标签数据。具体表结构示例如下:
问题组
问题编号 1
问题编号 2
问题组是否重复 问题组是否重复
(0、1分别代表不重复和) 分别代表不重复和) 分别代表不重复和)
1
86333
68897
0
2
50415
25518
1
…
…
…
…
找到了 谢谢~
{:3_41:}
页:
[1]