1150队C题.pdf
2022第十五届“SPSSPRO杯”数学中国数学建模网络挑战赛(认证赛)论文公示,敬请下载!欢迎交流!1150队C题.pdf 虽然模型不算特别复杂,但是用得恰到好处,正好能解决题目提出的问题,符合建模比赛尽量用简单模型解决实际复杂的问题。 而且,数据处理过程很详细,对数据的理解非常深刻且解释的很通俗易懂,同样是做C题,我感觉我们对相关名词理解远不如这篇论文所写的那么深刻,受益匪浅 这篇论文的模型虽然不算复杂,但是第一问不同于大多数队伍只考虑了人口这个因素,还把其他几个指标全部考虑入其中,是论文中的一大亮点。而且数据处理部分采用了先分类在删除数据行的方法在最大程度上减少了数据信息的丢失。第二问当中没有像很多文章中直接用回归和数据降维这些方法,而是先考虑各自变量之间的相关性后再进行建模,恰当合理,充分考虑了实际问题的背景,而不是对各类模型进行生搬硬套。 该篇论文针对问题一没有像其他论文一样以州单位增设采样点,而是认为数据集中的每一行代表一个下水道id,而每一个下水道id对应着多个采样点。看完论文之后,我发现我们之前做题的想法过于简单,简单的认为每一行就是对应一个采样点 简单的认为每行数据这种想法我之前一直感觉颇为合理,但是看完这篇论文之后,我感觉这种想法颇为荒谬,毕竟数据集中部分行id都是相同的,一行代表一个采样点id的说法显然说不通。而且,翻译过来的意思也是下水道id,而非采样点ID 而该篇论文不仅区分了下水道ID和采样点ID,并且对同一个下水道ID对应一个采样点ID和多个采样点ID都进行了分类考虑,并分别进行了数据处理,对数据的理解能力不可谓不深 特别是在读完论文之后,我又去重新读了一遍之前一直忽视的数据集下面的注释部分,发现原来各列数据含义并不是表面上那么简单,每列数据都有着其独特的含义。做题过程中我一直困惑于为何会有某些数值极其巨大的数据存在,甚至达到了10的9次方,10次方的量级。 读完论文之后,我突然明白了,之所以出现这种数据,是因为这列数据代表的是该次测试样本中的病毒含量比上上次病毒的含量,而病毒的含量可能会出现上次病毒的含量极低,几乎没有,而这次检测存在少数病毒也会使得这个比例极大。在官方网站给出的注释里面也提到了这点,说该列数据数值较大并不能代表病毒数量就非常多。 而该篇论文对于这种数值异常大所在列的数据处理更是角度十分独特,并没有像其他论文一样一股脑把所有列数据全部使用,而是只选取了其他几列无极端值的列作为考虑因素。而把该篇论文把存在极端值的所在列作为检验列,对挑选出来的最佳采样点的合理性进行再判断,既没有浪费数据集中的信息,又避免了极端数据对结果造成巨大影响的情况出现,确实非常巧妙
页:
[1]
2