2020MathorCup数学建模比赛A题D题思路 7 N2 \+ D% z' H8 i赛题一览 6 \. K1 P+ B# V4 G3 ~% M0 ?A题分析' w" j: U% K, H# G
首先我只做数据挖掘的题,因此有 A 题和 D 题可供我选。什么?A 题是研究生组的,没关系,我照样淦。 8 a4 T( c- r s. M* h' n ( n/ \8 e; K! _* N: h, D首先 A 题是无人承运的定价分析的。问题是根据附件1(附件1是个 xlsx表格,里面有详细的数据,光特征就68个),确线路定价的影响因素,在根据这些影响因素,评价定价的效果。此是一二问。1 u7 N% G0 q, _3 ]8 Z& p
' ^% C+ _) h' Q) Y. o第一问看起来不难,但是复杂就复杂在,定价是什么鬼(我不是白痴,请往下看)?我看到附件1后面还有一个叫“线路成本”的东西。然后我用定价减去成本,得到的几乎是负数。好的,如果定价是无人承运商给予司机的报酬,那么线路成本又是什么呢?难道是司机的花费吗?不可能,因为只有傻子才会接亏本的单。有人可能会反驳,司机事前不知道成本啊。但即便如此,也不会有司机经常去当冤大头把。那么线路成本是什么呢?是无人承运商所要支付的费用吗?如果是,那么定价首先是一个成本吧?因为要支付给司机的报酬嘛,所以肯定是成本。这么算下来,为什么成本还会比定价低了呢?按理说,应该高出很多或是一点点才对呀?那么线路成本究竟是什么呢??? 4 f" A, ]# x3 A& y/ I: L + d. |; }" m* i; S & m% c4 G, [% P6 h8 h9 t抛开这个不谈,因为如果要分析线路的定价,成本肯定是不用考虑的。但是时间呢?(@ο@) 哇~看到这么多时间,我真的崩溃了,何况我 datetime 模块用得不熟。 / q( J* m: w' K6 a ( F% c Z4 X" @+ Q5 |不过当初我想到了一个好办法,就是直接从附件2的特征找相关的不就行了吗?因为附件2是要我们预测的嘛,这样可以省去一大笔功夫。如果要分析线性性,对于无序类别变量,可以用单因素方差分析,或卡方检验来检验有无相关性。如果是连续特征,我考虑用递归特征删除解决。' ]- k) V" L; L; m! Z' w
: Q6 w# y7 S# G! A
但第二问就有点难了,评价定价,呜呼~~ 由于题目要保证成本和交易时间最低,因此我觉得可以从这两个方面下功夫。给出一个定价,首先他要低于成本,这样就可赚更多的钱(这里我怀疑成本和定价都是“成本”,不过他们分开算的)。而且,交易时间也要尽量少才行。2 w$ k7 d8 X7 }; h9 P3 }( v
5 d/ Z+ ^3 _; r& x
因此,我考虑把定价低于成本很多,交易时间很短的数据提取出来,构成一个新的数据集。再在第一问的基础上,训练一个用来预测新数据集定价的模型。由于训练集的定价低、时间短,因此该模型预测出来的定价大概率是最优定价。于是,把这个机器学习模型用在其他数据中,然后根据预测定价和实际定价,来定义它的评分就行了。+ R3 h% N3 o+ M$ \% j
E. C. Z( `5 W3 h第三问根据附件2的表格,给出三个调价。首先,我考虑上述的定价低、时间短模型的预测输出作为第一定价。之后,在用附件1训练一个定价高,时间短模型,作为第二定价;再用整个附件1训练模型,作为第三定价。至于成本,有个耐人寻味的地方,就是题目称成本为成本定价。这让我有些担忧,居然成本也是一个定价??????不管了,直接考虑整个附件1与成本训练一个模型,预测、得了!! A题搞定。% A' t, K9 c* `: B I7 Y0 p* B7 q
' Z. S# j2 e8 u7 X/ ?: |但是,这个机器学习可比 A 题难了好几倍。A题的难点在于特征的处理,至少它的数据是静态的。某条数据总不可能与隔壁老王,不,隔壁的数据有关系吧。但是 D 题就不同啦,你细品。根据 10月01日之前的数据,预测之后的数据。这不是序列学习还会是什么?但是,除了这点以外,他的难点在于,每个 skc 都是一个子序列呀!而且数据实在太多了、太散了呀。如果用 Python 来整理数据,可以想象,要花费多少精力和精神!!!!1 L: S: u% c3 C4 ]$ z' |
* ~7 U. E$ H! q% b3 S- c% N
根据问题一,预测销量可以用小类、折扣、标价、库存,另外,还外带了一个当天是否属于节日(这个也可以分析出来,是对销量有影响的。)怎么弄呢?对于小类,用 One-hot 编码。 是否属于节日是一个二值变量,可以不用预处理。其余的数值连续型变量,可以用 Zscore 标准化。- E3 G8 d+ G' W; P6 U. B1 l
# B H4 z* [! @! A# ^
之后,就是训练模型咯~ " R8 P% n# C; M- _/ p) D! [' F8 `2 ?# R3 N5 D
首先,一开始由于缺失数据太多了,我删了很多,导致时序性被破坏得不成样子。因此,我就把数据以周为单位整理了,对于节日,只要该周内包含一天的节假日,就设为1。经过如此,处理过后,数据还是有 1 W。3 y+ l2 r3 I; N$ Y
- w+ _, t7 P7 @8 {4 e& v/ j
一开始,我还天真地想着是否可以忽略这种时序性(熬夜熬傻了吧)。然后就用便了几乎所有的机器学习模型呀,注意是几乎所有的机器学习(不包括神经网络)。最终得出决策树效果最好,但MAPE 大于 1,呵呵。% W9 Y2 w: ?# v
# w Q- j0 O7 R# P0 Q
那么神经网络呢?用了一个非常复杂的,神经节点数大约 2000 个的 BP神经网络,跑呀跑呀。结果出来,MAPE 还是 1点多,比决策树好那么一点点,一点点!! @: L+ b3 @3 _5 E& b3 K9 n+ w) G
2 s x' j3 F1 J9 P! z+ H5 L最后,我开窍了,用了时序神经网络 LSTM,结果呢?用了节点数为30 的、只包含一层隐藏层的 LSTM,得出来 MAPE 为 0.0013,几乎没有误差呀。天呀!!!!!!!! 0 x' T: X# W) g1 s7 V" v7 E( g0 r/ Y) A# e
最终小结 + A: t( i7 d) P$ s笔者认为,D 题作为研究生的题目,其实会更好。虽然世界上的“烟酒生”非常多,但大佬型的研究生,是我们本科生难以比拟的。不让他们写 D 题,实在有点可惜了,是真的可惜了。 我感觉 A 题作为一道数据挖掘的题,是不合格的。首先他集合了太多专业知识,不是这个领域,或对这个行业没有了解的人,是做不来的。就比如我吧,一开始看到这题以为多难,其实细细分析,出了里面模棱两可的什么成本、定价、成本定价这些搞不懂外,其余的思路倒是一望而知,洞烛无疑。! z& ?& n q; B" a* J
2 [7 C$ F% n1 D+ X: a- t虽然我很想写一下 A 题,让改卷老师吃惊一下,但是 D 题的难度吸引了我。 人总是要挑战的。D题看似简单,其实很贴近实际。如同上面分析的,它的数据好像是直接从企业的数据库挖出来的。就比如只会 Matlab 和 SPSS 的小白,这种题绝对是做不来的。另外,D题的表格非常多,这很考验大家的数据的组织能力。如果没有学过数据库(没学过数据库就别选数据挖掘啦),恐怕要花费很多功夫,才能把数据拼接成一个表格。另外,D题不是静态数据,这一点与傻瓜 A 题不同。他直击当前的机器学习比较新的领域——序列预测(2015年开始热门起来)。对于 A 题,虽然没做过,但是我相信,如果我要做,除了特征预处理难住我以外,那种程度的数据挖掘,我绝对没有问题的(无外乎机器学习,不行就 BP 神经网络,再不行?CNN,再不行?特征预处理再来一下)。( n/ Q1 c/ y' G# Y
$ M$ u+ `% H4 v: w/ c因此,我感觉 A 题像考 概念,考知识储备,考无中生有(就比如第二问叫你评价,评价指标得自己定吧)。D题考技术、操作,考的是技术储备,耐心和毅力(编程中会有很多困难,而且神经网络也很难训练,并且要注意底层实现,不然内存说不定就爆了,我本人就爆了大约3次左右,中间一次蓝屏,伤啊!)因此,希望 Mathorcup 赛题方,好好研究赛题。最好是实现做一下,不然就会出现本届的笑话了。赛方的各位,不要把专科、本科看得比研究生还厉害呀!!! A 题这么简单,居然,╮(╯▽╰)╭。3 C# q0 i6 p* A$ P8 H
# {$ W' `9 Q! E3 H2 V. g
最后,希望大家像我一样,追逐困难。不要轻易向 容易妥协。也不要相信权威,自己分析一下,才会知道什么是难、什么是不难。 3 f3 j9 M7 v9 c. u4 m————————————————6 s; d4 Q; R. Q
版权声明:本文为CSDN博主「zhuo木鸟」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 : H- Q# l* b# I& n# }7 _9 ^7 v原文链接:https://blog.csdn.net/weixin_42141390/article/details/106325739, W$ U2 ^" |. X0 J0 K1 U