QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 10121|回复: 2
打印 上一主题 下一主题

[地区赛经验] 2020MathorCup数学建模比赛A题D题思路

[复制链接]
字体大小: 正常 放大

326

主题

32

听众

1万

积分

  • TA的每日心情
    慵懒
    2020-7-12 09:52
  • 签到天数: 116 天

    [LV.6]常住居民II

    管理员

    群组2018教师培训(呼和浩

    群组2017-05-04 量化投资实

    群组2017“草原杯”夏令营

    群组2018美赛冲刺培训

    群组2017 田老师国赛冲刺课

    跳转到指定楼层
    1#
    发表于 2020-5-25 15:10 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    2020MathorCup数学建模比赛A题D题思路- R* x4 K5 O/ i  h+ Q! f1 Y6 Q* A! T3 W
    赛题一览' _; b2 R! G" Z
    A题分析/ _0 Y# P2 v- `+ d2 U0 c
    首先我只做数据挖掘的题,因此有 A 题和 D 题可供我选。什么?A 题是研究生组的,没关系,我照样淦。
    ( m# j7 T( ]/ C% e8 M( j' `5 C; f
    / |' p8 ~8 K( }- e8 _0 c$ z' r* @首先 A 题是无人承运的定价分析的。问题是根据附件1(附件1是个 xlsx表格,里面有详细的数据,光特征就68个),确线路定价的影响因素,在根据这些影响因素,评价定价的效果。此是一二问。
    2 {7 ~9 u1 t( ^, c/ }' k* j2 c  j7 F" v5 A; }+ ]( Y( x0 m9 ^% M
    第一问看起来不难,但是复杂就复杂在,定价是什么鬼(我不是白痴,请往下看)?我看到附件1后面还有一个叫“线路成本”的东西。然后我用定价减去成本,得到的几乎是负数。好的,如果定价是无人承运商给予司机的报酬,那么线路成本又是什么呢?难道是司机的花费吗?不可能,因为只有傻子才会接亏本的单。有人可能会反驳,司机事前不知道成本啊。但即便如此,也不会有司机经常去当冤大头把。那么线路成本是什么呢?是无人承运商所要支付的费用吗?如果是,那么定价首先是一个成本吧?因为要支付给司机的报酬嘛,所以肯定是成本。这么算下来,为什么成本还会比定价低了呢?按理说,应该高出很多或是一点点才对呀?那么线路成本究竟是什么呢???
    % ~& I; a. E, C7 Z' F7 t/ I& a& t
    1 Y9 u8 W: r: l; l6 K
    抛开这个不谈,因为如果要分析线路的定价,成本肯定是不用考虑的。但是时间呢?(@ο@) 哇~看到这么多时间,我真的崩溃了,何况我 datetime 模块用得不熟。
    " [% h5 ^7 @. Q8 J
    " }  Y$ h7 ~0 b: _, E+ b3 g& T/ J不过当初我想到了一个好办法,就是直接从附件2的特征找相关的不就行了吗?因为附件2是要我们预测的嘛,这样可以省去一大笔功夫。如果要分析线性性,对于无序类别变量,可以用单因素方差分析,或卡方检验来检验有无相关性。如果是连续特征,我考虑用递归特征删除解决。
    . p6 A5 ~5 I* R* {) b- @0 p; R" L" H: }7 T$ k: m( ~
    但第二问就有点难了,评价定价,呜呼~~ 由于题目要保证成本和交易时间最低,因此我觉得可以从这两个方面下功夫。给出一个定价,首先他要低于成本,这样就可赚更多的钱(这里我怀疑成本和定价都是“成本”,不过他们分开算的)。而且,交易时间也要尽量少才行。
    : C1 Q& `4 l; {$ I/ q* F& u: w& A; N; T- }: d$ U
    因此,我考虑把定价低于成本很多,交易时间很短的数据提取出来,构成一个新的数据集。再在第一问的基础上,训练一个用来预测新数据集定价的模型。由于训练集的定价低、时间短,因此该模型预测出来的定价大概率是最优定价。于是,把这个机器学习模型用在其他数据中,然后根据预测定价和实际定价,来定义它的评分就行了。
    $ w7 ~+ ~; i# J; ^
    0 Z4 G! }5 l+ U1 x0 Q0 d) {第三问根据附件2的表格,给出三个调价。首先,我考虑上述的定价低、时间短模型的预测输出作为第一定价。之后,在用附件1训练一个定价高,时间短模型,作为第二定价;再用整个附件1训练模型,作为第三定价。至于成本,有个耐人寻味的地方,就是题目称成本为成本定价。这让我有些担忧,居然成本也是一个定价??????不管了,直接考虑整个附件1与成本训练一个模型,预测、得了!! A题搞定。
    , ]1 ^9 ^1 x0 y8 L4 j
    7 _& \; R2 O( [' pD题分析
    4 X, d( R; p0 X: B, }. l3 i同样是数据挖掘,D题实际上更有难度。为什么?因为年轻人往往比老年人更厉害,此是其一,赛题组怕研究生做不出来,进而怀疑人生也是有的。其二,D题的数据量庞大,大概有70 W条,一个计算机的内存才多大。其三,数据是时序的,小类套着 skc,skc旗下全都是时序数据,城市套路深,你说呢?其四,我感觉数据库是从某家企业的数据库收集过来的,为什么这么说呢?主键的痕迹很明显,这些表格明显是为数据库设计的。因此,这道题真的很贴近实际!!!) U$ x4 `2 d2 I0 z; h4 \
    - v: Y1 b1 C3 w1 e% p) c
    综上,D题实际上非常、非常难。比起 A 题这种靠概念的小儿科题目,D题更具有挑战性,而且直击机器学习的难题——序列预测!!/ j2 @+ l$ L  \# b: p9 W) z4 f% D
    - f" o& ?% K2 r& }; E6 M
    D题做法
    ' |# l# a0 a! Q! S第一问是怎么做的?3 O5 _  Z4 h8 `
    第一问:找出节假日内,影响目标 skc 销量的诸多因素。包括:库存、销售方式、折扣等。) C$ G7 S- t8 h; m

    ) ~  H# P* e  W% X$ a对于库存,只要将 附件3 追加进 附件1 中就可以了,这是数据库的连接操作。一个方法是用 mysql,先保存到数据库,再用查询语句。或者是用万能的 Python,其 Pandas 模块的 join merge concat 函数,都是数据表格进行联接操作的绝佳选择。; f; T# [+ ?4 [' d& v
    * v: o" v8 m3 C7 e) @1 M# e
    对于销售方式,我这里考虑:销售方式与所属小类挂钩。不同所属小类的销售方式不同,属于同一小类的销售方式一样。于是,为了判断所属小类与销量是否有关,可以采用单因素方差分析的方法。
    & v2 \; a& |' g4 G& u* w5 w( S$ j" v" L- h% _5 e1 b
    对于折扣,可以考虑将 附件2 使用 数据库操作,追加到附件1中,得到标价。再用销售流水里的销售额,除以销售量,得到平均售价。最后,根据售价和标价,求出折扣。从而完成数据的整理。部分数据如下所示:: S- x0 e, w0 o3 |- a8 M* u2 m

    / T  P, T& M/ |& J
    * B* u9 U5 z6 F* q之后,可以得出 skc 的销售特征,包括:库存、所属小类、标价、平均售价、折扣。当然,里面包含缺失项,这是很正常的,不可能每个表格都有相应的 库存、标价、所属小类数据。因此,对于缺失项,我考虑进行按行删除。
    6 S# z6 _6 p' ^. u9 o6 E
    : h5 V3 ]/ m9 L: F4 x' t3 ?! z前面已经用单因素方差分析,得出所属小类对销量有影响。这里,用递归特征删除的方法,使用线性回归模型,结合库存、标价、售价、折扣来预测销量。之后,每次删除一个特征,如果模型拟合效果降低,则回滚删除操作。直到每个特征都被遍历过为止。最后得出:售价可以删除。除此之外,还得到了一个关于销量(因变量)和库存、标价、折扣(自变量)的线性回归模型。(可以说是完成了如何影响的研究吧!)9 f$ N' }$ {2 Q. \3 w8 }% A

    7 ?* R  A3 ~, R/ N5 a6 z0 P" p第二问、第三问是怎么做的?
    , A% s7 i: U+ U( b4 m( f. T第二问、第三问是要求目标小类在 10月 01 日 三个月后(13周,其实就是到 12月 31日啦),预测销量的 MAPE。笔者根据 MAPE 公式,最后推导出第二问、第三问要求的,其实是一个问题:根据 10月 01日之前的数据,预测 之后的周销量。这不,又是一个机器学习问题。
    " @1 T( l* w; u% i' a6 N8 {( |( F1 {3 n- Y1 [( r" _
    但是,这个机器学习可比 A 题难了好几倍。A题的难点在于特征的处理,至少它的数据是静态的。某条数据总不可能与隔壁老王,不,隔壁的数据有关系吧。但是 D 题就不同啦,你细品。根据 10月01日之前的数据,预测之后的数据。这不是序列学习还会是什么?但是,除了这点以外,他的难点在于,每个 skc 都是一个子序列呀!而且数据实在太多了、太散了呀。如果用 Python 来整理数据,可以想象,要花费多少精力和精神!!!!
    " I! T( \. x: F. y* ?
    ( k1 ^7 M1 y& K& m; p根据问题一,预测销量可以用小类、折扣、标价、库存,另外,还外带了一个当天是否属于节日(这个也可以分析出来,是对销量有影响的。)怎么弄呢?对于小类,用 One-hot 编码。 是否属于节日是一个二值变量,可以不用预处理。其余的数值连续型变量,可以用 Zscore 标准化。
    % h4 q! a" u4 S6 |
    - \; G% H  d) U: Q2 Z之后,就是训练模型咯~2 k# A) {0 }* C% L; B( V% U# d
    5 n3 b4 r/ X7 e' F
    首先,一开始由于缺失数据太多了,我删了很多,导致时序性被破坏得不成样子。因此,我就把数据以周为单位整理了,对于节日,只要该周内包含一天的节假日,就设为1。经过如此,处理过后,数据还是有 1 W。0 R% ^9 }: f/ V# d
    " u" a+ Y0 {* v2 a1 j  J! m
    一开始,我还天真地想着是否可以忽略这种时序性(熬夜熬傻了吧)。然后就用便了几乎所有的机器学习模型呀,注意是几乎所有的机器学习(不包括神经网络)。最终得出决策树效果最好,但MAPE 大于 1,呵呵。5 b: }. M$ r# o- z( j! S  u

    9 @1 t$ N4 ]9 |# e/ R+ j! L- N+ ?那么神经网络呢?用了一个非常复杂的,神经节点数大约 2000 个的 BP神经网络,跑呀跑呀。结果出来,MAPE 还是 1点多,比决策树好那么一点点,一点点!4 ~" v, J1 t; _

    & d5 `" }/ H2 V" ?; |! |; I最后,我开窍了,用了时序神经网络 LSTM,结果呢?用了节点数为30 的、只包含一层隐藏层的 LSTM,得出来 MAPE 为 0.0013,几乎没有误差呀。天呀!!!!!!!!' S  \. K5 i, ^1 d5 `7 \

    ! e# q, j0 s! N5 [  X最终小结5 V$ f: z' i6 o# t3 w: k) J* p9 u% o
    笔者认为,D 题作为研究生的题目,其实会更好。虽然世界上的“烟酒生”非常多,但大佬型的研究生,是我们本科生难以比拟的。不让他们写 D 题,实在有点可惜了,是真的可惜了。 我感觉 A 题作为一道数据挖掘的题,是不合格的。首先他集合了太多专业知识,不是这个领域,或对这个行业没有了解的人,是做不来的。就比如我吧,一开始看到这题以为多难,其实细细分析,出了里面模棱两可的什么成本、定价、成本定价这些搞不懂外,其余的思路倒是一望而知,洞烛无疑。
    . f3 s0 W! I  J* L) @; s4 i1 M# M9 ^1 }0 o; y
    虽然我很想写一下 A 题,让改卷老师吃惊一下,但是 D 题的难度吸引了我。 人总是要挑战的。D题看似简单,其实很贴近实际。如同上面分析的,它的数据好像是直接从企业的数据库挖出来的。就比如只会 Matlab 和 SPSS 的小白,这种题绝对是做不来的。另外,D题的表格非常多,这很考验大家的数据的组织能力。如果没有学过数据库(没学过数据库就别选数据挖掘啦),恐怕要花费很多功夫,才能把数据拼接成一个表格。另外,D题不是静态数据,这一点与傻瓜 A 题不同。他直击当前的机器学习比较新的领域——序列预测(2015年开始热门起来)。对于 A 题,虽然没做过,但是我相信,如果我要做,除了特征预处理难住我以外,那种程度的数据挖掘,我绝对没有问题的(无外乎机器学习,不行就 BP 神经网络,再不行?CNN,再不行?特征预处理再来一下)。( B7 [% j2 F3 d0 ]1 n$ Q( U: c, k( ?
    2 C/ G2 q$ X3 [' p6 C- o3 Y- M
    因此,我感觉 A 题像考 概念,考知识储备,考无中生有(就比如第二问叫你评价,评价指标得自己定吧)。D题考技术、操作,考的是技术储备,耐心和毅力(编程中会有很多困难,而且神经网络也很难训练,并且要注意底层实现,不然内存说不定就爆了,我本人就爆了大约3次左右,中间一次蓝屏,伤啊!)因此,希望 Mathorcup 赛题方,好好研究赛题。最好是实现做一下,不然就会出现本届的笑话了。赛方的各位,不要把专科、本科看得比研究生还厉害呀!!! A 题这么简单,居然,╮(╯▽╰)╭。9 K- X) s0 ]+ P3 P4 ~$ l8 T/ \, T
      x. I8 P+ p' G7 ^1 _( A5 L2 r
    最后,希望大家像我一样,追逐困难。不要轻易向 容易妥协。也不要相信权威,自己分析一下,才会知道什么是难、什么是不难。
    ; S- N, |) \( l# B9 w: ~' r————————————————3 y5 o0 m8 f; i3 ]7 I) E
    版权声明:本文为CSDN博主「zhuo木鸟」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    % r# l* u3 u! I( R! N' J原文链接:https://blog.csdn.net/weixin_42141390/article/details/106325739# B: t0 o$ q0 g! J1 h. i  |1 h& ?

    + R& p# R2 E0 k" F  D: _7 D8 a; |9 }
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    0

    主题

    1

    听众

    63

    积分

    升级  61.05%

  • TA的每日心情

    2020-8-25 23:27
  • 签到天数: 26 天

    [LV.4]偶尔看看III

    自我介绍
    我叫杨小小
    ' ]: \5 a. c8 V% w. ^1 F  a
    , E# ~- _$ \! Q* u: `
    # G1 R8 X. D& }: A4 e6 }4 b
    思路差不多,但是具体方法我们都不太相同3 N7 J  E1 U4 P0 B7 [* O3 [' Y8 r
    回复

    使用道具 举报

    0

    主题

    0

    听众

    2

    积分

    升级  40%

    该用户从未签到

    自我介绍
    1+1=0
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-23 16:46 , Processed in 0.445304 second(s), 67 queries .

    回顶部