本帖最后由 ATLAS-CEPC 于 2015-11-10 15:41 编辑
- z- p1 \7 t- M6 f$ A& R$ G0 \1 R1 |8 R/ \) d0 t
( |; O3 r/ u& t& F4 f$ }3 `高次拟合在数学建模中有使用价值吗? ——观2015年某国赛优秀论文有感 ' e$ F( {# K x0 x. X
1 W: j- u5 e. {, y) `$ p* U1 `
5 R! z, n7 L; M1 j 笔者作为一个已经大学毕业的建模爱好者,当年的参赛论文也曾有幸被挂到该网站公示,虽然最终与杯奖擦肩而过,但仍认为自己在数万队伍中脱颖而出实属人品爆发。毫无疑问当初我的论文是存在很多瑕疵的,很多地方都是仅仅为了追求一个“高大上”的方法与一个漂亮的结果,实际价值并不大。但是,我写论文一直坚守的一个原则是——高次拟合坚决不用,无论做什么题目,只要是三次以上的拟合,我是一律拒绝的。 5 Y! i5 U- Y9 ?4 A9 [9 O, I! n9 }
; u8 l0 ~* X8 g; b2 k! v 虽然已经远离了数学建模竞赛,但作为一个建模爱好者,我还是会时刻关注建模动态,忍不住做一下建模赛题。个人认为,今年的国赛A题可谓是近几年出的最有创意的一个题目,给人的第一感觉就是该题的方法可以应用到诸如恐怖主义分子发布的暴恐视频拍摄地点的锁定上,自己尝试做了一下,所得到的结果与最终参考答案中的位置相差不大。今年B题出的也比较新颖,结合了“互联网+”的时代背景,不过笔者今年一看到该题,就预测到大多数B题的参赛者免不了又用各种“高端”以及没听说过名字的方法去“忽悠”评委了。说实话,之前我也经常干这种事,反正结果没有对错之分,无非就是找几个“高大上”的方法,画几个漂亮的图,列一堆别人一看就头晕的公式,得到几个看上去比较靠谱的结果,只要论文写的别太差,奖项基本就到手了。话说好多事情,欺骗别人容易,但欺骗自己难,如果真的想做一些拿的出手的东西,还是实实在在的建好自己的模型。 % O# U" S# h, m8 r
) O* ~; q4 P7 o8 k 今年网站上公示的几篇B题论文,整体上可以说都是很不错的,虽然每篇都有一点点瑕疵,但基本上都建立了自己的模型,具有一定的创新性。不过,作为一个与参赛队员没有任何利益冲突的数模爱好者,面对论文中一些明显的错误,我还是忍不住要指出来,免得大家去盲目学习模仿。譬如编号为1B27007_B006的这篇论文,个人认为存在着比较大的问题,该篇论文中为了得到“供给函数”与“需求函数”,使用了高次拟合方法,为了提高拟合度,该论文中甚至使用了最高为22次的拟合函数!!!!!!!!!!!! 结果如下:
0 P( R1 s3 ^2 y& J$ }" W
, i: {$ m3 g4 W8 y9 s: \ 看到这里,不知道大家什么感觉,我的第一感觉是醉了,暂且不说直接将matlab的拟合结果copy过来而没有使用公式编辑器输入公式不符合科技论文写作标准,就这些拟合参数又有什么意义可言?!并且,该论文中有如下一句话: # o( j& }/ X' J: R4 o# t) `
+ s7 G( T1 q" A9 d; q
$ t# P& K7 N/ V' v: ^: c* m3 e+ l8 C 从这句话我就断言该同学对拟合这种方法并没有正确的理解,首先,对于多项式拟合,拟合程度的值与拟合次数是正相关的,可以证明,拟合次数越高,拟合程度越好。并且,对于n个数据点,(n-1)次拟合就可以使得拟合度达到100%,该同学使用了22次拟合,拟合程度达到了90%以上,那21次拟合、20次拟合、19次拟合……拟合程度是不是也大于90%呢,如果是,那为什么非要用22次拟合而不用21次拟合、20次拟合、19次拟合……?如果该同学要追求更高的拟合度,那为什么不使用 23次拟合、24次拟合以至于(n-1)次拟合呢?因此,拟合程度的高低并没有什么实际价值,多项式拟合所得到的如此复杂的式子除了占据论文页面以外,也没有任何的实用价值。
$ h. \' L; o6 v' T: T" _
" |1 I+ k& G4 D9 ]0 z) k. L( H 那么高次拟合在什么时候可以使用呢,记得之前听一位建模大佬讲座,他令我印象最深的一句话就是“三次以上拟合都是错的”,当时他举了12年“深圳杯”数学建模夏令营A题的一个例子,当时答辩时候有个队伍分析深圳人口规律使用了8次拟合,显然这是没有任何意义的,因为8次拟合不能体现出数据符合的任何规律。拟合应该是在建模确定了模型形式的前提下确定模型参数时使用的,而不是使用拟合的方法去确定一个未知的模型! ! F4 S; ?/ m( E$ E2 @& J4 j
. r+ `+ @6 E; j# S, _8 R# _1 Z 此外,针对今年B题,采用高次拟合求“供给函数”与“需求函数”并无任何必要,既然拟合的函数已经可以较好地表示出数据特征,那直接采用原始数据去进行数据分析岂不是更好?既然要建立函数,所建立的函数就一定是要“可解释的”,必须能揭示出其内部机理,如果不能揭示内部机理,那就退而求其次,建立数据分析模型,求解相关性,而不管其内部机理,这正是大数据时代所提倡的。 " H% O* K- M0 W9 {5 y
* y0 b; g, V, G# v: ?! M* s
除了论文中“高次拟合”引起的争议,该论文表格没有使用三线表,很多图像是采用了“截屏”的方式,这些都是在科技论文写作中应当极力避免的。尽管如此,该论文仍然是一篇非常优秀的论文,评阅专家当然比我更清楚论文的瑕疵甚至错误,但仍将这篇论文选为优秀论文,必然是看中了其中模型具有一定的创新性,因此,论文中一部分内容的错误,并不会影响该论文最终的定位。笔者并不知道论文作者是谁,与其也没有任何竞争关系,上面所述完全是针对论文内容的客观评价,希望论文作者不要介意,如果有说的不对的地方,欢迎大家批评指正。
# u' W* k, }) g3 O& e
8 q& z0 L2 m4 j3 l- u' P$ ]2 u5 a1 D0 E' ?, a6 d, T8 O5 w
|