3 {6 Y4 y& O, w! @1 M7 X3 j; p 数学建模 ————统计问题之预测(一) 2 h' f" D" o' y/ |9 w5 } 该资料是笔者根据自身理解一点点写出来的,希望各位能尊重这一份来之不易的劳动成果。因个人水平有限,资料中难免会出现不足与错误,欢迎各位的批评指正。(笔者曾获得2015年全国大学生数学建模国家一等奖,2015研究生数学建模竞赛国家二等奖,2016年美国大学生数学建模竞赛M奖) " h! ]% m0 Y7 }& [$ G8 `% K! P" i
统计算法总览: A" p# \- z2 F W& W
7 e. ^# h8 |+ q9 q1 i4 Q
统计一词源于国情调查,一般来说包括三个含义:统计工作、统计资料和统计科学。其中统计工作是指的搜集、整理和分析客观事物总体数量方面的资料,统计资料则是由统计工作所获得的各项数字或文字资料,一般反映在图表、分析报告、统计年鉴里面,而统计科学则是指导统计工作的原理、原则和方法。 0 z- ^* g9 f1 W* R" T# K- Q 因此,在数学建模比赛中统计问题一定要有文献资源和数据资源的搜集,并且这一部分内容也要反映在论文中,而整理通常来说是将搜集到的资料以图表的形式呈现在论文中,最后分析自然就是数据预处理和统计算法建模求解。- `2 R3 L8 B5 `; x! `+ i
1 W! I0 L: w% c' n0 R+ x1.预测 4 ~/ P. D) b0 v. \" n$ c: w6 N # v1 b$ q, d: r3 ^2 S 预测,顾名思义,即根据先用数据规律推算接下来的数据。而预测按照算法可以分为四大类,一为回归分析,二为概率估计,三为时间序列,四为机器学习。& y: {: ^: J4 Z% M3 K
1 | [2 O( {" P# i: U( f/ Y& \
(1)回归分析 0 b- I7 F. u+ [) j/ L$ K! h * g: @+ ^3 j, n, F; Z+ M) A% @! {0 w B! { 对于回归分析,该类算法适用于求解单一输出的问题,在某种程度上可以叫做函数拟合,即利用一种函数去逼近原有数据 。我们在高中阶段学习的线性回归就属于一种预测方法,下面给出几种函数类型:1 j f- X+ }( K L5 d) h
L% h1 N' o, t. R4 E* j a 多项式拟合: % g) _5 f9 ^# r% B1 T' } + {4 e4 k' g) G4 n8 m" [: j 非线性拟合:$ m8 [& N- R$ t# p' B
* z4 t! X* _' l/ V; y/ s! z# | 多元拟合:" Y p7 B: q' T9 P! B
/ l. Z% C& y8 v$ l% R 如下图所示,该图像是利用了非线性函数对原有数据进行了逼近,有了函数自然也就可以根据输入计算出接下来的数据,所以回归分析也只适用于单输出问题。而回归分析的关键问题就是对某一函数模型的参数进行求解,matlab中有专门的拟合工具箱polyfit和lsqcurvefit:" L* `* K7 F. d. O& I0 f. U! t
--------------- p1 c3 \5 ?( }+ l, j% k0 b0 G( y1 S% q2 q. U! z
" p! X- L; |( x2 e 这里给出matlab两种基础的回归分析代码: $ }& L. N \: D 3 \9 `1 ~. N9 J' k$ W % i5 ?1 q4 `# Bclc; / L0 B+ @6 F0 @" X) \clear; / p# A' r5 s8 {8 Jclose all; ' ~, Z, f. ?' J* U%% 线性最小二乘拟合( `5 `, S$ q& Q9 E
x = 0 : 0.1 : 1;%输入 $ z: B" C0 W, [. B+ Xy = [-0.447 1.978 3.28 6.16 7.08 7.34 7.66 9.56 9.48 9.30 11.2];%输出 1 A# N: v. g- f6 T' v; Q7 w" yA = polyfit(x, y, 2);%设定多项式最高次为2,且输入输出长度要一致,并输出多项式系数A 7 \( P& E" g) i( ~4 u% {6 D" cz = polyval(A,x);%将多项式系数导入,即得到函数,然后输入数据x,得到输出数据z( R4 g$ z. G- l' P; e) s3 G
figure(1) # c% j$ k$ n! r" Gplot(x, y, 'k+', x, z, 'r') %将原数据以“黑色十字”散点绘出,然后将函数以红色曲线绘出' ], ~5 ^4 b4 w* |- K& H1 I% H
title('线性最小二乘拟合'); ! b, ^4 `+ N( E; \. t 7 R' b/ S1 X1 U& Y" @/ N%% 非线性最小二乘回归 ) v7 F) I5 x8 T1 [' }, If = inline('a(1)*x+a(2)*x.^2.*exp(-a(3)*x)+a(4)','a','x');%定义一个非线性函数,变量为系数a和自变量x $ S& V, R: e+ k @; da = lsqcurvefit(f, [1;2;2;2], x, y);%设定系数a的初值为1 2 2 2,然后开始求解;5 o& m" L: ~) I% k2 V X
figure(2) * V1 ?9 s; D$ _' eplot(x, y, 'k+', x, f(a,x), 'r') %将原数据以“黑色十字”散点绘出,然后将函数以红色曲线绘出% E& c, s0 p: h5 \6 A% T5 T! P
title('非线性最小二乘拟合');4 J$ c% \3 o5 E3 T. X9 w$ i% v
5 ~. L. |' u0 t7 J - k" ^; o( F+ o+ \" n! V# z 效果如下: E7 a7 b1 [& t ! ~! D& n% c. h5 c( u (2)概率估计 8 T( k% u8 @% j, I* r1 W! |6 h; E; o
而对于概率估计,其中的代表是马尔科夫链算法,即先给数据划分状态,然后将数据的分布规律用状态转移来解释。最后对于当时数据的状态,利用根据状态间的转移概率可以求得未来的状态概率分布,自然也能求得下一状态的预测值。2 r/ y9 B9 S R5 |; |2 Z& y0 |! Z, R
$ x: l& p6 z' j 比方说,我只去A,B,C,D四个食堂吃饭,现在告诉你我吃饭的记录,现在就需要计算我在这四个食堂中的转移概率,如我去食堂A吃过后再去四个食堂吃饭的概率是多少?通过这些转移概率不断推算我下一个要去的食堂,再根据四个转移概率得到最大可能去的食堂。但是这只是离散问题的预测,对于连续问题,自然也就需要将连续数据划分为若干个离散的状态,在使用此方法。 ! d+ c9 Z) S( F4 q0 s2 e ; q3 T; D# |7 C% F 此方法对于初学者来说掌握会比较困难,不过如果能成功使用会为论文添色不少,有兴趣的同学可以自行查找资料了解。(《数学建模算法与应用》一书上有讲解) , j4 S# A2 i2 q* A 1 g. P; q: `/ }6 b1 w/ p0 B(3)时间序列 * ~* W/ l: S! K e a# Y4 x4 x5 s+ l$ G& a' [8 { 第三类称其为时间序列,因为输入是按顺序的离散值,大多数情况下就是时间,针对此类问题,由于输入以稳定步长增长的,所以不用考虑输入,直接研究输出的变化规律,这一点类似于高中学的数列,比方说有名的斐波那契数组:1,1,2,3,5...,它的数据特征是f(n+2)=f(n)+f(n+1),现在我们要求后面的数就直接利用该数据特征就行了,当然也可以求出其通项公式,有兴趣的同学可以求着试试。/ U* K9 A; d v! y C3 v" i
6 V f' F4 R/ e1 |* m3 U) T 而时间序列方面的算法其实就是猜测数据前后存在着什么关系,比如说:一次移动平均算法就是猜测每一个数据 与最近的部分数据的均值存在着某种关系,指数平滑法就是猜测每个数据都跟之前的历史数据的加权平均存在着某种关系。这些算法都可以算作是时间序列算法,不过以上算法都是对数据特征简单的猜测,而对于更复杂的数据特征则可能会用到微分方程,利用微分方程,即可以直接预测,还能用于灰色系统,从而将无规则数据转化为有规律的生成序列。# Q4 M& `7 F( A* j! Z& V
; G! t3 r4 ?9 o3 x# W/ W- v(4)机器学习3 g, A7 L3 o) Z2 {5 \2 [! r
: }+ W4 N& F" S: T/ q& L 最后一个就是机器学习,即我们只需要搭好框架,数据特征则会由其自己挖掘,比较有名的有:支持向量机(SVM)、决策树、神经网络(深度学习)。这种算法的最终目的是模拟人脑的结构,它的好处就是在搭建好网络结构之后,通过对已有数据的学习,网络会自行提取数据特征,然后只要我们输入一个数据,网络将自行计算,然后输出它的预测值。这种方法的优点是方便,无需考虑数据规律和数据维度,而缺点则是要求数据量要大,少量样本的训练效果一般不具有适用性。 # A4 B3 N. A5 Z i3 q! p; q1 s- ~6 Y, F2 t% l
(5)模型检验; x) d* Y8 u2 e