数学建模社区-数学中国
标题:
回归模型的判断方法
[打印本页]
作者:
浅夏110
时间:
2018-10-31 11:25
标题:
回归模型的判断方法
在回归模型中,需要判断模型是否很好地拟合实际数据,一般来讲会有以下方法:
, N; w6 \. B1 W
/ U6 [; b: f, ~8 u
R平方:表示Y变量中的方差有百分之多少是可以预测的,R平方越高,Y中的方差就预测得越准确,模型的拟合程度也就越高。
6 b8 X& \2 ]/ }& q6 i( v
; r( l$ s+ F; M8 O$ E: p! C
举个例子,R平方=10%,表示Y中有10%的方差是可以通过X预测出来的。
4 Z- U1 W1 C0 B5 M7 l# c' o0 T( w; C
' Y0 e$ ^* G+ r0 l
F检验(F - test):主要用以判断两个总体(Population)的平均值是否存在显著差异(Significantly different),因此我们可以判断预测值跟实际值两组“总体”数据的平均值是否存在显著差异,如果存在,则可以认为回归模型拟合得不够好。如果F - value大于F值的统计量,我们认为拒绝原假设(两组数据不相关),则x和y(预测值和实际值)是线性(或者非线性)相关的,反正就是两组数有关。
" o5 p4 j( V5 e C, y
3 k/ ~$ j1 A+ L. o, W+ [6 L
T检验(T - test):T检验相对F检验来说,更关注回归方程中每个变量的显著程度,可以说F检验是评价模型整体的拟合程度,而T检验是评价回归方程中每个特征x变量的系数的显著程度。在这里,系数是跟0比较的,如果T - value大于T值的统计量,我们认为该特征的系数显著大于0,因此不可以忽略,需要考虑该特征,回归方程中也要保留该特征,如果小于T值统计量,则接收原假设,认为该特征系数跟0没有显著区别,我们可以忽略该特征。
* Z y5 ]! K5 D, l' B
7 j8 Y; E/ h# n" R X
AIC(Akaike Information Criterion):AIC是一种信息准则,它提供的是一个参考标准,也就是说,仅仅通过一个AIC值我们并不能得出回归模型的拟合程度,它更多的是通过多个AIC值对比不同回归模型。AIC的公式如下:
$ x5 ^3 N+ m1 i! A
. t) w# P! p9 r) `; X' O
其中L是似然函数,K是参数数量,而如果总体数据(Population)的误差服从独立正态分布的时候,AIC公式变成:
( S1 Z4 C9 m7 f7 P N. L" z
& i& S( J: a7 T4 U7 f
其中N是数据的数量(观察数),K是参数数量,SSE(Sum of Squared Error)是误差的平方和。
8 v3 y" J8 i- u6 C3 x
3 M" T9 P: O* h3 k! u' N; k
AIC综合考虑了模型的拟合程度以及复杂程度,参考上述正态的公式,当SSE越大的时候,也就是拟合越不好,AIC值也会随着增大;同理,如果参数数量增多,也就是模型复杂度越大,AIC也会增大。单个AIC值参考的意义不大,但如果有两个或者多个AIC值在一起的时候,我们比较两者的AIC值,越小越好。因为考虑了模型复杂度,因此AIC减少了过拟合的可能性。
& |' ~" S2 {4 b0 [$ x
. _! G8 Z$ f# N) \# t
BIC(Bayesian Information Criterion):BIC跟AIC类似,同样提供拟合模型的信息准则,相对AIC,其对模型复杂度的惩罚更大,它的公式如下:
( M0 H2 A$ C; i% J% a x3 [2 g
x" i+ b3 x) y3 f
其中L是似然函数,K是参数数量,当误差服从正态分布时候,BIC公式变成:
" N4 a3 h6 B9 V0 t
1 M# n4 r) x% @! o' P
可以看出,当训练样本较小的时候,而模型过于复杂的时候(参数K过多),惩罚较大,BIC会增大,可以避免维度过多的情况。
* i+ C* U' O [- J
+ {$ P& }3 d4 i5 ?( T
; E: z E9 s6 ~- J8 U7 k
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5