- 在线时间
- 791 小时
- 最后登录
- 2022-11-28
- 注册时间
- 2017-6-12
- 听众数
- 15
- 收听数
- 0
- 能力
- 120 分
- 体力
- 36305 点
- 威望
- 11 点
- 阅读权限
- 255
- 积分
- 13852
- 相册
- 0
- 日志
- 0
- 记录
- 1
- 帖子
- 616
- 主题
- 542
- 精华
- 12
- 分享
- 0
- 好友
- 225
TA的每日心情 | 开心 2020-11-14 17:15 |
|---|
签到天数: 74 天 [LV.6]常住居民II
 群组: 2019美赛冲刺课程 群组: 站长地区赛培训 群组: 2019考研数学 桃子老师 群组: 2018教师培训(呼伦贝 群组: 2019考研数学 站长系列 |
在回归模型中,需要判断模型是否很好地拟合实际数据,一般来讲会有以下方法:
/ l; O/ w$ H: H x
2 v1 f% b0 V' b) o- w% M. wR平方:表示Y变量中的方差有百分之多少是可以预测的,R平方越高,Y中的方差就预测得越准确,模型的拟合程度也就越高。* P4 F( [4 Q9 T8 M( }! y+ V. n4 Q
$ d% w# U5 y& A% v- u
举个例子,R平方=10%,表示Y中有10%的方差是可以通过X预测出来的。" X \$ X N( \
4 L- X, C. x5 l! r) U8 a% s3 C; }. Q
F检验(F - test):主要用以判断两个总体(Population)的平均值是否存在显著差异(Significantly different),因此我们可以判断预测值跟实际值两组“总体”数据的平均值是否存在显著差异,如果存在,则可以认为回归模型拟合得不够好。如果F - value大于F值的统计量,我们认为拒绝原假设(两组数据不相关),则x和y(预测值和实际值)是线性(或者非线性)相关的,反正就是两组数有关。
) ]4 n6 w4 Y5 ^8 j, E/ Q B# k. C3 s( a
T检验(T - test):T检验相对F检验来说,更关注回归方程中每个变量的显著程度,可以说F检验是评价模型整体的拟合程度,而T检验是评价回归方程中每个特征x变量的系数的显著程度。在这里,系数是跟0比较的,如果T - value大于T值的统计量,我们认为该特征的系数显著大于0,因此不可以忽略,需要考虑该特征,回归方程中也要保留该特征,如果小于T值统计量,则接收原假设,认为该特征系数跟0没有显著区别,我们可以忽略该特征。+ E2 p5 D; z; M3 |. v8 e& y
" q; }. I. b6 W! X7 ~2 f
AIC(Akaike Information Criterion):AIC是一种信息准则,它提供的是一个参考标准,也就是说,仅仅通过一个AIC值我们并不能得出回归模型的拟合程度,它更多的是通过多个AIC值对比不同回归模型。AIC的公式如下:
$ U& Y+ n' ~9 M0 Q. M3 ?% q) b- k- E4 m" |, i
其中L是似然函数,K是参数数量,而如果总体数据(Population)的误差服从独立正态分布的时候,AIC公式变成:2 B) n& p1 K3 l3 J
' F& w- ]9 X$ W+ V
其中N是数据的数量(观察数),K是参数数量,SSE(Sum of Squared Error)是误差的平方和。9 ]- A \& R; O- x* S% N3 ~7 ^5 A) |
6 |7 S* J3 B3 d# r
AIC综合考虑了模型的拟合程度以及复杂程度,参考上述正态的公式,当SSE越大的时候,也就是拟合越不好,AIC值也会随着增大;同理,如果参数数量增多,也就是模型复杂度越大,AIC也会增大。单个AIC值参考的意义不大,但如果有两个或者多个AIC值在一起的时候,我们比较两者的AIC值,越小越好。因为考虑了模型复杂度,因此AIC减少了过拟合的可能性。 8 |& Q! g4 V8 @! F1 ]6 O0 m
& \5 E6 t: j& ^/ S4 RBIC(Bayesian Information Criterion):BIC跟AIC类似,同样提供拟合模型的信息准则,相对AIC,其对模型复杂度的惩罚更大,它的公式如下:% K' t( M4 X% i, W. v9 J7 P, k! N
# T; W4 ]3 _/ n& U8 ?3 P
其中L是似然函数,K是参数数量,当误差服从正态分布时候,BIC公式变成:
- n) P6 g, n4 \, N2 I% U( k/ O3 H' {1 ?) @: Y: U9 g1 ?! V1 U
可以看出,当训练样本较小的时候,而模型过于复杂的时候(参数K过多),惩罚较大,BIC会增大,可以避免维度过多的情况。 J& p3 }. l: O1 l- Y8 a
( l* g N' z8 g1 Q3 y4 u' @$ v* f6 R. X9 y) v" g( h3 q
|
zan
|