在线时间 791 小时 最后登录 2022-11-28 注册时间 2017-6-12 听众数 15 收听数 0 能力 120 分 体力 36306 点 威望 11 点 阅读权限 255 积分 13852 相册 0 日志 0 记录 1 帖子 616 主题 542 精华 12 分享 0 好友 225
TA的每日心情 开心 2020-11-14 17:15
签到天数: 74 天
[LV.6]常住居民II
群组 : 2019美赛冲刺课程
群组 : 站长地区赛培训
群组 : 2019考研数学 桃子老师
群组 : 2018教师培训(呼伦贝
群组 : 2019考研数学 站长系列
在回归模型中,需要判断模型是否很好地拟合实际数据,一般来讲会有以下方法:# J: ^# k \# H7 f! @6 x. v
. }5 o8 ^" f1 i) f" s R平方:表示Y变量中的方差有百分之多少是可以预测的,R平方越高,Y中的方差就预测得越准确,模型的拟合程度也就越高。2 f2 Y# C& E5 w8 ]
& g8 e: n7 s8 _. ^- D: F" {
举个例子,R平方=10%,表示Y中有10%的方差是可以通过X预测出来的。" j2 f; I5 g% @
1 }# v+ k- m" f }5 N
F检验(F - test):主要用以判断两个总体(Population)的平均值是否存在显著差异(Significantly different),因此我们可以判断预测值跟实际值两组“总体”数据的平均值是否存在显著差异,如果存在,则可以认为回归模型拟合得不够好。如果F - value大于F值的统计量,我们认为拒绝原假设(两组数据不相关),则x和y(预测值和实际值)是线性(或者非线性)相关的,反正就是两组数有关。0 t. A9 ]1 q! ~" p4 I/ V
/ d; x+ B7 r3 H- v
T检验(T - test):T检验相对F检验来说,更关注回归方程中每个变量的显著程度,可以说F检验是评价模型整体的拟合程度,而T检验是评价回归方程中每个特征x变量的系数的显著程度。在这里,系数是跟0比较的,如果T - value大于T值的统计量,我们认为该特征的系数显著大于0,因此不可以忽略,需要考虑该特征,回归方程中也要保留该特征,如果小于T值统计量,则接收原假设,认为该特征系数跟0没有显著区别,我们可以忽略该特征。5 V7 W: j5 z6 L E) p: m9 g6 j
7 K# J( L4 M/ [: `1 d( z4 S# G' J AIC(Akaike Information Criterion):AIC是一种信息准则,它提供的是一个参考标准,也就是说,仅仅通过一个AIC值我们并不能得出回归模型的拟合程度,它更多的是通过多个AIC值对比不同回归模型。AIC的公式如下: # x; K4 f7 f- A8 I6 |3 v
5 D7 n: ~, z e* t 其中L是似然函数,K是参数数量,而如果总体数据(Population)的误差服从独立正态分布的时候,AIC公式变成:' V4 N0 C( T1 H
, W o' y; b& p9 B) q6 l6 H0 l
其中N是数据的数量(观察数),K是参数数量,SSE(Sum of Squared Error)是误差的平方和。" ~2 X0 E6 b l
0 ^, X6 `2 o1 S4 C
AIC综合考虑了模型的拟合程度以及复杂程度,参考上述正态的公式,当SSE越大的时候,也就是拟合越不好,AIC值也会随着增大;同理,如果参数数量增多,也就是模型复杂度越大,AIC也会增大。单个AIC值参考的意义不大,但如果有两个或者多个AIC值在一起的时候,我们比较两者的AIC值,越小越好。因为考虑了模型复杂度,因此AIC减少了过拟合的可能性。 ' B( w" v7 P& `7 G/ u' k
/ I; H$ p6 W, Z/ ~8 u BIC(Bayesian Information Criterion):BIC跟AIC类似,同样提供拟合模型的信息准则,相对AIC,其对模型复杂度的惩罚更大,它的公式如下:, C& N4 m( Y0 ~/ q; A% s3 |# [* I
! e$ X. x5 r1 p6 T; `' m/ S 其中L是似然函数,K是参数数量,当误差服从正态分布时候,BIC公式变成:9 Q: N* G x8 K4 }+ e5 Q& S
, O9 o& D S* x. g" c& b: Q! X
可以看出,当训练样本较小的时候,而模型过于复杂的时候(参数K过多),惩罚较大,BIC会增大,可以避免维度过多的情况。6 Z. _) s5 l" R4 |' w
& ]' P7 b# T3 X8 p: ^
Q8 z# K3 T2 u3 `. w
zan