- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 559783 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 173308
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 18
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
U- J9 Q4 o& ~) T& }. t; R/ Y8 q8 |/ h2 C
数学建模之回归分析 2 f! B4 b" p8 A. M4 k) L) f; C
* {% g; S# ~2 j; {1 [+ `, m2 `应用场景! t; S. w1 }+ c9 _* C/ x1 @
1. 建立回归模型9 s; D- C: I5 B N) P3 {4 T
1.1 筛选变量
- h8 M8 ^9 I) }' h1.1.1 确定样本空间
. I7 d! h4 Y5 E" e& s8 `1.1.2 对数据进行标准化处理
& L, ]+ n3 e4 w5 X+ E" g1.1.3 变量筛选( j; R ]; A" O" @
1.1.4 调整复判定系数# K1 h. P) s$ I
1.2 最小二乘估计/ E. f4 ~, K5 O. j
2. 回归模型假设检验" t) ~+ N5 S+ C0 c& D% m4 ^2 b& N
3. 回归参数假设检验和区间估计 e* @7 _4 ?3 z+ C
4. 拟合效果分析
7 A8 U8 Z0 ~* {+ ?4.1 残差的样本方差(MSE): `7 O" z5 ~6 v
4.2 判定系数(拟合优度)
: K6 {# G! ?/ z' f0 T5. 利用回归模型进行预测
1 D$ t& H, G. R N1 t5 b其他
- e Q& Z4 v$ u) k' g N: T n偏相关系数(净相关系数). k9 C% x7 B2 Z" `( m/ b
复共线性和有偏估计方法
- n5 v$ k, ]& K G% F) O9 l小结
K M% w! ]& V) R7 N- u1 ^/ M应用场景* Z) {/ I% y) `& c0 I# @; u6 G& F
& N/ j& ]2 W& o/ d2 M( J0 ]) \4 x简单地说,回归分析是对拟合问题做的一种统计分析。
F1 \- b' g. _2 D1 B7 tP.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。
. T6 `" U, n/ O0 o i, O1 H' a1 t" c4 B
具体地说,回归分析在一组数据的基础上研究以下问题:
- H/ _! t7 n4 A. l, N8 F6 S
: h# m( c- X/ L0 V3 P1. 建立回归模型" L: C& b e5 Y6 K ?5 g- w3 G: t+ c
, F3 P! I0 ?2 L+ U1.1 筛选变量
6 m) G2 ~! J3 C3 z
- p/ k3 w( h! e1.1.1 确定样本空间- n N3 {5 R, g" R$ n
$ Z2 P* h! p |% Q" o
! u% i1 f: w. Z2 p所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。
( q; Q1 n( m, | A e# c+ F. z' k& d& l4 s/ G) o8 W/ j$ ?$ u
1.1.2 对数据进行标准化处理
% X4 L3 _! A" N7 r+ h4 f
3 [; i. q9 S# F W ~(1)数据的中心化处理$ T; K! J, D+ D5 D9 D7 a3 n
实际上就是平移变化,
2 l& r( D6 O+ F% H1 L, k
+ i4 j1 H: g* ?
0 @/ j: R, c- ? H8 m3 _+ n' D
这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。
4 i( P* a( {( H(2)数据的无量纲化处理 G7 d, m! B9 h m; {% S% H
在实际问题中,不同变量的测量单位往往是不同的。. }) k1 S$ x$ `/ o
为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为1
) O" t' B. E1 [# N即,: x, [# T7 w2 r
- z. Z8 a' e4 Z$ O+ l
' {6 l; o- n" y4 Y1 I当然,也有其他消量纲的方法,此处不一一列举。
% r8 F7 x. x( R: u1 v* d(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理
! g. g3 v8 U" w- H. z5 b3 j即,1 `/ a6 a/ k& P' D" [- o: \5 Y$ i( W
" k! m( p! F, B$ L8 L
r' f, D5 z+ ~$ g5 q5 c4 ?
1.1.3 变量筛选9 g3 y) f% o) J, F5 f2 N
8 B% k# t+ o9 T/ Y/ t& R' _5 v" I: ~
——选择哪些变量作为因变量的解释变量:
! I! ?# ^8 X- a: \) K! @5 ~7 u; f; }( Q" e- S. B
一方面,希望尽可能不遗漏重要的解释变量
% f+ i7 q7 ~0 i9 m/ g一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少0 L8 f9 @/ x3 ], S$ v; Z2 A2 S
(1)穷举法
( Y' R' G1 [( i! q8 C列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。- a, i' J2 a( L8 N9 Z# Z
假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2 3 }9 d& d) v' W. ]
m
' V1 Y+ ]3 a3 u( | 0 P7 V' v8 Z. ], m1 B
——当m mm较大时不现实7 K0 A+ P4 n2 j$ Q* H, @+ l t
) d; x* p8 f6 k* F5 R! Q7 S ~9 v5 ]
(2)向前选择变量法( H/ w3 l' k* I, C7 A2 ?( Z7 [
|$ I. x& Y, ~, c) B! c$ G' X# W" ~! _4 H' x1 v; S% b0 O, q7 k' `
6 g; n5 H) w: E/ O% D0 K
0 Z4 T; ]% }' k
0 F9 Y7 o, _) x4 S
7 s5 {$ o. c/ L3 j(3)向后删除变量法
9 V) @1 o0 H+ P5 H( u4 b9 z, m4 N
7 ~ i/ |$ ^% z4 j7 y7 N
(4)逐步回归法——最常用
& v$ r" [( I: w, U4 S6 {/ Y" @
' g. B y" L7 p; E- s" N
5 i" i0 |: ~$ a3 A- i% X2 |8 g1.1.4 调整复判定系数, y5 C; s( Q4 t* h/ z- S) W
; b+ l$ { j0 y k' h. W; A2 u
1.2 最小二乘估计5 l( a% @8 ?1 h) x: O
" ?, i. V8 Y! o$ P一元线性回归、多元线性回归——略。6 [8 @( Y" W% a# F2 c, p0 s; _
8 R5 [# J4 u4 b$ I W. I1 F6 r2. 回归模型假设检验
. F$ W9 Z4 P1 G4 f6 R" ?" x
|" F" c* i% f0 N3 w4 F——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)
; [5 Z( K5 Y3 \! O9 F9 f
0 u$ Z7 I# n9 ^! [. P' h) }) f/ t) S具体检验方法见书,此处不再赘述。
]6 m8 i# j( t% x U! E
4 t1 M! |4 Z( o3. 回归参数假设检验和区间估计
) X) L/ s# o' J, N. O2 M- m1 Y, v8 P* O Q
——检查每一个自变量对因变量的影响是否显著(t tt 检验)$ m4 @7 t) h+ ?+ ^
8 @# N8 b/ a( c( t8 W1 v4 H$ M具体检验方法见书,此处不再赘述。/ Q) h7 l3 Q/ a5 ]8 m M
+ W; T4 A! ?( K
4. 拟合效果分析
7 |& M5 n" Y, Y# t2 T( ]7 t$ ]% R2 T
4.1 残差的样本方差(MSE)
+ u& \1 b9 H" N) c* B$ o" j, f! b
3 |/ i6 J7 ?9 w3 b4 d1 x, C% s8 a6 h% k% `0 P" Q
4.2 判定系数(拟合优度)
. A: M0 }. I- o
4 a/ Y7 C! H7 ?: U# m/ T
6 X1 ^" o' z. v5 K$ S& k) J4 U9 z% i
' u( }# A7 f4 F5 P5. 利用回归模型进行预测
7 K: V/ i; u4 y![]()
" ~) U* P- _ R- w5 n; x
& ^6 r- t( h+ J& D$ p; \: V* d1 f* e
* g( s' m$ d1 A6 E其他
# b0 V8 h- r( P& _1 R
) q3 c6 {: z+ W6 ~) Q' `5 P偏相关系数(净相关系数)0 O# U* D% q2 O! C' B- n
- T5 k& d( \" E( |
在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。
l' f0 q& L3 u- r/ B3 y! y& Z! c/ U+ d
复共线性和有偏估计方法: g1 r1 ~0 v3 y* U) W, W
5 }* L; r* ]3 q5 h$ A
在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)
/ D, D( f" k$ H% `( z- c h. I' P7 Q$ H6 m
解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性- x* [$ A3 ^% _' S+ p2 }
例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。
[% Z0 W4 N) l+ U! v% ^3 }( K(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)
* ?; [7 v/ Z' C1 n9 B$ E4 t1 a' _4 @% Q3 C* j% B# o
再如,主成分估计——可以去掉一些复共线性
* Z$ s. o: _- K9 @
, E, \9 w4 w5 a7 y9 h小结
* ?* N, a7 r8 p9 \* `# a/ K2 ]
* f6 j& E; h% L. C采用回归模型进行建模的可取步骤如下:0 ]$ g1 D$ n. D. }- d8 J7 C/ C
% \" K, B5 p/ [( ^建立回归模型3 R5 N6 f+ C( P, M( A; z, G4 e6 q
确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量
9 Y& b( b' m( m+ i$ ?原文链接:https://blog.csdn.net/xxiangyusb/article/details/99762451
$ s" h4 K1 G/ R2 A; J
: V( B1 [ _( H/ P& b
# B2 |: L3 A& O6 d# v8 d" ~2 ^% Y |
zan
|