- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563420 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174249
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
: p( v6 v" }( a- v. I8 o( v, n& U6 D' u# H7 ~$ f
数学建模之回归分析 " `- i$ k/ Q* \. O
" }) z$ ]+ |4 q& g& ? F应用场景4 k+ v; N4 ^7 ~
1. 建立回归模型& k: G8 C) k* ~& x. S
1.1 筛选变量! {' V8 H0 o# M! Q @3 W& X0 r5 }
1.1.1 确定样本空间! s( t- T. G' {& G4 B, z
1.1.2 对数据进行标准化处理
`* u6 D- s% b0 }6 {. p1.1.3 变量筛选
3 P7 }: c% w9 ^( n1.1.4 调整复判定系数' V5 l/ q4 C3 F& g
1.2 最小二乘估计# \; N; S# x* o; K
2. 回归模型假设检验
& d9 y; g2 J0 j( [ V) N) u$ ?3. 回归参数假设检验和区间估计% w, ?4 o6 `: C( I
4. 拟合效果分析) g+ z0 n( G6 g! d$ `0 m, e
4.1 残差的样本方差(MSE)
1 ]0 g% j& H" h' y. V7 W3 [4.2 判定系数(拟合优度)7 w& j( h) I- K9 Z& N
5. 利用回归模型进行预测8 D4 _ ~$ A/ @3 X0 X0 g
其他
( l& B8 E4 S {1 Q偏相关系数(净相关系数)
* B4 k9 T* _9 D( [- {% g+ G5 i复共线性和有偏估计方法
! Y' W4 g6 s3 V& }( a ^9 G( i7 g7 m( C5 E小结
# @; M- H8 T2 i! p/ A; W( b应用场景
! b$ _9 ]7 ^* ?+ q$ G+ L z" U+ E9 Z% D! J0 k8 A
简单地说,回归分析是对拟合问题做的一种统计分析。
) [3 a; W4 A% FP.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。
. Y( j( W" L0 {8 P5 k; `7 A- d. r U E8 a$ D; Y; F
具体地说,回归分析在一组数据的基础上研究以下问题:7 i& @' j/ O* [, b
" @* d$ }) V0 D
1. 建立回归模型, o/ V+ Z s* T( D$ q5 T
- {8 c/ ^6 A1 J2 u% T1.1 筛选变量
3 O7 W3 j/ g& T# M; }) z8 z3 Y1 Y7 A# `
1.1.1 确定样本空间( \# u. W3 f- m( M/ \
; W6 U# |4 v2 P" p4 p5 c e
" Y" N7 O& y; y8 N+ d$ h( ]
所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。4 B# w. y7 S2 y, u
6 S$ F6 L) h1 y y0 f e6 T3 u
1.1.2 对数据进行标准化处理) F- }/ B; ~8 J ]6 O7 U4 C
% i& C0 Q0 ?! ?8 Z6 ?
(1)数据的中心化处理
% r) [2 h9 r2 Y4 d实际上就是平移变化,
; d- |. I# R; m$ R$ A7 z1 x4 [$ l! n, E/ k0 ?
; ?% P$ V* r A1 d! H这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。
4 `+ A- c' C4 @' Z(2)数据的无量纲化处理
% X$ {4 j2 a g0 S$ } k在实际问题中,不同变量的测量单位往往是不同的。7 V. k; ]# J2 K# s2 ~
为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为1
: x" z- n9 H8 D: J: l z即,6 C$ h' U# Q' j0 V# h" Q
! r' i7 O7 Y) p; E) P
1 `" t- v' r1 w1 J/ D0 }
当然,也有其他消量纲的方法,此处不一一列举。" j; H6 Y0 h- C+ G: e- H8 X
(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理
) }3 z/ k: B, o1 t: C即,
) D4 Y! i/ \& Z' m! V
/ j {/ \- w5 ]0 h
* S/ h( \% W5 r
1.1.3 变量筛选
) U, K- G$ R6 s
+ ]% Y% S8 d& f2 s4 @——选择哪些变量作为因变量的解释变量:
& e' P- M7 M Y5 ?" A$ v1 }. C5 K# ~( ~( @* X' w/ o
一方面,希望尽可能不遗漏重要的解释变量
( a1 U4 o' d r8 i一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少
) L2 N9 x m8 U(1)穷举法: K& Y: u* f$ t+ g) h4 K ~0 }
列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。5 Y! q' P7 N Q0 C' J5 Z
假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2
' s4 K8 }' g' E" b0 Y- Wm
) A' p, P) D! \
1 [5 H) x1 f8 j8 C ——当m mm较大时不现实/ S. l5 v. N% Z- e9 C9 F
% y- ]. Y2 o6 F(2)向前选择变量法
- X. [" ~/ Y: b. {/ D3 b+ [" d
: s) |. z q* o( x B) V5 b' ^# f) f" `' F+ J( ~ f
. r1 S9 f Q5 G/ C3 ~# U
9 l3 w! m; J$ C
# }. k0 _3 w+ \/ h. m t0 O7 A+ L1 R& _
(3)向后删除变量法- e1 r3 _: M# i9 z; b
% }' F: S3 K& {(4)逐步回归法——最常用
7 y% e$ _; h3 p8 L/ ]4 t
/ A2 t# ~# D* r. M: Q3 z$ h/ u" y# m" m5 ^
1.1.4 调整复判定系数7 A7 W! }2 R2 t
0 H. n. z! T- m9 F1 Z0 r. G1.2 最小二乘估计' i7 B+ e1 E" l" k! e
+ v2 \/ i3 }0 y" R9 O; X( z; ^6 q3 I% q一元线性回归、多元线性回归——略。
1 q7 j) n+ p" U1 o# A6 Y- @' T; S/ U* `( K) e! z) e
2. 回归模型假设检验4 R1 L" p8 H4 J0 m9 q& K
& u4 ?4 D' m. |1 S
——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)
+ P1 ]/ E* k8 m
1 t0 K- _9 K+ d具体检验方法见书,此处不再赘述。
# @4 D" L* Y$ F9 m
2 ]) R1 L7 w e3. 回归参数假设检验和区间估计0 e1 k! \+ T& q! f- g6 E! x3 ?2 a/ u) u
+ ~: q4 J( P; T5 J$ c" S6 T——检查每一个自变量对因变量的影响是否显著(t tt 检验)
i/ ^+ A0 _6 X9 {; G8 r
/ L. w' e9 b$ v$ L具体检验方法见书,此处不再赘述。' t: J# Q) [8 A, p( e3 H! C
1 D7 G" P+ h. V& `1 Z7 V$ f$ p
4. 拟合效果分析& F5 e! A+ B, Z4 Z% |4 P* t0 M
2 M( }; D. S+ \3 W- p- X" U' |
4.1 残差的样本方差(MSE)8 O* X% [! H4 y5 U
+ u! a! D; r4 W/ P& k( @9 x
]) e/ Y* s% g4 J7 r
4.2 判定系数(拟合优度)1 R2 I9 i% h0 H0 m) N
7 O) @ }3 R* r4 t9 S
0 i& Q9 |! l4 t- B$ N+ b. h. _# E9 @3 {
5. 利用回归模型进行预测
) E3 D% \1 |* I) g! r$ v5 |' J " [5 o7 \# m6 v
; y: @$ G/ [7 A2 ^7 o5 Q
: `& |4 N8 w; h( R }其他0 b: ?0 F2 Z! x" t: q
( s a. T3 s1 Z- ` x偏相关系数(净相关系数)& @5 A2 ]& B* K. t& E
( A O" G! `$ p1 |: P* x
在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。' Q" U) T* r: \
$ D5 h; c9 _/ ~1 ?8 |( M
复共线性和有偏估计方法
) m; R' e H7 w+ \8 k
7 |& p9 k' R- A: [4 y4 b J g在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)
$ \1 x) @( g# U& j8 R: { M8 n' W3 i( Z5 f
解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性
+ c6 v1 G% X8 V) c例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。8 _8 a& g+ ?* r# ]
(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)0 h O+ o& P$ v# W" l
% w3 Z5 r6 n: m: r
再如,主成分估计——可以去掉一些复共线性
o3 ?) \7 z, i3 G+ r8 X2 k7 l* { w- t" W o( Z
小结
+ J* H& S9 |( c9 ?9 ^
S" E" R* m/ \采用回归模型进行建模的可取步骤如下:5 z) K. X6 @" e+ U" y/ m
" w0 w% [/ w- v/ @ `/ S+ I
建立回归模型
$ t8 h1 N) B: m2 H) i' V0 {确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量/ @7 H4 ]7 r7 g- g. _- w, x8 q
原文链接:https://blog.csdn.net/xxiangyusb/article/details/997624510 X6 v n! @5 I% t k
! ~# l! {& ^* `5 z
! ]2 r! U* i4 b. q3 k. I. e) }) X |
zan
|