- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563412 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174246
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
4 q3 h6 t0 k5 L# J& _' |6 Q b) o6 O6 J) Y/ _: J0 g' F! H
数学建模之回归分析
* l$ b _3 p. [/ M) g2 @) E/ j' T0 Q1 x5 H6 x0 x, c( ^
应用场景0 k8 t% E: e V k4 W1 X- l. Z
1. 建立回归模型3 j* |0 H$ s4 V ` f8 u, T
1.1 筛选变量& q3 G: i, e" \" _# F$ L8 S4 K+ |
1.1.1 确定样本空间
/ ^6 Y" c4 _6 @% K# e1.1.2 对数据进行标准化处理
; x$ w8 _9 t- n: _, ~7 ~- G4 i1.1.3 变量筛选
. { L4 {: S! T& k2 I1.1.4 调整复判定系数* W8 o( T3 u3 A7 X/ }' f
1.2 最小二乘估计* f) E9 {6 J: Y
2. 回归模型假设检验( `+ a. l( ~+ y e6 T) [3 r
3. 回归参数假设检验和区间估计0 r ?* f; ^) ] v: q8 ^
4. 拟合效果分析
6 k: K" [8 e. f0 F! I4.1 残差的样本方差(MSE)
, f. V1 ^# l+ p9 f @4 x( {4.2 判定系数(拟合优度)" E1 C. d! |2 d- _" r7 m. i* G1 D
5. 利用回归模型进行预测2 m. o: @0 c2 \- b0 |
其他
8 v' N( I5 K% N偏相关系数(净相关系数)" b- [5 j7 l, D7 K( h8 B" K
复共线性和有偏估计方法
0 Z* v5 |2 F+ O7 O3 Q, m, O- G小结
, h% t6 z$ |/ A0 _" x, `应用场景
4 E/ @$ C( r- W( @! \5 k
' ]" R/ E6 M3 J8 u简单地说,回归分析是对拟合问题做的一种统计分析。
5 r' R) w( B( J# a2 [9 ]# F; cP.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。
, U8 d- M2 H+ N6 W& {, z- c# Z1 O3 m2 W3 u2 S/ O
具体地说,回归分析在一组数据的基础上研究以下问题:
, C& Y7 T9 u. w; M# Y7 U
( M) l) N$ H1 B# H U
1. 建立回归模型8 g8 D1 L! w& ]
& Y1 W. E2 q: N! p
1.1 筛选变量
) a$ F6 l& {0 ~# Q
6 w B6 Z- G+ ]6 X1.1.1 确定样本空间
' q9 ^' L% D/ c
+ r' Q A9 |2 {- p+ Z
5 d3 c7 K& z' E$ b, L- S( ?& d所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。
, B4 s) j$ z- ]6 _6 C( R3 y
$ S# N8 y! k- D5 c" B- p* Q% e9 J, e1.1.2 对数据进行标准化处理
0 @* M" v( y. V
1 T: r, e( g" M" W+ P(1)数据的中心化处理7 `9 n* o0 v% T! N6 F2 n
实际上就是平移变化,
* S% E! s: A% d% y: {8 ^& A
/ }, B2 i0 x. p* D9 D. Y
' m$ D1 P& h/ t8 H" b! x/ D/ H这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。, w. X; s5 L$ r* D( m
(2)数据的无量纲化处理
* ^) L3 w& e1 T& @# a' z在实际问题中,不同变量的测量单位往往是不同的。0 r8 d6 @3 A0 i" Z
为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为1. j" J( \" }3 f2 u: E, N/ V5 a
即,2 ]+ V0 S3 J; z
4 R' H3 x( H+ Y4 Y
$ b1 S- ] `1 ^0 ]1 Q9 K当然,也有其他消量纲的方法,此处不一一列举。
$ D8 ?; f. y: a9 Y7 `. r(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理" M; a8 u$ \1 G, B
即,
- w3 I/ @+ l5 S& y2 z+ d# z( V) Z/ K" f5 }# v( j
! I" {$ R1 j8 }* h, T% L2 a1.1.3 变量筛选) x/ x+ I1 S+ {/ O$ W. k% `
" c. Z) J5 W% H: e7 R' ~. e——选择哪些变量作为因变量的解释变量:- J) u/ E' h* ?
$ K/ U) J, g5 e7 ~+ y
一方面,希望尽可能不遗漏重要的解释变量
1 |- G8 c( Q. F1 P$ k一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少" B, l$ u# a7 F! I
(1)穷举法
) A4 I1 M5 K" f: {列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。
3 A1 a; D) r' w3 K3 R7 c; X+ o) a* _假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2
, Q- }' Y6 [9 ]" R$ L: U3 H3 A# Lm) q; w2 ?% u2 Z6 O& B" Q
2 D1 G( P- b X ——当m mm较大时不现实, G8 s" Z& K! |. f; ?/ Z a
* B; i: y- r R$ K- |(2)向前选择变量法: d- q- d0 [" L0 P6 `8 w. R ?
% z1 h: t8 |( I& v4 f6 c8 I, ?
& X2 Y" k) U4 M. ]# Y
: k6 a) u l+ `* W7 ]- [( u
1 e2 g" A3 [/ S; E% h9 n
; y, A6 U K* Q* [1 M5 Z4 @
5 e1 m- z6 a/ O8 l& I; e" i4 R' E0 e(3)向后删除变量法
# l3 @/ F% c& j* d- @
$ d( } S( d. t5 o* e# h1 {/ E& n(4)逐步回归法——最常用9 E/ M9 M3 _* p
/ ^ f* m) g: f# }
" b: i8 X/ R5 q( U. P! d; P1.1.4 调整复判定系数
6 `. l! ^; B9 s0 k% v# X1 z
" H& u# d! A- [% c. R
1.2 最小二乘估计
, n# b% |* M$ f# T6 \1 s# l. Y
; K Z3 a+ }0 I# v0 e6 m/ t一元线性回归、多元线性回归——略。
) f2 ~1 f0 u! {8 y* q$ ?: g6 T4 | p) m" e
2. 回归模型假设检验0 j/ j, E" f) q/ N
7 K. X+ J2 o/ M& i O6 k# K——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)" C# h( q: ~ c; y9 {+ Y1 P `, ~$ G
" r0 J, _+ Z$ X3 w4 v具体检验方法见书,此处不再赘述。
# s, ]6 R8 | i5 K7 x1 a0 c8 v% ]5 l" M/ C: T; q' b8 x$ a
3. 回归参数假设检验和区间估计/ R c4 K$ q9 E# W* H
' G( V9 y, f' q# o7 |6 r
——检查每一个自变量对因变量的影响是否显著(t tt 检验)- I6 i- m4 B% \6 x
: Y# e, v& a- T# S6 S; T1 R具体检验方法见书,此处不再赘述。
# h' x& O; D1 o) x/ j* |. \
# W* V" G; V% O: ]) E) y- S4. 拟合效果分析
; S; v9 _- B. d! x' _% d2 f* z3 i
% x: d4 U& E0 @9 o0 M% V! `' o7 S7 B4.1 残差的样本方差(MSE)" H {4 r- f; Z$ A3 w
8 t/ C" G6 C+ Z$ ]# O$ `3 Z8 E! D+ \ n
) d7 V/ Y6 ?) v* E6 O3 b# k4.2 判定系数(拟合优度)
, J& [, o* L5 g
4 S' h$ r/ k" T u- g
~4 I; j6 A* {% _* Y! b, r* d
7 q5 W. q& H2 p$ i- H. h5. 利用回归模型进行预测
! i& Z3 I" @ {8 S) V I4 {6 K![]()
7 v" h) q7 g2 h$ a6 l1 j+ c! ]* u: i, _
3 F2 m# Z5 s# ?3 I其他
/ J. x* J4 R" S) x& V) i0 ^8 n$ B; h# e2 }* A
偏相关系数(净相关系数)
; F Q) G0 h2 |3 U2 o8 r5 C% h5 q
在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。# e" |2 o9 t! o* i, G" T
* {) ?) F. |: W G; u* T0 I" h
复共线性和有偏估计方法% g: E# m$ k( c5 v
. v; U+ p1 X- t& T l+ C+ ]
在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)4 c9 I8 U8 T h- m& Z- R
# Z) T7 k3 g2 j1 y4 e解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性 g9 u, y s# E
例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。
" K& w: P2 r, O6 f/ S- R5 a(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)
# y; H& @- H- ~" g
3 B$ ], g0 K9 ^9 a' e再如,主成分估计——可以去掉一些复共线性
5 e) g5 W7 ~- i* \, Q V2 G( j1 [& P! b/ n' r$ ]# V5 B1 i: o
小结
/ M' w. G5 Z* D) e! L% n# d+ r2 W' k* r% Z+ [1 L/ T3 R' m
采用回归模型进行建模的可取步骤如下:
) g1 ^# Q8 Y9 ^/ `( z7 Q% X! q1 F, Z' M! k6 z
建立回归模型
0 ^( h1 I P& |7 X确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量
$ f" {3 _% j3 N: U E- d1 Y' e2 e原文链接:https://blog.csdn.net/xxiangyusb/article/details/997624517 c% p8 }6 D. C! E: ?. `
8 Y( [& Z) c. j
. _6 `5 h. A$ a$ m) D% u/ ^$ ~; w
|
zan
|