- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 81
- 收听数
- 1
- 能力
- 120 分
- 体力
- 541083 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 167703
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5324
- 主题
- 5250
- 精华
- 18
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
9 X' U; o2 U# Z, R7 C0 E! |, D: d& f5 x: O- v5 u4 ^! Q
数学建模之回归分析
4 `3 Q' Y% z& p3 e) v6 @
' U' L/ V k9 f9 N ~# `- V应用场景
8 {+ B5 v. V5 s8 ]8 |1. 建立回归模型
9 B3 [$ k7 [1 L7 r8 A8 K; g! n1.1 筛选变量
: l3 p% A* O9 H3 o5 y) G1.1.1 确定样本空间
# @1 J p+ V9 ?3 z, j r; P1.1.2 对数据进行标准化处理
# s y7 ~6 G1 Q, T7 k$ J' _3 ^( b1.1.3 变量筛选
! d5 d- k+ L! k! s% v8 d1.1.4 调整复判定系数$ I0 t' Y* l7 U$ j9 d- G$ H
1.2 最小二乘估计/ m6 T+ z" @. C2 b
2. 回归模型假设检验& ~1 S" T7 @' K+ c( z; T' C
3. 回归参数假设检验和区间估计
1 e: H; s e C0 C4. 拟合效果分析
2 Q! w% M/ O5 c* }& n _) K4.1 残差的样本方差(MSE)- b" J. U; z- O. M' w
4.2 判定系数(拟合优度)+ A2 a* G% ~7 r
5. 利用回归模型进行预测5 K5 N+ z- n5 C; \
其他
6 X( P/ y6 ]+ F2 T$ ]偏相关系数(净相关系数)
0 u' T* y6 Y( S& R1 K% A5 r复共线性和有偏估计方法
( t @, N$ |' i# S小结/ ?& j, R' L# I
应用场景7 W1 u. c8 i, y! \7 P7 v
1 w# d/ D4 W2 b" U# d7 R简单地说,回归分析是对拟合问题做的一种统计分析。
' d/ l0 H; D; ^( M! Q! ?* P. FP.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。5 L& Y, b5 G! l2 X0 w7 Y( O
, }; L( D! @# @0 f( f
具体地说,回归分析在一组数据的基础上研究以下问题:
# y9 ]1 c. c3 s" s2 I; H
H4 D/ `% D3 D" W, d ^5 a& ]1. 建立回归模型
0 a5 s0 s$ I7 O" g, L* Z$ X% d4 o( m
1.1 筛选变量4 I, J, g7 V7 X: p. j9 ^& Q. Q
, |# O. A; q; p% k8 Y% M; c; L1.1.1 确定样本空间$ t( b- F- K' u9 ~ }3 q4 e
- Q8 ?5 C, h0 V
) m8 C M- z) n" p% A所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。
+ U0 d5 m$ F( F( u' X5 n* J6 w; }) X
1.1.2 对数据进行标准化处理
% b1 ~! P |2 A# n( [. R& c; ?+ N) a1 Q
(1)数据的中心化处理
6 P R2 W% I* C" J, v实际上就是平移变化,% q1 T- n* w, `$ L
! S' D: |1 E! Q
/ Z6 g% ^; I1 L' a1 Q8 E' \6 b这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。, ]' j- C: N1 ?5 y
(2)数据的无量纲化处理
7 |3 O7 u$ |: u6 {在实际问题中,不同变量的测量单位往往是不同的。0 i# ~: M% J' y8 x9 e- y8 I
为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为18 k# \- P( O, w' V8 i
即,
# H, j8 e, a/ T5 m. e# B) w& b2 ] S% `8 m$ ^
4 j z- E% Z% J4 y6 p8 C/ n l
当然,也有其他消量纲的方法,此处不一一列举。
) }$ y3 e7 M! l: N7 c1 i- A(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理5 w$ \- e! l/ \$ |' G
即,
8 y3 x2 t' g6 R/ B: J3 }; M- E% ], W0 w: U
$ ]4 I5 r* D- |) t1 i
1.1.3 变量筛选
$ x0 ^- l& i4 F- W# m9 i' s( M
; c& w' h) d! ?; ?; y9 d——选择哪些变量作为因变量的解释变量:7 v1 W3 L# t0 }- H5 |/ Y# \
4 {/ j9 k7 Y4 E. {& d. E一方面,希望尽可能不遗漏重要的解释变量
; s! Z- j8 I8 ?: g- `: O+ h一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少
: S4 u3 D' n/ P) D. _ N" Q, H(1)穷举法
5 x/ ^7 a \: V3 M1 w2 v9 `列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。
* b2 n! b. i: N0 {# D假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2
# L5 H& r T+ O; U! v1 _. tm1 O; p( Z$ X0 ?3 I" E' c: Q
5 Q4 {7 ~7 _* x ——当m mm较大时不现实
' L/ M$ Y( v* j9 r4 Y: s, K7 [% g H6 N$ q1 X) d$ y/ C
(2)向前选择变量法- y" ]* y2 P( I' Y/ y7 s
/ o& z2 B4 C5 ?- O7 a1 c
% c7 d8 k9 z: o3 s, ~
0 U5 R+ C0 `9 [0 S8 Z0 G
! {8 C7 l6 `! s/ u: n0 d
9 X! b( S- p+ Z9 T+ L
1 s% {7 E+ a& |$ b/ P8 b1 y
(3)向后删除变量法; v( D+ h9 @' d# n$ N
8 v4 V) D3 i7 z+ e+ `(4)逐步回归法——最常用% s/ ~& r `# c6 g+ [$ ^
5 J; b% [6 i# G2 t
; k: ^3 ?2 |) f5 Y0 |7 m: l1 }1.1.4 调整复判定系数$ {5 D7 f% O1 G. T4 x- S; k
7 `; j* t4 p) e# D. |( |( R1.2 最小二乘估计
! \$ F# D4 u5 G( N3 K$ H9 _
8 z6 p1 J! C2 ]. o3 _/ Y一元线性回归、多元线性回归——略。- h) [! B9 g f" i
% l# `2 {* ~# N
2. 回归模型假设检验1 K7 M% y b$ P; H
4 Q1 a A' |1 O0 H1 r1 r——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)0 y& D( c4 g' u, ^1 X5 ^
& T5 O4 w. V9 W8 Z( n具体检验方法见书,此处不再赘述。
) ?4 y# ?' {" O0 x4 z
0 S' A$ f* v! d3. 回归参数假设检验和区间估计) q9 q% C, E8 p8 g i, C- V2 }: I
3 A; U5 q S) C1 A, V% }) ]
——检查每一个自变量对因变量的影响是否显著(t tt 检验)) q' o2 }/ G( u. J/ G, _6 B) z' D
7 E ?- I( M+ T具体检验方法见书,此处不再赘述。 `9 R2 L& N' w" Q6 a( k
8 b, b2 a4 ]7 L9 m4 g
4. 拟合效果分析
0 m$ w0 L& k( j7 u% @+ ]5 Z0 E, Z) D4 @2 h0 L' n
4.1 残差的样本方差(MSE)
: `: b4 t/ J( G- q
" ?7 T1 _0 G7 L; d+ I9 o6 }
! J! `0 w+ c' D ]5 W4.2 判定系数(拟合优度)8 i. N" j4 B- m
: G3 \! ~0 m5 z
6 F) E$ I5 E4 o) c# r1 O% l |2 ?$ D O8 l# T A& U
5. 利用回归模型进行预测& k: }6 J4 \: [( m6 u
$ u+ P+ ]: W* P
2 W2 X3 i* y3 `( v
3 w* G2 j2 C7 j5 X6 S其他4 h8 h; Z/ y* t+ `$ B
0 s1 [! m V7 s) E
偏相关系数(净相关系数)& R& [3 m" j5 p& p& u. Z a5 B
9 V9 r V# h T在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。; S# C5 q6 \# _! g
! P+ F' ^% u5 H$ B复共线性和有偏估计方法
3 d7 G o# y, [5 a' L" ^! @3 `" g! }7 x7 F$ e
在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity); r1 f6 O3 a+ j# a3 J! K2 \& C
* L2 h' z' U& S- m6 t解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性7 S3 |: \: @( y; F* m& W
例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。
, u$ f0 ~4 S% c' M8 ?* C(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)
0 A1 [: f, q" F8 m z/ `) b3 D& D) D* H; o& Q( V" `' C3 i4 E
再如,主成分估计——可以去掉一些复共线性
' {3 F. n! U1 W5 j2 F t: F0 y
/ W: ]: z* h' p小结" O) X+ J, u7 c8 U$ T" y' U
$ H0 K; z, x l' n) d+ Q采用回归模型进行建模的可取步骤如下:
1 ?$ O: V+ F7 N& n1 ^( ]: m/ S( f3 C8 C3 H& }
建立回归模型
: F. N+ C& e* [' L# u) {. B! K确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量
- X5 R6 I! }5 J4 B原文链接:https://blog.csdn.net/xxiangyusb/article/details/99762451
' Q6 W4 U+ k. v0 d* _: q9 x0 q; V+ U) W) g9 O; Z1 U
2 L6 [# @1 f( U* }7 w' Y, { |
zan
|