- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 81
- 收听数
- 1
- 能力
- 120 分
- 体力
- 541013 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 167682
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5324
- 主题
- 5250
- 精华
- 18
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
$ u% _4 m# t& r Q6 Y' L t
; n/ Q& U0 S8 M# U: v# \2 A Y& R
数学建模之回归分析 5 g) o2 W# i5 n, Z$ E9 |7 ~) h8 X
: P$ z, M8 N( `应用场景$ B" j# @, a) {
1. 建立回归模型
" {3 ], H, @! G1.1 筛选变量2 A0 @* R+ q$ V% Z2 _! I
1.1.1 确定样本空间
6 ?! j4 _6 I$ E% q9 v1 b1.1.2 对数据进行标准化处理
( z. R% L+ d) Y& Y1.1.3 变量筛选
: ?& ^. P6 i" ^ k1.1.4 调整复判定系数# m7 [ O5 B( M
1.2 最小二乘估计% y: B7 N) h9 P |8 f" n# U2 {
2. 回归模型假设检验# F: S- `- M% C
3. 回归参数假设检验和区间估计2 l- t3 l! H% t+ P- u- j: C1 _$ z- ~
4. 拟合效果分析+ b/ t5 p' l. N8 p: c# k. ^" a
4.1 残差的样本方差(MSE)
" H$ d" H1 Q, a9 p4.2 判定系数(拟合优度)
$ ~0 M9 }6 [' c3 F* v5. 利用回归模型进行预测
3 c. H$ c! ?7 F0 ?0 C9 b其他" z) s; X) @& O
偏相关系数(净相关系数)* q* _2 V% Z1 x
复共线性和有偏估计方法
9 \, e6 }" @1 t% z小结( e* ~) @5 H2 {. W; K1 v
应用场景
9 h( |- R; F/ q- n
3 v9 b7 _" L, ]2 G! D# l+ l简单地说,回归分析是对拟合问题做的一种统计分析。" ~ k7 G, e' g1 M% _: o- c! E
P.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。 t% t/ M+ D: c- F
' L9 Q+ X# Q) `2 Y0 l
具体地说,回归分析在一组数据的基础上研究以下问题:
6 A: S7 z7 w& ]
2 I$ E. Y; H+ [+ g+ k5 J
1. 建立回归模型9 P Z# x3 ~+ `1 \8 f0 r0 n
8 X0 F& N: [: J/ S1.1 筛选变量
9 `2 U; U- F$ I2 A7 v. g$ K5 f: d3 y# J2 m8 J3 b$ k; M
1.1.1 确定样本空间
" i, W7 {) u, }% Z* K
0 w* A/ g$ k( J1 s! H/ A( ^" ~+ _* t, g+ q# g& w
所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。
% v% E; R% f" h. b! _
" T" E6 A! g" \/ O7 }: g: R; u1.1.2 对数据进行标准化处理1 g% T3 a. m, N- \# Y
+ a1 M+ E8 m; ~1 ~/ j(1)数据的中心化处理
$ M, U% ]. Y! T) H u实际上就是平移变化,2 R% q' C3 \, z8 a
6 t/ m+ }- m/ t. `
" @& Q" { p! \$ U+ x& w0 J3 U这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。
1 a$ K1 a) I5 D& {(2)数据的无量纲化处理* s( u1 i% c, q; u4 |
在实际问题中,不同变量的测量单位往往是不同的。
0 S& D, s$ k0 U$ @! m& J为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为1" R! a4 ^5 c. j& e J
即,7 ?0 ^) J' P l: m7 `) h% L: O6 ^
. X1 y9 X0 F! s* c6 d
5 p7 p1 N/ w, y% ]$ ^" X3 L9 g当然,也有其他消量纲的方法,此处不一一列举。+ X) B! E2 q; k
(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理$ Y, }2 c) [5 i* {
即,6 F8 a p, ^! t
4 O( a! A8 l3 T; k6 l- w
" ~* l0 r3 I1 p0 z8 j1.1.3 变量筛选9 E0 Z, t- l. y
& u1 e, Q+ b$ c: W+ C! F——选择哪些变量作为因变量的解释变量:
* O/ O6 r. ~) f. ~" c0 l" [# N+ P- |" T* q
一方面,希望尽可能不遗漏重要的解释变量4 D0 z" k, Q+ _% j% D
一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少
; T5 Y; | f6 n' `" d3 @( X(1)穷举法
. ^4 n0 z$ c( I4 u# r1 S8 ?# B% A2 V列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。0 \9 _ B4 E* |# k
假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2
" M& D* b, h8 P8 [! K1 j5 y( b5 vm& a' k& t) }7 b3 b
# G* c. R# r8 x" l, a9 c
——当m mm较大时不现实0 r% p( B& i- u) Q1 W3 p2 D9 T% [2 o
" z1 X0 W0 _! i2 X) W, u(2)向前选择变量法" T- } }$ Q) U+ {% q3 ?/ P m
0 E; D* \: I6 K
0 [, }5 C; j5 l/ r2 x* M
8 a9 i5 P* C- t0 h( ?1 E- [& S7 \
3 c' z, t0 } r6 z7 @8 i, @1 T5 Q1 G' r
7 n# T$ L) y1 Q6 _/ I' J
6 x, V: M7 y" f(3)向后删除变量法7 F5 s, x# x* k# A
, D$ ~- \6 l4 N Z8 A- k: M. ~0 W(4)逐步回归法——最常用: m* X. j& R3 J
" V0 `& O% k& b' V1 u7 u
- I% e) H6 j, C, ~
1.1.4 调整复判定系数/ @$ \" z8 {- o: L/ [: E
3 L! C$ c Y* D2 p( k( h# ~+ a* u" d
1.2 最小二乘估计" b' r9 v+ l0 p2 {. P
# i( I; a8 H, ]# w
一元线性回归、多元线性回归——略。
, P% `5 }! [1 d" A7 e8 i. l! ~0 ?% G
2. 回归模型假设检验
3 I' n2 d1 a+ H, B/ g4 l$ y: ~+ h7 F2 P3 X4 x+ d8 c
——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)
2 _( Y6 r3 m' R5 m0 P5 c" K! E" z* B
具体检验方法见书,此处不再赘述。
8 `0 {9 Y4 q% h" A% G6 ]/ a- y) e2 ?/ I4 c3 U- N
3. 回归参数假设检验和区间估计
& N% \2 i) t5 ^+ s; L+ @) \
3 b5 J3 |/ d) t+ I9 S——检查每一个自变量对因变量的影响是否显著(t tt 检验)
0 Z$ ~+ e$ V) _ }
$ V3 W" y4 a3 o具体检验方法见书,此处不再赘述。; P6 [1 f8 V9 G4 W+ ^7 u
7 P9 }* v- _9 W. s( I9 U
4. 拟合效果分析
. `4 D- Q6 k9 F" ~
) f1 G f; w5 l$ i4.1 残差的样本方差(MSE) M$ W3 y9 {1 Q5 a9 {. P
/ g! `# A2 W( {4 j% Q* a' }; A( r
) [( U. q$ A( D9 q. K0 }! B4.2 判定系数(拟合优度)
) R+ a" Z% T# X7 T$ o' `) j5 X
0 l& b# k/ y- o& ?, Q7 S) [
; r! W6 M6 j! U( h
+ [+ n7 n; y0 `9 r) @3 ?. g* r5. 利用回归模型进行预测
: a$ w3 G* V& G& [8 Q4 U8 [) d
5 E1 H3 U% C8 g( x2 {: r* }2 x5 Q2 _% b2 Z* F9 R* u
9 h5 Y8 p# }$ U5 Q! I其他- v' L& z% K/ T1 W$ q0 P; U3 p) u
, g% r" K. G$ _# m9 v偏相关系数(净相关系数)
6 w6 u* y; X2 O' d
5 V; d V6 t1 |5 m在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。- l9 k! ^. B1 S* Z3 M% Z, H
9 B5 M$ ~* y& w9 ?% P% J复共线性和有偏估计方法
) F h4 D% q( E; w6 P$ S& \& @" i- ]( \! |8 K
在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)
/ g) s- g, D- W0 N1 b) N3 Z( |) S }- @8 X. e e
解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性
+ Q/ e3 \! G$ M; n% [8 ?例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。, D. e# ^, F/ Z4 a: o
(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)2 R* p* ]4 w* a5 F, ?. \. |
) ]% J0 M- j0 G0 f
再如,主成分估计——可以去掉一些复共线性+ o M0 n% u6 v- u
* d2 m+ H4 H* d
小结
' i$ o4 L0 [5 Z% h
- `9 f: D+ y1 j; q采用回归模型进行建模的可取步骤如下:
4 k0 ^/ E, T' S- S: I4 U- n
3 X0 i. h( e o- L建立回归模型
1 n& R9 d8 w5 A9 ]确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量! _# G8 w7 h4 k+ m9 S! ]. ?
原文链接:https://blog.csdn.net/xxiangyusb/article/details/99762451. y, j5 D6 n+ y' J
" h ^* x# L" k3 _' y
! f) Z3 X) S- Z: U" x5 q" d: a |
zan
|