- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 559552 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 173238
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 18
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
# G8 V, X9 S& z
7 s+ C( k1 N! Z( U) R4 b
数学建模之回归分析 : t# h& `: ~2 Z; t- b
2 k( X9 o# S. d& r0 U
应用场景
1 E; q7 S0 i' ?6 q5 W& y1. 建立回归模型7 ~* b# x6 W, g# `. n
1.1 筛选变量
" h Q k8 h- E% A8 @$ k9 c+ ~1.1.1 确定样本空间$ ~$ |2 G1 \ n6 h3 j
1.1.2 对数据进行标准化处理
3 k3 N; i) z+ @# M1.1.3 变量筛选1 o; d7 D0 @( A- ~+ I
1.1.4 调整复判定系数7 y1 A# F% U' X D+ P
1.2 最小二乘估计
9 L; a2 n$ ~8 T* V1 A2. 回归模型假设检验
( I- M4 e; a* X3 N4 o4 ^3 q3. 回归参数假设检验和区间估计6 C! I2 b- X: N( y0 U' \' t& ] Z
4. 拟合效果分析
" W* E8 {3 _" n8 a! d+ u# [. p4.1 残差的样本方差(MSE)
8 n3 A: {. Z1 o4.2 判定系数(拟合优度)
1 m! C+ i9 K! d& E# r3 Q5. 利用回归模型进行预测
7 s1 Q) l3 d8 C! C) m6 D其他
4 Y" H9 I1 X3 W6 |偏相关系数(净相关系数)
, Y! |, n# o- ^7 @4 W% I4 ?复共线性和有偏估计方法
+ z* C6 g/ A. X+ d小结 R- ^ V8 M0 F# ?5 E% U; R! y
应用场景
) x9 H3 _) C( u) n+ c4 S( O4 ?+ S6 y e$ |
简单地说,回归分析是对拟合问题做的一种统计分析。+ g( U9 k2 q5 `$ @, |5 C1 B5 c5 S
P.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。5 c, v5 Y; z1 `5 i8 I
7 F1 r3 `& J0 h6 O3 ]; }具体地说,回归分析在一组数据的基础上研究以下问题:
$ M- i# B+ z! V# K; N. m
9 v) V" X' J6 t L* m; }/ D; n1. 建立回归模型
. x0 ?9 o8 L8 ?8 }% e' x! Z
0 P) @; r# `+ y7 e w1.1 筛选变量9 D6 X5 { b' D" @$ W- [' z
+ D) q' o4 W: R. _1.1.1 确定样本空间
+ n8 f! \0 ]+ B9 B* a" s w) a
, D4 A4 C( k- [: `
% X k9 r9 K3 s' v5 f3 p所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。
' y( J0 R9 r, p
, U: N% k0 S: u d6 u) W1.1.2 对数据进行标准化处理/ N. f/ F( d p" h) D( i' z5 f0 g
8 A; z8 m. i3 M* n# X
(1)数据的中心化处理
$ O$ W* L9 j8 N0 p) d实际上就是平移变化,
8 J, E0 z4 b8 d4 H" _; d
6 B0 ]; L$ f9 }5 r7 y/ @ R
$ D. _8 e$ R8 P o5 J, j
这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。+ R3 B4 E% {% j/ |
(2)数据的无量纲化处理8 `% _. A/ N5 k0 G
在实际问题中,不同变量的测量单位往往是不同的。
0 t7 ]( Z8 I( {3 O. d3 z/ u) ~4 q为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为1' V \6 A6 B) h5 }5 X t
即,. g) J+ M# h5 ?0 v( @* g
$ U9 H0 v: u9 \
* X: o% A' H8 P8 _4 Z# e) n当然,也有其他消量纲的方法,此处不一一列举。6 f, W6 F# q7 O3 Z3 k6 F& z
(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理
0 D2 p% V/ B+ r5 z$ s. b即,, [, u% b6 y- r+ Y- d
3 b5 L; B& c4 B
Y3 |1 L6 M, B( Q( D; U# \4 G
1.1.3 变量筛选6 U. G/ o' A: O' W
# P% ~- Q, S4 [. C. e——选择哪些变量作为因变量的解释变量:! B, I; S" Z% U9 ]5 V' u% r( ` f% P
2 I, H) |# n+ N2 T# T一方面,希望尽可能不遗漏重要的解释变量) J* f: q8 v/ p5 Z
一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少; `$ d+ W1 V# k5 ~; P$ y
(1)穷举法
4 {2 i# W8 s W3 Q* X* q列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。" \8 I k4 R' ~, ?/ y0 @3 H8 q3 A2 n
假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2 $ b2 E& I( ~# W2 c6 j
m, q! m4 f) L/ c, |
# v) g5 Z/ u! V' v2 f
——当m mm较大时不现实
6 q: o4 f6 A& U! E5 q1 h# F/ O+ ~& J6 b! t9 l' I
(2)向前选择变量法6 j1 H+ {( r! D) R' v( R2 }
1 L1 A) G6 D2 \& L# t
- r- W2 F: `' E, R0 ^6 v# r2 Z: K$ B$ c$ S% H8 ~ E
3 E, H6 Y7 g2 z+ t4 Y
2 J7 K0 s+ N2 S% ]# v3 x6 w& j0 n9 u6 r5 e9 Q6 w! e
(3)向后删除变量法
/ J8 m; J/ k! h4 x B7 z
7 z/ @3 ?2 @# a3 s; l% W& T(4)逐步回归法——最常用
% v4 e# T: H$ V* F5 q* D5 Y. R
' I+ d/ S' n& T ~/ I2 ~1 O6 \
. D' F& C# ]. O: s1.1.4 调整复判定系数8 T; |" Q$ b% \; }+ k7 q
9 o, c8 S. _" T1.2 最小二乘估计# d% b8 {/ C0 d8 d& f0 R p o2 R
$ N8 a: F ^# ^% j: J) _
一元线性回归、多元线性回归——略。
$ B' I7 [' j% @1 X1 J! P. ^: Z' I( X/ J8 @, `6 h; z' U+ {
2. 回归模型假设检验2 z- I+ x& Z+ r, C4 n
" t6 Y7 x$ e! X7 ]——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)
: M7 `8 I6 {0 l& b! D1 u
6 c$ M' s6 @! j# }: N具体检验方法见书,此处不再赘述。
9 J- g: L7 P. v8 n$ X3 ^" l$ y. I, m! n/ |8 J7 D- m
3. 回归参数假设检验和区间估计
- ~3 _0 v) Z( S3 \8 b( ^9 ?# s8 x
1 {% s* C" s% g! t6 `) B6 G——检查每一个自变量对因变量的影响是否显著(t tt 检验)4 z/ m( l/ S2 o4 L9 t& o. s- z( T+ X
+ m' k" R, h a( L0 C具体检验方法见书,此处不再赘述。 U: V0 M1 C+ t% ?/ n5 P
/ [* y7 e. ?! V) h5 b( ~4. 拟合效果分析( S$ p' r; w8 S9 ]" D2 W1 z& A7 ]0 \
: }& M$ q! g4 T1 P0 l7 p0 e/ m4 L
4.1 残差的样本方差(MSE)
- J8 W, O+ @) l" _
: l8 m" J& ~7 ^$ A* x- ?
. g/ a0 x; P, H4.2 判定系数(拟合优度)
. N7 E6 V: Y+ {) t
% @' S/ W3 ]! _/ P
3 S- C, [/ R8 C" t5 D5 b2 |/ E
$ U. P0 O5 b' `0 T$ a$ P$ m
5. 利用回归模型进行预测
9 }% }4 u8 ^ b; ? I3 |$ P' g% j& R ) K) J( T: S$ _3 m0 |$ k
$ K/ Y; O/ Q6 y' L# y0 G1 j! y1 \& ]8 ~0 ^
其他
! N4 ]0 r4 M" H# U& N4 K" R. o4 c9 L' a
偏相关系数(净相关系数)8 l& o8 n9 O! X0 s
0 \7 V* N: P; h在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。
. e- Z+ D6 {) c# i/ B
" r2 }* V8 I [& { j. `复共线性和有偏估计方法+ i ?5 P: O j7 X, c/ x
; l! F( k) Q4 m+ R
在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)5 B4 i( k/ N1 S. E4 R
- p8 P' N/ P: E* N" |解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性4 R3 [% }6 s, m5 |5 [+ |( ^$ k/ c* j
例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。
! L4 o; h8 w: P# I4 s1 o% v(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)
; V9 m! _% o7 Z9 Z' o2 x: `' X: ~" k- o8 R( A
再如,主成分估计——可以去掉一些复共线性 ^; Y; f* \' n) m" E$ ?2 C, T
, n' ?3 B1 c( \* e小结/ Q: B7 l9 l& [' T+ R$ s- w
+ `, a* A# b6 t& {" Y5 ^2 _
采用回归模型进行建模的可取步骤如下:
9 R e. P& m1 e) b2 h' c' \" {( [5 v5 R/ Q! W# B# }
建立回归模型
h. I% h, l4 `( j2 _6 Z0 c, u2 v确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量
& R" n9 F# ?$ _+ u. a原文链接:https://blog.csdn.net/xxiangyusb/article/details/99762451
& t/ l7 d) U) C3 x! [7 m u4 }( S5 m9 ]5 X, d! a
6 `3 |4 d5 k% V2 \1 g7 G& A* H |
zan
|