- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 564636 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174614
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
0 f5 H- m; ?2 y2 g* R& A% h4 A
# _' L- l* q$ Z: ~; H
数学建模之回归分析
" x# T0 M1 S$ @* k# T
# ]+ K5 X9 ]( e6 [! `2 b S应用场景$ V9 I: ~ B5 M
1. 建立回归模型
* A( @) _' k$ p& D. l3 }1.1 筛选变量4 Y/ Z, s5 T* V3 v1 |) t9 E2 I& ~
1.1.1 确定样本空间3 s# ~& J- @/ S! X- a4 y
1.1.2 对数据进行标准化处理
1 n! u4 R8 _, s0 r' A0 s# S+ ?1.1.3 变量筛选! F& c* G' {9 Z$ O
1.1.4 调整复判定系数7 O0 p+ j- G& L* U" s
1.2 最小二乘估计/ O; n! x3 Y3 B3 S& n5 ~/ n
2. 回归模型假设检验
# }& m5 I6 p1 E$ f0 z* l/ \% U( W3. 回归参数假设检验和区间估计& e& q1 p+ z1 H* D) Z0 [6 v
4. 拟合效果分析 L3 x0 b0 I# Q" h; n$ L
4.1 残差的样本方差(MSE)0 q/ g- s# _. ^1 w! q
4.2 判定系数(拟合优度)! v0 V" r' m! z4 z
5. 利用回归模型进行预测2 Q5 G3 L w7 Z& _! p8 X
其他
/ A1 c+ y6 q# E偏相关系数(净相关系数)7 l, v1 `- s: F4 k2 G
复共线性和有偏估计方法 ~" v$ R, [3 Z$ d* I' g6 P. V$ v
小结
* l; n2 g9 A4 t5 y! f( u/ v' d/ L应用场景
# r' u! m! v) H% U, W4 l7 ~3 M4 j- V
简单地说,回归分析是对拟合问题做的一种统计分析。
4 Z! W+ B. o" m$ Y# Y Y1 CP.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。
4 d: l1 P- g/ ?; a
6 {2 O# l, O! g0 x$ E3 \! e$ ]具体地说,回归分析在一组数据的基础上研究以下问题:
8 ~- \: F6 |6 y+ {, z. B- b" d
1 H4 A2 D. g* u9 D& g( O2 n' R4 ^1. 建立回归模型! d. o, S' }1 [( e$ L0 q+ e
: C% Y4 Y5 j& O" |. X K- Q
1.1 筛选变量
6 `3 l: j. k1 K; b7 t. m; [ T
4 i$ f0 t4 P6 v% C% \& w" t1.1.1 确定样本空间
t! I& f9 ]" p* `
$ D5 {8 l5 d5 F* P6 v& e/ v" k1 \
6 d, x: e$ K3 Y) _. ]所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。$ I5 U" B5 \. b! w. j. F! J" g
, z1 _/ {7 t& }6 q) `& U
1.1.2 对数据进行标准化处理
/ C/ J0 W* M" `7 D; n4 m. v; ?: m. I7 K; ~
(1)数据的中心化处理* J: }: i3 S- f
实际上就是平移变化,3 f; s2 P8 a" E# G! k3 T, x
2 l! h' V0 T5 ~9 A2 X
/ |7 ]! U& r/ W这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。
) a3 I2 p6 H( K( N% R4 |(2)数据的无量纲化处理
: v, y! w5 W3 @+ _" k在实际问题中,不同变量的测量单位往往是不同的。
; n8 r/ ?2 g- a, R为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为1$ i! Q1 f8 `; d2 g
即,
9 T4 `( X; Q p/ B: T
2 {9 @4 I% ]% L" ]3 x7 C( [! P' |
: { M; Q/ d0 s2 t& U
当然,也有其他消量纲的方法,此处不一一列举。
7 f. |) q! g% T$ c9 s& L% R4 m(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理$ V- F* f& J, [' B" W* m
即,
& ?4 w4 D3 ~+ k3 A% g; I" @7 t; e9 G) w5 `
9 Z9 Z. L+ ^& l& b9 G9 p2 U( H
1.1.3 变量筛选% e" P9 u( l! T7 @( l; e+ b
! l# e4 k1 B6 l% ~, E5 p——选择哪些变量作为因变量的解释变量:
, ?* J$ i6 V8 Y& I0 D5 T& A5 o. @ e! f
一方面,希望尽可能不遗漏重要的解释变量
+ L4 e( K0 u& w一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少
; w: L. v+ |9 i! a2 p1 q" B" ^(1)穷举法2 q: K9 V `: l' I2 F$ e! N5 H
列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。: @! l0 z1 Y( h9 r K4 t4 {$ c
假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2
2 {* T& ]0 {9 T: y9 Q7 A. Y- Am$ T% V9 o4 p1 P0 c J* C8 g
8 I5 ]! r% A0 F ——当m mm较大时不现实
: R/ R3 q/ t/ ?$ f, W) a, d. q/ @
(2)向前选择变量法
' r$ B& I3 g) \) `
! D$ c) q( ?, r; P1 X
6 s* \$ m4 H3 K6 W6 E G2 M
1 U* _9 N! ~& y+ N6 A: i# v
& @9 k9 L& T, K" U0 t5 A% M0 s
$ i+ W; [1 k0 [% Q$ f
+ G' p) W* R/ x
(3)向后删除变量法) s0 k1 Z$ P( f4 c# F3 c& }; r; \
+ U3 c- \4 `! U/ q7 N
(4)逐步回归法——最常用% E1 M! o. X0 Q
9 Q2 l; A7 L+ K' I
* t5 h5 {9 A" p" G0 J7 K. L3 D2 O1.1.4 调整复判定系数" ~1 T: Q. t# w% \1 ]+ z
: G( ?9 Q1 e( t& C7 i5 |5 K1.2 最小二乘估计
) G) B# Z. L/ E; {6 @( g( }! r) b1 N# b7 g5 |# I; V; H
一元线性回归、多元线性回归——略。# {3 O, `' v5 S
2 t) ]( l; d; z$ n0 U K
2. 回归模型假设检验' O2 e+ @: n/ B
6 R& ^* n7 A! l
——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)
8 ~: H/ B3 K, C. [4 i" J( A* U6 [5 u+ N \9 }) r! d( Q
具体检验方法见书,此处不再赘述。
( I; P3 o8 s/ _1 w& Q3 u+ X# v
' E' E5 F2 j# f3. 回归参数假设检验和区间估计
+ g. l2 j$ d, ?. h: c: s/ s' s0 r* {3 z* _0 t) o/ p- L" g
——检查每一个自变量对因变量的影响是否显著(t tt 检验)
* e" T E/ |. o$ |9 o7 A$ I8 D: J& H& p$ H- p1 q& q
具体检验方法见书,此处不再赘述。$ t- P# A9 }1 l1 h; l" R! Z0 q
3 x5 r6 _- i* r: ]: A
4. 拟合效果分析
. }5 s7 O* f/ _& O2 y1 R; @4 A8 G. r6 {: ]
4.1 残差的样本方差(MSE). D- w) |5 i2 ~8 I8 L
" Z) d7 D' W% W
* n9 J( g5 Y4 K6 W" a2 |/ |& k; h4.2 判定系数(拟合优度)
% Y! |' s& a% Z; e6 C& S: L
0 K7 h9 X* D6 v% l, q
0 E! g0 r% }& [
x- i% E6 l" |* c# E8 O. U& x5. 利用回归模型进行预测5 n$ N8 s( i5 }
8 X+ _1 f2 R2 c" R
1 t3 P ^$ w; ?3 c
. c2 d1 t; I5 T4 C$ K/ z9 T
其他
3 _0 @# @& x" z" l) p" c6 g" m2 J9 v! V ?8 Z6 C
偏相关系数(净相关系数); h( Z! B, D' V- p
6 j! Q f: z" M( x* V3 ^
在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。
, i& j2 D, G) g1 Y4 l& B1 j7 i8 C+ ^
复共线性和有偏估计方法 @9 k5 K- |5 {
* |. F( `' a) z1 U
在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)
/ ~$ L$ L0 \7 T* [9 x& c0 G- X, ^* { u" {" P
解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性! t& O+ X3 e g% p. q% Z+ H
例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。
7 Z4 \! h$ U' W+ D) k7 y2 Z1 L(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)
: ^. \$ z% `! Z$ C& H
/ v: x6 u' \, D1 z1 P+ o/ F再如,主成分估计——可以去掉一些复共线性
% h l9 G; V3 D v4 F' i8 T
1 j1 U; M$ P) p- z3 [小结
0 y; _$ G8 P4 ^" b- |6 N
4 f9 b9 h( U+ x+ [0 K采用回归模型进行建模的可取步骤如下:4 P- ]8 i+ g+ N: l2 t
4 C/ m. N( }" Z% a; }
建立回归模型
8 k. p2 r; Z& a& C$ ^确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量
( B) k& y. K" r Y* b原文链接:https://blog.csdn.net/xxiangyusb/article/details/99762451
: x% p/ z# a& h5 J1 u; E3 _% F& Y% i7 a t5 f% K
2 Q+ @. s6 Z3 o
|
zan
|