- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563404 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174244
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
' b% I0 V% C/ m8 J G5 c; J+ P( d |/ O0 q9 l: R
数学建模之回归分析 ; b8 \% z# d, n5 O9 y* n g/ C
3 @4 \/ [' W; i: T- T+ J8 b应用场景
6 { a* I, j9 C: y! t1. 建立回归模型
7 ~5 u$ b) P! ~1.1 筛选变量' Q; @# N$ R4 e; H
1.1.1 确定样本空间- r# o B; q) ?5 X$ ]* P
1.1.2 对数据进行标准化处理
! l5 ~# P8 \- M0 |4 K1.1.3 变量筛选
: ]# G& f( h( W l1.1.4 调整复判定系数
3 A0 ]7 [2 X8 `! j. N$ h/ |1.2 最小二乘估计
2 p. X3 a0 h3 D% ~9 T2. 回归模型假设检验
9 X8 Z' O% L' x0 _" @8 T. U3. 回归参数假设检验和区间估计
) G" E, [/ f' S4. 拟合效果分析
5 ?" Y3 m5 r- |- Z3 y0 @6 K5 C4.1 残差的样本方差(MSE)
0 k$ ^4 b/ E& {4.2 判定系数(拟合优度)
9 q) s% q& S: |! e. h; o. h5 {5. 利用回归模型进行预测
* b [4 |2 M3 c- B2 S其他0 l) P! V6 l4 A: |. ?
偏相关系数(净相关系数)" y# M$ q9 d& e4 M1 |2 V; s& \
复共线性和有偏估计方法
- U& g# D8 _& \1 r" F5 _小结% N/ O; _5 x$ Q+ R, H* P5 N) y% ^3 Z
应用场景
: y5 ?/ q" Z: D, n; J* v6 L7 T
" K, b4 v& B6 X简单地说,回归分析是对拟合问题做的一种统计分析。; x5 l" b4 e& \4 A+ Z) F8 n
P.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。
! G/ @7 P6 d4 y- F$ R9 T/ ?" x5 L, q1 V9 h
具体地说,回归分析在一组数据的基础上研究以下问题: {% q4 @5 U; o* z5 \
) X& f( F6 S/ c. n0 M* [1. 建立回归模型
4 @6 S) B8 { d
+ C7 `- p6 a$ J& Q1.1 筛选变量
5 l% g+ g8 U, U6 g4 f6 _
% F% [/ \1 f* y' M0 ]$ O% `! Y1.1.1 确定样本空间
( B* X1 y. E. `# A) U1 \
8 V' d: Y( E5 u2 j) R
5 o/ ^# N0 m& |; h所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。
0 B/ K) x3 v i( Q: r u
3 W) o% }- m0 ~, E+ t! g# O6 V2 D' j1.1.2 对数据进行标准化处理
; F% B* ]3 T( x d
. b j7 S" x) h+ S8 ]6 U5 @4 u(1)数据的中心化处理
7 [9 U/ B1 y$ x0 p7 t1 |. b7 W% i实际上就是平移变化,$ l8 a# {* A6 A
5 y' {3 r( s" x1 J, Q
* @4 K: N. j: i: v% Z9 G. s' T这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。, ?+ R. C* ^; A, q3 f1 a, R
(2)数据的无量纲化处理
, v6 F0 T, \# l9 X$ Q& _在实际问题中,不同变量的测量单位往往是不同的。* \9 j5 H7 H9 {0 M/ y
为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为17 n3 w1 \- _; b2 e9 V
即,
6 T3 g( @ I1 y0 L+ s
" c/ @1 O* U" K3 V0 O$ _$ Z- b
, A# G2 S- p5 Z) [/ B当然,也有其他消量纲的方法,此处不一一列举。
5 h! u6 p& ?* a% x" M4 j0 ]5 Y(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理
( m: k1 ^( a3 F1 V2 m( D; D9 d即,
& D7 _2 f* g' v% p d6 s' E5 G# w% N; _! l w
6 s6 G' s; J! m0 I8 j4 V1.1.3 变量筛选# ~& l, ]! W q
. Q# G5 I* R J* u; ?$ D1 {: t; B——选择哪些变量作为因变量的解释变量:
3 |; Z- |% |2 } C9 P0 F" M n$ G3 S+ h9 ]% L q1 |5 H
一方面,希望尽可能不遗漏重要的解释变量- V% f1 U5 Z7 S1 v* p+ C; O0 w
一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少( u! Z- r/ B6 O$ P
(1)穷举法
; R, A9 ~, T0 t! j5 S+ ^, ~: P: R列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。
* V- C& w7 L" x& Q假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2 2 @. p, a7 p& _% n. q
m
% P* X' C# q' P' F. n$ ^7 X # V* ?0 @* j5 Q: {( B4 s6 ~* j2 Y
——当m mm较大时不现实
: N: K7 p$ x3 L* r7 l
+ h7 g" t+ V( `+ e4 t(2)向前选择变量法
) q* a% {9 R% r3 A b2 D. w
; V1 G9 N4 } o( y Z! q
, c8 e$ N6 y: V T* @- |- U. u3 Z
5 f2 r" C l. e
) s, e) e& ]- b6 A8 T) l0 @
" R2 |' R. n' y; e" e3 R8 e( |. p
! h- n: ~# c' b. n) D6 a
(3)向后删除变量法
2 ~2 N5 q& Z7 x
6 r7 E9 j% V# J" n9 m
(4)逐步回归法——最常用
5 X& [8 @+ b3 X+ W5 g. i
' p9 {3 u1 k2 i6 w4 Y
7 | k- l# _ h2 x/ f1.1.4 调整复判定系数
: k2 ~: A3 A; d( O) u
. C% G D, Q9 w! m$ f, }' w
1.2 最小二乘估计
( x# u+ ^3 z+ r9 W( ?+ k& [3 D5 {& \1 a7 w5 S
一元线性回归、多元线性回归——略。! S+ d$ d8 B+ T3 J' a7 t* V; ?0 c* g# D- O
2 l& I9 t5 J; Y: w2 ^7 W) W1 c
2. 回归模型假设检验
* ]. Q; }( k0 i7 [6 e( |3 S" |. ~# ?) o. ~7 m4 k
——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)8 N5 k; |; |+ K
% l# \. _( O# `; B' H( H具体检验方法见书,此处不再赘述。( v$ }0 C6 e* N0 D! D5 w. |
& j6 @; M. M) u; E1 Z5 w; Y- w8 \
3. 回归参数假设检验和区间估计8 H( m5 p4 D) Z- Q
! r- |" L! z: u9 q+ s——检查每一个自变量对因变量的影响是否显著(t tt 检验); Z% k* L+ _+ G# f7 a; N+ y, T9 A- P5 p: T7 N
( Y) t- P7 {% j' i
具体检验方法见书,此处不再赘述。
0 ^- X0 D' g; ?. g( ^3 z) k! {) I
4. 拟合效果分析
/ u w1 j0 V6 T9 `* U5 N4 D" K4 s% X
4.1 残差的样本方差(MSE) X& U6 N ], |1 p
6 Y* \; R0 i3 l# v* u1 j) C+ ]. B; d% C. D
4.2 判定系数(拟合优度)0 F6 O& a" u" Q; }4 W8 f
: s) v& C% L8 p" j) A
+ U1 M$ e- [, ?/ s* J
8 t: E2 D; {0 `4 y5 B
5. 利用回归模型进行预测
: l. O/ S* A3 l+ B t![]()
/ P2 ?9 j5 }8 m5 z' a+ F" m& c! t, l: W% U* C8 a
8 t2 H7 r. a' A
其他+ O) V. q) D: H0 \0 K5 j
) u# ^( }$ N6 Y/ m3 R3 f% L) S
偏相关系数(净相关系数)
6 Q% n5 D" o, L. ~8 k- E. y5 R, U/ [1 R2 I$ w3 F% p- r0 C
在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。( d- p2 r/ h5 y+ z3 t; u
2 R/ W, r# d3 K2 n) n
复共线性和有偏估计方法
8 d+ a3 W) H% z7 R+ ~
s( Z4 c% U6 \ C/ s' Q8 ]% q在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)
1 I. W8 }0 O1 f% {+ F7 w
' K( z& q% s5 Z3 }$ A1 Q' g解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性
1 D) U( i+ G; ]- @6 i/ @' H例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。
6 y- w2 W2 N+ j1 C0 I8 ?" L4 E) }(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)
: f4 o1 m* T# g' i" o$ j. R8 G' g3 P. h6 s. w$ Q3 |0 i
再如,主成分估计——可以去掉一些复共线性
$ z# s& b4 [2 m- b: U3 \: q6 e; v2 l% I, V
小结/ h# F! x: t$ U" U: o% ~
% n. O- Q: m# @8 W. g2 r2 v. g
采用回归模型进行建模的可取步骤如下:
, @* n! _( ^: B2 [/ c
8 s- p# h! M) S" P$ h建立回归模型& u; f/ b1 J) j2 J
确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量: _8 _, [! [- F2 y: {& q! [/ I1 ~/ r
原文链接:https://blog.csdn.net/xxiangyusb/article/details/997624514 }: o* @0 e+ u. e
% d; p: |0 ?* C7 N
R1 P+ s( r |/ G* j: r u
|
zan
|