在线时间 1630 小时 最后登录 2024-1-29 注册时间 2017-5-16 听众数 82 收听数 1 能力 120 分 体力 563400 点 威望 12 点 阅读权限 255 积分 174243 相册 1 日志 0 记录 0 帖子 5313 主题 5273 精华 3 分享 0 好友 163
TA的每日心情 开心 2021-8-11 17:59
签到天数: 17 天
[LV.4]偶尔看看III
网络挑战赛参赛者
网络挑战赛参赛者
自我介绍 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
群组 : 2018美赛大象算法课程
群组 : 2018美赛护航培训课程
群组 : 2019年 数学中国站长建
群组 : 2019年数据分析师课程
群组 : 2018年大象老师国赛优
% i( a, R) K! ]6 @8 Y" h+ o6 l6 N) L
; w. a7 C9 e6 Z' W$ M 数学建模之回归分析
# t6 H. \4 A" @; Y2 R
- P. U3 s( T9 s' v! G8 P 应用场景* }; O: _ @" {4 d/ M$ a9 d
1. 建立回归模型
+ o8 l1 b! U5 V# @$ _ 1.1 筛选变量2 M7 Y+ e/ ?& r# D" b' N! h% c
1.1.1 确定样本空间
8 H! p% J$ R) w- W9 x# i7 n+ m3 } 1.1.2 对数据进行标准化处理
- i/ g" R+ d. H" \ B; z4 @) ~- C# E 1.1.3 变量筛选
2 j: R8 S- b5 y7 C 1.1.4 调整复判定系数
$ R) U/ Q" x3 f' P$ m: N) B3 x 1.2 最小二乘估计+ C3 _+ d7 p- i9 ^7 A
2. 回归模型假设检验 {/ E% x% t2 c( }3 n5 r6 T, n8 \
3. 回归参数假设检验和区间估计
k8 Y+ b5 e0 G! o% @8 P! i 4. 拟合效果分析- I0 m2 L; T; k# J$ Y6 A6 y
4.1 残差的样本方差(MSE)7 O9 b0 d9 z! S9 J
4.2 判定系数(拟合优度)
6 r; W( K5 b$ G 5. 利用回归模型进行预测
) b2 ~: W* E- _. I2 w 其他, A5 n- D( K9 m8 P/ ?! ]8 K' @5 }
偏相关系数(净相关系数)- y$ y+ o. _$ b& B) {3 k0 C
复共线性和有偏估计方法
1 C( l6 p' I& m9 m8 Z5 A4 ` ] 小结
% m0 f- }+ J- a J 应用场景
5 W9 T6 U1 T" j, R
3 z9 f4 u. H1 S+ } 简单地说,回归分析是对拟合问题做的一种统计分析。+ q* C# `. j& |
P.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。
- Y% d2 u% }7 L5 k6 m- t * l6 s0 ?) N9 X, V8 W- {4 M
具体地说,回归分析在一组数据的基础上研究以下问题:
. ]# v: _0 N# v2 S
# o! G: f2 U+ V4 U8 F. _ l3 v; W% N 1. 建立回归模型
% c* P I* z, H7 r1 P+ Q2 |
9 v( s( |) |- D1 ?3 X- v. U9 e( a 1.1 筛选变量% ~# Q. ]2 {2 T" }8 [+ x
, |, D( A* |* Q
1.1.1 确定样本空间
% Z; w: i7 i. v) j$ g) p- e
9 l) j3 } c1 r2 q % [4 m3 ~: {0 X6 _2 C# W7 \
所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。
5 S* \5 j: ^7 A' \8 S* T " \9 ?) X9 P/ ]$ E4 N0 V, T
1.1.2 对数据进行标准化处理1 J1 P$ B1 h* x0 }6 [* T% U' I. z6 o
/ y' o. x/ m3 K- `. u8 H @
(1)数据的中心化处理
) {7 T+ }7 _2 M8 M+ v. ^ 实际上就是平移变化,* n) t$ Z' p( _9 y% f3 Y
, \' w3 j# ?( p5 S" @
2 ~/ {* Q8 F; p; Y3 }( ^
这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。
. n6 e" a/ q0 z* Q9 \9 O (2)数据的无量纲化处理
7 n! g2 t( \( M# G 在实际问题中,不同变量的测量单位往往是不同的。
& m! c% ~& x" L2 N0 T" d 为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为1, O+ ~+ Q! T( B" i& R4 r Y j! ]
即,
8 |- ]; Y: `) W' `8 V0 ^ \ s' u3 d5 p+ F" Y
# l2 a" J, T' t7 u- x 当然,也有其他消量纲的方法,此处不一一列举。
; p& I1 {6 [3 L# w/ _& m: s3 y1 h B (3)数据的标准化处理——对数据同时进行“中心化-压缩”处理
1 z* o# o+ ]5 k A2 d 即,& \7 X, b& ~9 ?% P
2 H: q, {2 P0 v) h) B7 S" Q! P# H7 }
# j5 n6 ]' N/ j( d# T( X2 G 1.1.3 变量筛选
4 ] {4 a3 J1 n: \
* x6 g$ v# ^" H+ H. Z; |& U ——选择哪些变量作为因变量的解释变量:
; }0 ~- C7 P$ v $ V1 J, N) C% Z5 A0 y, f. t) T
一方面,希望尽可能不遗漏重要的解释变量4 i) g, z/ i" J' l0 r1 H
一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少6 I1 r, b. Y( b% d H
(1)穷举法
+ X9 L6 u2 [: U; X4 F$ y2 g+ A 列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。
+ w6 V( z# Q" c8 V" d3 o, { 假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2 ! ]/ L2 d h7 C. K) O$ w
m
- c" g/ l0 }3 j; G4 F8 y" K
8 j% D, c$ j+ \2 N8 i4 K6 q- h/ ` ——当m mm较大时不现实
3 Y+ g/ ~" I* l3 M
2 \4 U0 u/ x7 c (2)向前选择变量法
0 A+ M8 ^; Q/ x4 E! y4 s# U
1 \3 z' U4 _" ]! s2 u+ w+ Q
: ^' E6 D7 H$ y; E: X L' b/ w! h! g1 @5 X* m5 u
* y" L3 j) R% g* M! A# D) Q0 k
2 v- b7 k* @5 Z7 Q1 {' ]" T 9 |# P0 l1 v" j- y7 @/ H
(3)向后删除变量法# }6 g8 b+ Z# z5 o
, L& z7 b2 J' o5 d, y! C1 f (4)逐步回归法——最常用
# s% ~! a; ]" F& ]6 r* W) T' r
2 s8 [, E( F6 \& a( H
2 p3 G R# ~) Y' E$ O H" \ 1.1.4 调整复判定系数
3 B. z6 T, m* e; `+ P' m8 {
: O) `3 `& B) x7 F- ]5 P' }7 g
1.2 最小二乘估计5 B5 c" J$ @1 i
. F, I6 b' w9 M. n+ }$ F/ m
一元线性回归、多元线性回归——略。
' p- ]: }$ ~, N+ K+ B# }. Y( l
2 O- X d$ Y2 t 2. 回归模型假设检验
6 S: N/ V/ f" ~' R) i7 s/ F 5 u* a8 F1 y/ |
——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验); @1 I3 X6 F: z; }( n# L, ^
$ ]0 t* i/ m2 _9 n( A& W. @5 i 具体检验方法见书,此处不再赘述。+ ?. G! n7 F' w/ j$ L
: n/ I; c. [. J. w
3. 回归参数假设检验和区间估计' l" o0 L7 K8 e* E2 j' [# H4 K& V
. B( C) ?4 O5 a' N& K ——检查每一个自变量对因变量的影响是否显著(t tt 检验)
9 J v/ p$ r6 Y/ I& A6 b
; q4 }) F2 g( O% u1 U, h b 具体检验方法见书,此处不再赘述。
- u2 r( ^2 R0 E; ?. n; ~ - e2 z. g. N3 W8 X# [' O- g, ]
4. 拟合效果分析( W2 b/ ~+ r& s$ B
1 ^) M2 [/ P/ @4 |: X+ I. s 4.1 残差的样本方差(MSE)+ Z4 N, ~! M* }
, S" J3 Y" `; C+ r( t8 k$ \
2 P4 z( r$ o- f2 p" W# m, s+ q0 k 4.2 判定系数(拟合优度)
& |, X9 j2 H# ]8 S& L 0 \% G' h0 s! l* y- F2 [
1 Z; x) h8 m) g/ j / c# D, _$ r* {
5. 利用回归模型进行预测% J0 C$ a6 ? d$ u1 Y
3 s1 G( [. K4 c+ X- Z4 U) z3 [ * |8 [5 J9 v$ l' z0 \0 }* _
# P4 \% w' p$ ?1 ^ 其他
/ Y/ y V- T6 C- D% Q) K) F% O . s6 Q# ?) |7 @7 l q' @: l
偏相关系数(净相关系数), z0 w' G6 E( M0 K) A k/ X
~4 i, U! N: g9 o M 在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。
# ]0 e; R# N0 _5 C$ z. ? % z9 X" S' A- R
复共线性和有偏估计方法; ~% K- [" R N# t1 i
- _! P% C3 c. _9 T 在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)# y9 a5 D& A8 ?
4 T* `, ]1 }# a* g# k, O7 U$ O4 _; n
解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性
$ L' t% U8 ~* X# C+ Z# \, A 例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。$ _ M' \5 T9 T/ G
(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)
9 Y9 I6 K1 ~ f9 I' T
" w- y) p) K2 v3 l3 q. _3 A 再如,主成分估计——可以去掉一些复共线性; w' y- Y6 H% q2 ?0 e$ b) G Y
) N' M" R0 Q8 ]0 \) H6 @4 t$ y
小结
# A! H- ~2 b3 y1 ~' i . ?# v! r' w3 W9 ]+ q, _. k" |$ i) i
采用回归模型进行建模的可取步骤如下:
5 u$ ]! p$ t7 o! f2 K
; r6 h( \9 U( } 建立回归模型$ @8 V1 x4 i* I2 g
确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量/ c9 q5 k3 ]& b% q) y
原文链接:https://blog.csdn.net/xxiangyusb/article/details/99762451
/ A$ K% T. s ^0 f' i% @+ S0 _+ R
) Q% s6 n( E( S1 c! `
$ D# k% s$ o9 v1 a. e
zan