- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 564636 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174614
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
$ c4 `) y$ J: V; Y7 a% Z% P
( y$ y% E9 l3 W数学建模之回归分析
+ }; O9 w* y) H) Q) i/ q7 g4 k1 c) F! @( [- m2 T
应用场景! F* }0 `* j/ K( ?/ P0 x7 y& ~
1. 建立回归模型
8 |/ g f) r" q V* P, D7 y1.1 筛选变量+ u/ {8 b+ E( m: N3 ^
1.1.1 确定样本空间; ^8 h/ g9 s: w# }# W
1.1.2 对数据进行标准化处理, }- c" `+ {5 V6 o- \, ^
1.1.3 变量筛选
2 y- m: Q' F. M5 R% m) N9 W/ s% v1.1.4 调整复判定系数" [. }2 h) i: q4 I) v
1.2 最小二乘估计
8 c* u* f1 {$ c! z. w( I2. 回归模型假设检验
% X" S7 e- s0 `6 w* Q0 I3 w& p% f3. 回归参数假设检验和区间估计
& @* N0 J. y4 z7 F4. 拟合效果分析
# Y7 g/ y. I* w: m1 c4.1 残差的样本方差(MSE), x- G8 l+ G% F0 n* U% V
4.2 判定系数(拟合优度)" S2 V( u( _& q9 f0 j* M- y. U% `
5. 利用回归模型进行预测5 g3 B9 d& q3 O6 D" h
其他- B- n* g3 n+ L& @: c* ^
偏相关系数(净相关系数)2 a; }- H+ q, ?& ?. w# N/ u
复共线性和有偏估计方法
3 {# }5 G" l* r* s% }: Z- n4 D7 N小结3 o- _. [ B" _4 f* |4 Z. T8 @
应用场景
& u5 U# e/ Q' U8 F. k7 ]" C0 J. M. a8 n2 E8 v6 C( W+ ]
简单地说,回归分析是对拟合问题做的一种统计分析。
& J. u/ U" b2 u, Q% X3 oP.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。
: j, a$ z0 F! U5 y1 \/ S$ i- U Y% G2 _, h
具体地说,回归分析在一组数据的基础上研究以下问题:2 k8 M* M0 s6 E# Q3 V. o
; p. a( O2 g4 Y, |6 |- F
1. 建立回归模型+ R+ |$ f+ ]/ |4 E/ _7 u3 A+ B
2 g4 v& s5 _( q. l) t5 Z
1.1 筛选变量
& ~2 k7 z8 { D
! C, n9 g1 S2 L: C; X1.1.1 确定样本空间0 s, {. E; w8 G
$ }) @" M t' C+ ]' \" N
. Q1 P( Y2 T- L ]$ E3 S8 o所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。 g) M& R" _5 @3 Q; [# f& G
! q( B8 }/ y- o* o! s2 U. Q. y6 R! r1.1.2 对数据进行标准化处理3 U9 P4 y- r6 ]) I* j
: `' d0 p H* ?* z2 \
(1)数据的中心化处理* |) a; e3 D, o$ a9 R; K6 N( i
实际上就是平移变化,
% ~- ^" d" i) B' m L# X' Q
: b+ P( k d. i h9 N
P8 v9 M+ }: n4 N这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。" i) a# d, J* H- F
(2)数据的无量纲化处理
! M0 n& L6 x2 i: P1 D# w' i6 p在实际问题中,不同变量的测量单位往往是不同的。
* X0 \7 u5 [, R/ H3 D3 I% Q! K% R为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为1
6 n. G! e- _4 N8 Y! |; y4 W( b# J即,4 |9 V5 g5 \, S
! K+ w( I/ b" _* D0 u& Z j
0 R( u5 K/ E( |6 g& k当然,也有其他消量纲的方法,此处不一一列举。
) e+ U+ E/ g% W, L(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理
1 T; E$ n1 ~2 I1 \- ^即,
) I6 X8 O( v+ C: p0 ?; [! B6 x- n: `) A$ M$ o! J J1 M; s' z
3 ?& D$ \% |+ c4 Q3 K) D1.1.3 变量筛选% l; y4 x! ~" [0 G3 ^
4 G. b' F0 E8 {/ V0 r! n( A1 t9 J——选择哪些变量作为因变量的解释变量:) o; v+ a; n- y+ @) D' Y* S, u
& `( F N8 L2 Q8 G# D' Q一方面,希望尽可能不遗漏重要的解释变量. r* u! A4 f, o1 e7 o. u
一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少
( n9 K0 s3 h! p: e" {(1)穷举法# P8 E2 F8 Q* _1 v
列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。
& V$ H; i' O$ L7 y/ T) q8 G; N假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2
& P5 N, z; u1 [1 @$ r8 @m
1 P) _" n3 w3 c& s! u
1 p: u4 E. Y9 i2 r7 M0 u ——当m mm较大时不现实+ m: e U3 M+ `$ ]$ ]/ _5 j
J9 g: D- ?* w. t6 V8 ?4 H8 O1 m( y
(2)向前选择变量法
+ {# h O. g& e' O
( }. }/ @. Y& W( a+ @ A1 c+ r& ^' u- Q' R
' [9 @- `! E* i* i; S5 z
0 @( W( x; `( b* u N+ b: |
) U l/ g9 {/ p. i. [
( @% Y7 r! Q4 }(3)向后删除变量法
$ Z" E9 L p3 C) B; k# V
2 s7 \. _9 H3 c0 _: F# l! t; W, g- @(4)逐步回归法——最常用
" x3 O9 ^6 h Y% o1 i6 o
/ p: c0 o! q: L- T
0 x; m7 v) z0 z0 T# a8 Y1.1.4 调整复判定系数% z* Q2 P# I' J: L3 f
' Q* J/ b1 U( C$ r2 q) U* F! Y1.2 最小二乘估计
0 ?$ \6 y1 G; t' [- ~" t2 K$ [4 q: ]: y7 ?' x" V
一元线性回归、多元线性回归——略。
9 m+ r7 d X4 w3 I
* @5 G% O0 X9 }* d, o3 L2. 回归模型假设检验
3 @: Z1 L: J. O p8 \- q
6 D, [7 ~9 Y2 j, R% z——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)' R4 Q$ A: Q. `( {4 m# F
4 {% F9 ]8 h9 p5 a4 m3 V" O) X+ ?/ ]
具体检验方法见书,此处不再赘述。
! {- z) l" ~, I8 Z1 K; V
2 a9 V5 K; F( S/ @6 @3. 回归参数假设检验和区间估计
# v$ E" Q+ ?! A L
' U" ]$ E; L8 N( H4 b6 [——检查每一个自变量对因变量的影响是否显著(t tt 检验)
v `1 h* z* N3 G3 V; @9 ^1 w' ?! ]+ k0 T" n6 D
具体检验方法见书,此处不再赘述。 i+ Y* z* K( o+ X; X( F
' e: X9 n" K' Y+ D
4. 拟合效果分析
7 l& a- J3 \) F8 B8 @( E5 R* Q8 \3 m1 v8 d, K1 E' O
4.1 残差的样本方差(MSE)) b/ k) ~% i$ I/ d( h L" e; T
/ y G1 Z. E7 E! T% M- y
2 s. R2 ~& J$ N h0 a6 r$ T0 @5 o0 `4.2 判定系数(拟合优度)* t- e" D6 ?* Z' |, T
2 w5 Q2 m; I1 I% t! W
* h) i, K* j8 `$ H1 @. V+ b& A7 K( @, n2 m8 i) Q- `3 i7 G
5. 利用回归模型进行预测
+ @) S# [) ~; ~" G. ^( ?1 }![]()
- c* L% e' B5 X; A9 J0 i7 i/ N4 q- a8 l( U1 l' L- c
x- p) x, R' {5 F- G6 U+ r
其他
/ {; [, f0 d0 a7 z" X3 i1 h8 _2 m. q) r5 t$ j
偏相关系数(净相关系数)
0 b9 a% c4 @( i) ~. r' z
% X4 O# o" i( s+ @, O% v: @在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。7 l% i1 X- N, G* f* I
+ ?: i2 S* l7 M) N7 j$ v* n0 ~0 I复共线性和有偏估计方法
' C# E- e( K! _
% i' m F7 Z" |( Q在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)
0 B: W1 d0 F& J9 a& s. Y% W8 k& u8 M0 k' J( x; E
解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性& N/ w) K: k7 {4 i1 H8 U
例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。
- f3 D1 \; R% V1 A) X(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)
7 j" v: N6 I' _. l2 T& l/ H% f. m$ |9 y
再如,主成分估计——可以去掉一些复共线性
$ q6 O Z# |" `
" ~1 I, ?7 k3 {6 s: V$ X L u小结
1 r/ R# X% ?5 k: m1 A& |
( J @4 F# ]- H0 [+ W采用回归模型进行建模的可取步骤如下:
$ k& H2 _/ d K
' u- A5 B! x0 g% I建立回归模型
8 M& ^* b; K, k确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量
' f7 K" ^- P3 Z+ l* L* S1 a8 }! @原文链接:https://blog.csdn.net/xxiangyusb/article/details/99762451
5 Y. x, N" X" A+ I
* V2 a. I P/ V8 [7 M% j2 ^; b) n: o0 F0 U" i% @8 T2 B
|
zan
|