- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 564647 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174617
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
$ z& c6 T; R$ u2 }1 Z, _3 L" [2 D
数学建模之回归分析
5 [/ M4 X. `. }( x5 i# O% V7 g" i3 F9 g8 V, `
应用场景
$ o8 a6 r- t% J& F0 w. ]; d/ i* _3 z1. 建立回归模型7 @8 E) d0 @5 b) b
1.1 筛选变量( K; I8 M O5 u+ P% o& \
1.1.1 确定样本空间
, e: w L8 Z2 _6 F4 A+ L/ v0 u$ E1.1.2 对数据进行标准化处理
: c4 ^) u0 k! c m7 m$ }+ [1.1.3 变量筛选4 c( K2 [4 a1 ?& U% G S
1.1.4 调整复判定系数
% n( ?3 K# G: B& \- p4 v1.2 最小二乘估计
8 L5 h9 O7 H" ?$ X; z0 Q2. 回归模型假设检验& n3 E8 p9 w9 A U' [" q
3. 回归参数假设检验和区间估计8 H! R- E) m, l2 h
4. 拟合效果分析
+ H: ]" @9 H! m# o% f4 B5 s7 `4.1 残差的样本方差(MSE)& s8 p( f7 C+ b) z
4.2 判定系数(拟合优度)+ X( q3 \5 L; \/ ~4 R. e1 o
5. 利用回归模型进行预测
) o) D- b6 E1 M7 N其他
/ {7 N; Z1 V3 w0 L9 N* ?' n' N! Q偏相关系数(净相关系数)
/ y4 O" w4 ?! F( P复共线性和有偏估计方法+ U3 Z$ |: B) `# K- q
小结' B$ B5 P: O: R6 a. k
应用场景
5 L5 g8 H, d3 z- X/ r+ E* w) L: Y5 H8 h! ]; \3 |
简单地说,回归分析是对拟合问题做的一种统计分析。# F4 O$ E8 w1 v8 [
P.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。
2 \9 T4 R. Q+ G+ m$ w! A- O6 C2 i6 m1 P- r+ S/ v
具体地说,回归分析在一组数据的基础上研究以下问题:
. T. f5 ]0 I0 R) a1 n6 m) j; M- v
) Y9 |' |2 a" M5 Q& U
1. 建立回归模型
8 Z1 q M! K$ C0 E% E; n- f2 ~; a# v) P# l* Q+ F, U. y
1.1 筛选变量
8 Y9 o( m6 Z7 f0 `& _" I! b5 ~; M" Z. Z
1.1.1 确定样本空间
) a0 R" b% V% C1 I7 X7 _
7 ~2 B9 l$ v1 B8 X5 o0 y! E
m' d6 w- J Y1 ]9 G: m) A所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。
' n. a) ^" y7 n: Y
' H9 M+ j. q' B( w' [1.1.2 对数据进行标准化处理
6 U" r7 F1 }& _2 a7 [3 T. ^2 U n+ p5 G+ h: c* l
(1)数据的中心化处理2 v; B% y) y) S' P3 P. \
实际上就是平移变化,0 s/ l" K+ ^9 R* v* x/ @7 H
3 i5 M& N/ j( R4 ^7 f
& t, ^6 m2 A+ S% z L这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。
q; z0 e p( Q(2)数据的无量纲化处理
( l( m1 g9 D& E; m! e+ z8 x v在实际问题中,不同变量的测量单位往往是不同的。
, T' o" }2 t: e1 q) g为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为13 |; r7 \7 ^, j" B& K5 N" }6 ^0 F
即,7 F& b$ {# w2 j( I
4 ~: Y# x0 s0 y4 q$ x
! P+ f @4 r! n, i$ I7 g2 I2 B当然,也有其他消量纲的方法,此处不一一列举。
2 @0 g; N4 l N+ Z( [( X) T6 B(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理$ D+ x$ a; u) ?8 X% X5 V2 p
即,
8 ~4 W4 S U* Q8 A( v U0 b6 J: c" t/ T; w( ]# M
8 R& Y' _9 ~8 E, d& G3 [1.1.3 变量筛选
, E; U9 k2 R2 }. }! {5 F2 d
4 ]# b$ O+ Y. V' `# V8 z——选择哪些变量作为因变量的解释变量:' e" z& @8 c) J6 y; ?* U9 X
6 F8 X% X" H* ^! c
一方面,希望尽可能不遗漏重要的解释变量
5 R! U, o! b% g$ l; i: y# v0 G一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少
( U+ T4 p, k" {) @; D% c; i(1)穷举法
G* B5 U) O6 [- N9 E& g4 p列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。; \5 J" f$ Z. }6 B1 S7 d
假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2
) L7 c: u% a: Y5 Em
9 `! P( T) b* `4 _. x# S! f ) t# q: j9 C4 e2 D
——当m mm较大时不现实
& G4 C7 M- Z( }/ m8 }/ n; Z. Q$ ^
6 e' {3 D( d0 D) b(2)向前选择变量法
; Q- n( h; K2 T3 d. n) O
2 j+ v x" J2 ^# y/ J3 ? U& O. w7 T: x8 {& U9 R. n1 n4 e$ o0 r
: L+ U1 A7 u4 ^1 [
9 y: Q8 }/ V6 V$ I* y% ]5 N+ G
, d, |5 f* @9 f x2 ?# l
" G* k# | [5 D( `8 l# s(3)向后删除变量法
% Y! I% K- H- h1 ?: \; c
! t' G- _1 {% t9 T# B8 X8 d(4)逐步回归法——最常用
% n2 _' A! K$ U2 r+ r
e0 }6 V& G. r" T* M, E/ I1 \7 j
5 q7 S: s( G! {* D* o! W1.1.4 调整复判定系数
6 W2 E- a- `1 F5 L6 `
6 M5 T, `5 N0 P' T5 r0 S
1.2 最小二乘估计
H+ k1 A1 q! O4 E2 Y( l! `2 t
+ ?. B. i: z+ a* B" Z一元线性回归、多元线性回归——略。
# ~3 @/ a& g5 Y& r m; G( Q* Z/ p8 K& {/ k; [
2. 回归模型假设检验
' p1 K+ W) t4 w K9 _0 s' I( L4 T
, k7 e" D$ z9 b9 v: J& h$ a——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)
3 D5 S3 Q" r! n, r: r
@. a: e& a! }& H9 Q具体检验方法见书,此处不再赘述。
! n) j$ R' R2 J- Q# N$ N0 c( z+ j5 T+ d7 J: Z" f# }2 p* c
3. 回归参数假设检验和区间估计
2 j! b4 J4 O1 q/ s3 _8 i+ F# I4 z( A7 u
——检查每一个自变量对因变量的影响是否显著(t tt 检验)$ }; q( m+ w2 P% x! w) A# x
& @1 B7 W) m5 c7 ?4 ~& [具体检验方法见书,此处不再赘述。
$ p5 A- A* p2 v6 Z3 g
' a, n6 {8 _& c0 l V5 Z) x4. 拟合效果分析
, }! d* `/ ~- b4 ^7 x6 l
1 X& G3 h- y- Q0 _" L5 s4.1 残差的样本方差(MSE)
8 o: t- D# @. I6 }0 V
+ }; @. o! n( a: x# K, M' l5 V
3 i) R7 @) O" l5 O7 N5 R& o4.2 判定系数(拟合优度)
: H; V! t2 s7 D( O% H
% D, O6 [) m3 p# F
" E$ Q! j1 u6 W. i/ U. z
& C, a# E( D2 u0 {
5. 利用回归模型进行预测
( h7 X4 f1 j9 Z3 S. F![]()
( w/ I/ o6 k/ l$ o1 y+ h/ r# x# s+ g( F
! t, P. \7 k, I* t" O2 }+ ?9 V( ?7 P- [0 ^* z+ {; h
其他2 F) k# W% ^/ G( Y* k m' r9 U8 n) x
5 g+ T! q' x3 @$ Z: y
偏相关系数(净相关系数)
5 ]; [, f$ `6 Z1 b; l. Q9 F6 C& w+ B e2 j" q
在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。
* s! v l8 {+ o- G, X
3 E; T, q# _0 n# C5 u复共线性和有偏估计方法
( I% A0 N& z! Q& ?# P9 @% q! w4 g; a) S+ o
在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)
8 T3 S. W/ A6 W3 ^% _2 j0 D8 Y$ A) V9 M/ X8 G
解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性# W4 t* S! [+ O1 ^' h9 I/ W
例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。
d- f$ h* h, ?2 Z0 I(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)
^8 x/ A$ W! |* y3 e
4 A' n, {* c& K6 r! V/ v6 N& F; b再如,主成分估计——可以去掉一些复共线性$ k; P& b# B8 U6 H6 I" g9 G
9 k! ]3 _- Q7 V6 D+ J
小结
0 V; B* i; a" C3 N, P e: s* y( U4 }% f) g
采用回归模型进行建模的可取步骤如下:
8 y, n/ t' n: r/ D. E9 q
- W/ X" M. e8 d& X6 W( [* f建立回归模型
9 d) m* L! ~; b" l4 |4 o: |9 e确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量7 t/ W% r5 y$ K; N. e+ Q
原文链接:https://blog.csdn.net/xxiangyusb/article/details/99762451
7 I; X+ W" H8 S6 V1 q$ Z+ X; y: G+ K2 M
7 t3 X/ i8 o$ s8 V0 H, ]
|
zan
|