- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563402 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174243
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
`1 f7 E) V) ]* @4 X- o' s
& y [, x3 d2 Z2 S3 e& l
数学建模之回归分析 1 o& J) R8 L. C$ O1 l" i
. o* S- A$ G0 W1 w7 M; f2 [# Q+ l应用场景
$ Y( T2 b4 w# I1 X, O1. 建立回归模型
( z' E$ c# ]9 Y B: R ?* O& E1.1 筛选变量3 p, |$ L, o' r% Y+ p: U" y1 B
1.1.1 确定样本空间
8 y) O T4 C0 i1.1.2 对数据进行标准化处理
1 d' p! N2 x! u: x1.1.3 变量筛选
. Q9 j5 r: `( y- G2 D% H5 R1.1.4 调整复判定系数$ X: `' c: z, {- p3 \
1.2 最小二乘估计& O" G/ b" D) ^
2. 回归模型假设检验
5 e. M( T% o1 E* \4 Y5 L1 R3. 回归参数假设检验和区间估计
B. f6 C) U/ Q& `; \! _: h' x4. 拟合效果分析
& ^1 U7 f! c$ `4.1 残差的样本方差(MSE)
8 _# b' F+ P7 q1 Q! m0 r4.2 判定系数(拟合优度)& k& Z1 b- |: ` n% U
5. 利用回归模型进行预测: a6 x0 R) x' t' i- [7 Y
其他/ F1 {" |: g$ I+ y5 G
偏相关系数(净相关系数)
& Y, n" }9 n7 z* K- K复共线性和有偏估计方法& ]5 r- A) U; v& o6 t2 t
小结; o4 P7 B; o t2 K% G' g
应用场景) ?" r2 p: p# h
9 D& E1 n8 z D) Z X. d
简单地说,回归分析是对拟合问题做的一种统计分析。6 D) L: z" w/ |6 _( L
P.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。0 }9 i; M& T8 i1 N* X! ~7 }. }
0 D6 I# y) h6 U- D V* g具体地说,回归分析在一组数据的基础上研究以下问题:
- d9 f$ w) B/ M+ y3 I
' v" E; q4 x9 U8 d. Y) y4 Q5 E
1. 建立回归模型0 l/ j1 c7 k* r) D7 f" G3 ~% F
8 @8 W$ S( _% J# o. y
1.1 筛选变量4 s$ O# k ^1 D$ D. `: t
1 q5 q: `1 P+ _3 o! e1.1.1 确定样本空间
4 I# |: W8 P+ F
, }! g" z1 a1 n# Q8 _2 S
& h8 P; V1 A, i. B+ l3 A% \
所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。
# r3 Z9 c) \4 n
4 |7 H( ?- s$ r- s& v, y1.1.2 对数据进行标准化处理8 Q, s; Y4 _1 y; F: \) {
$ |1 e( D* s. L( r& f7 E% ~(1)数据的中心化处理
" u! m: [, {* S/ N. B4 C; v' A2 c0 q5 U实际上就是平移变化,5 C1 }" S6 y+ ^
7 \- H, _7 ]* {# ]/ }3 `
t, \% t, x: h0 _3 c) D% K这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。) O2 E! R' e7 M
(2)数据的无量纲化处理( x8 v" X2 \2 t9 i2 T. {
在实际问题中,不同变量的测量单位往往是不同的。
/ q3 K. E6 _; V0 ~4 b# q. _9 \) ^为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为1
! f' M% N6 C" } r0 G即,& I% b. _; q8 J: I& z$ x
- n! N4 [3 `' R; h( V' T1 |
$ l' G3 @) U2 o8 U/ @3 Z
当然,也有其他消量纲的方法,此处不一一列举。 A: Z2 w& k9 z8 o
(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理
1 ^, G. V7 n* r" ]' R* M( H即,+ g2 J; T0 a. Y2 p+ O
9 Z8 c0 G9 ~6 f' V
/ b4 ]4 N9 z) m4 v, W1.1.3 变量筛选" Z2 Q* w2 @/ ^% w0 y* z
* P9 J- R( v. G- }! x9 I$ i
——选择哪些变量作为因变量的解释变量:: A! k: N% D1 Y M
# L8 g* X9 J. z一方面,希望尽可能不遗漏重要的解释变量
$ G/ W0 s9 F5 I0 `$ O" j* l一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少
3 h1 g) y* Q. ]. O+ f+ o(1)穷举法
8 T0 C+ C7 t) @2 J5 e6 }列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。
0 B+ r9 J8 i" p假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2 3 |* c$ R4 {; p9 E. M1 A) X& z
m
/ N. w: c4 j$ o
5 x! d- B' o$ f: X$ m4 O" W: o' m ——当m mm较大时不现实6 p, ~ l$ Y& C4 P
$ V& x/ {8 q6 L$ a" i8 {1 j
(2)向前选择变量法
! T2 r5 }: i N9 B8 ~) Z c
2 d1 r2 J2 C% r& ?$ t" A
: j( f& C5 Y; i! O( n H x
: R4 {- ~4 e) L: |4 H* D2 u0 ^: V$ r" X; E& T4 S- `
+ a9 U- F1 e% {7 l. R' r: w4 s
+ M% Y' q1 a4 z9 ?/ P(3)向后删除变量法+ i; J) w1 R# f% H4 g% ~! w
4 x5 Z0 T/ Q( |% _/ c(4)逐步回归法——最常用
/ \+ m! S/ w" X2 V+ a
# e& |( m8 k9 U# {9 b. J7 @5 l3 ^( K$ N' O( h* F
1.1.4 调整复判定系数
* h* e. M0 s: z1 j) j. N
* L E! s9 v. k a+ B
1.2 最小二乘估计8 d1 G6 o2 @0 j. N2 g9 s7 j
/ ?! X2 g1 {& I$ c/ l0 o$ i一元线性回归、多元线性回归——略。
: F2 c5 o9 I9 O. }/ R6 [) U) p! }1 k3 c/ ? N% o
2. 回归模型假设检验9 b+ }+ X3 w/ Y8 G
/ R/ l$ i0 U# t" c- w——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)8 w/ I$ F# U c e3 R/ S
: L, R$ e9 G, t' T9 S& k. v: R具体检验方法见书,此处不再赘述。
8 }. H; J9 [( d: t& Y8 W
6 \# Y2 P. Y4 J3 Z3. 回归参数假设检验和区间估计
; N3 O) }+ `( `
* q( v- Z$ r+ N3 ~. j `5 ~4 u6 V——检查每一个自变量对因变量的影响是否显著(t tt 检验): E6 t- r. v% \% m# S$ N
# U0 \: b0 y, R- n具体检验方法见书,此处不再赘述。' ]. k+ m @: `! s. d1 J
& b% D0 o4 m" N* ]/ F' |. B
4. 拟合效果分析
6 v. j: H/ R" a& t
- B% @3 ]" j, b5 ?4.1 残差的样本方差(MSE)
- C; }1 `. ~# a
2 S1 D% d2 V9 ~" n4 s4 v5 r2 u
5 M) C" g4 ]& p& Z9 @& ~; l: |( u- `
4.2 判定系数(拟合优度)
9 x- Z3 u5 q5 m2 P6 e8 y9 S$ ^& I0 i% s5 T- e/ u
N3 J8 l- K o a3 l* N+ H+ s
/ g; `( _# ~ ]/ w( C5. 利用回归模型进行预测
* Z: O/ |0 S& R / F, O2 V: i/ f, \( z: I
1 @4 P, j2 W. M! Y4 {) f1 N, B. ^- I& `" A4 g8 L" }( |
其他9 ]" X/ }+ y- J8 m% r3 S' S
/ M& c7 M/ |- u& }5 x3 z
偏相关系数(净相关系数)' P, m) u5 x+ h; E4 }
( p% L% y6 ?5 h
在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。+ I$ \3 }$ c7 L
$ q; ~# ]. P E/ f复共线性和有偏估计方法
u" [3 L- p6 D& K/ `8 K8 r8 h H6 Z' ^
在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)0 w6 p! m9 E" B
2 F- i" V6 l! d: G
解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性& A ?0 h# b" y) @* B
例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。
- F1 G0 X0 r8 o M% \% }(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)+ a; H5 J$ q, C* u. F
; Y' k* D2 q4 J- C4 U
再如,主成分估计——可以去掉一些复共线性
& ^6 o- x# S% F3 n: K. C# V
' F0 e- I" u' F3 \/ i& J! l小结 A+ Q% s; T8 J. y I0 u
4 Z* P* N/ [ Y. N) n1 p# D" L采用回归模型进行建模的可取步骤如下:: n6 }9 W2 h/ p$ x+ z8 s
2 w2 D B) k) V* h- l建立回归模型* M7 v& I) U# y0 i* a& _, P& H
确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量
6 \$ [$ Y8 |3 Y% L0 ?原文链接:https://blog.csdn.net/xxiangyusb/article/details/997624515 ^1 S* I3 M4 D" J3 N5 Y- M% D
6 e4 C% I$ u, Y; f8 Y
0 c: C: m- c8 v9 h/ g# e |
zan
|