- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563428 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174251
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
1 u8 N# c, A7 n* b( M- L
$ i# y, s$ V' M! } W. ?4 S, r" z数学建模之回归分析 ( h/ x6 K5 x# D
8 E, u Z. O% Q+ |, L
应用场景
3 A3 o9 [8 T4 h+ e6 R8 Q1. 建立回归模型, I4 _3 W, t& D( t) D( A% y v
1.1 筛选变量4 t3 T" m" q* T: K% Q9 ]6 ?
1.1.1 确定样本空间
2 m: ?1 ~+ x$ _1.1.2 对数据进行标准化处理
& h# `, M; O* n' z( X1.1.3 变量筛选
/ F+ ?) u5 v }7 ^. m5 [1.1.4 调整复判定系数/ U h1 \# Y/ O: Y9 w# k
1.2 最小二乘估计3 O9 t) U9 ~5 [
2. 回归模型假设检验
# w- C6 d: G6 l+ V: k3. 回归参数假设检验和区间估计6 z% _' m: S3 w/ s7 O" s7 ]
4. 拟合效果分析! P, W2 X$ h3 a! X2 ^
4.1 残差的样本方差(MSE)
; s: t8 G4 p: w3 j/ f4.2 判定系数(拟合优度)7 o% V1 q3 S; O% r. M
5. 利用回归模型进行预测
6 t; O7 |8 U$ u8 \其他 J$ m# K5 }& G" P5 v% _+ ~
偏相关系数(净相关系数)/ M0 z9 O n. a- A/ e0 l3 |
复共线性和有偏估计方法
' Y- g0 [" r6 c: g0 F( k4 Y小结
$ X6 d/ z# W% a( U. k( W' e应用场景
4 U9 k q" u* i& [
5 f1 l9 f* ?% g$ A R9 ?简单地说,回归分析是对拟合问题做的一种统计分析。 b1 f( l/ ^5 ^* e# i
P.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。
0 u# N* |/ I8 l' n
2 d1 G: y' }' l/ w( F具体地说,回归分析在一组数据的基础上研究以下问题:
+ L, H r% e: V c
6 ^; i; M- Y5 m" i* P: w" B
1. 建立回归模型
" v0 \8 {% h' t1 ?1 D( g1 ]- E4 G3 I6 c5 ~, C) N1 W0 [
1.1 筛选变量# }* `1 x7 B2 ^- F f
3 A# l& q; c5 I# E3 ~1.1.1 确定样本空间
9 m+ Q" V8 x' d- q
& |) p5 j! J. @, |
6 l7 ]& o0 v4 o/ [7 h9 ?* u) w! c- e所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。* z4 n- m; x' @/ _- [; Z2 v8 }
# X1 _. m) T$ r$ v
1.1.2 对数据进行标准化处理. d; `0 M5 r5 D) o! p! m
6 [7 Y+ Z- b5 \7 N0 c(1)数据的中心化处理+ b1 |7 x/ m$ \5 D
实际上就是平移变化,# f$ X# Q1 R% p% w6 X4 \3 U4 j
$ K. M# ~/ s; a4 \" D
- l6 L! s2 V! ]9 s( v- x这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。
: c% _% W% l* i(2)数据的无量纲化处理
# d# ]2 g# _* \/ m' e在实际问题中,不同变量的测量单位往往是不同的。( D& a. h. G$ u9 u- ~2 p3 H
为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为1
, n2 M% C$ d. O- n4 j8 A0 }" o9 D即,
1 s7 P) R; t( j* g
( T0 @3 |) F; i* d+ T7 h
2 G0 w/ N: F0 k% a0 C. l& s当然,也有其他消量纲的方法,此处不一一列举。& G6 u9 ?) D0 R _/ s; U/ Z( M
(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理
3 Q$ `* H/ _2 N即,
, j9 J9 M M/ I4 f, L- p
" r7 t6 `, f' r; q
) H [8 @6 _+ @
1.1.3 变量筛选# K7 S0 ^- {( A. d
$ D7 E W. R e4 \1 E% ]' f——选择哪些变量作为因变量的解释变量:
, a; y) K$ f3 g5 h, K0 k! [' t
( m. \5 ?& n+ ^, R) H6 I! n一方面,希望尽可能不遗漏重要的解释变量
' [* i/ R$ c; }* G# j; n一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少& p1 H* w2 b% ~
(1)穷举法
- L% W* l* @2 D3 Y+ ?列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。
1 M+ h; p. K) w2 \, a假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2
9 O1 j2 K' f' _3 A( {1 ^( E+ Hm1 | f' B0 f# a( C
0 n8 w9 C, ^. T$ J ——当m mm较大时不现实
( M- ]0 |4 B8 B
# m; |$ `3 N. f$ F7 Q& _* C(2)向前选择变量法
& T- }7 @$ M8 G" r. ~
5 f( l0 {; i! K
3 A) l8 D6 Z7 E: a
F; {8 B0 \8 D. {- }7 {3 [) y" a
% V" ?4 r% m; [# h1 W; ?$ c# F* m! w8 Z. D* W) R. q8 k
(3)向后删除变量法2 W/ d* ~6 j/ S5 |1 I
$ F. G7 i7 c6 x7 M* k
(4)逐步回归法——最常用
- K2 i! t( X' ^% o+ r' j# P) I4 s! `
; u% R6 A* V- ]2 h( v1 r/ b, x
1 B8 ?* p. s( B' k
1.1.4 调整复判定系数
2 a- D$ E K; O7 f7 I- p0 c7 U
5 m/ w9 m. i; _: I! y1.2 最小二乘估计! P9 Y8 j" u" T& Q
% ^; _" D; Q* X W
一元线性回归、多元线性回归——略。
' d% E( F) h) K$ I6 k0 Y5 ^) h v
$ J y: V- o% {4 D' b5 p2. 回归模型假设检验
- l4 k. Q; A5 S8 Y/ [& F9 G4 ~# ]9 M9 r5 z& Z2 V4 G
——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验). x3 D- R' y2 W9 ~
$ |& K1 j/ I# ~3 t* m
具体检验方法见书,此处不再赘述。
- E" x; i( Q6 c) X8 R2 a- ^. L$ r/ A) `7 N- L% { ?+ V
3. 回归参数假设检验和区间估计0 B! ~$ j3 W! }+ X7 C
6 C. o( I; r8 L7 M
——检查每一个自变量对因变量的影响是否显著(t tt 检验)
9 {# L, y0 ?: C. {+ p7 Q. a+ `" Q( U9 o* r. Z1 X' w, U
具体检验方法见书,此处不再赘述。
( G/ a/ a5 f2 v* W
/ L* v; u& a; E q) f3 n" G3 m4. 拟合效果分析2 M0 X. @7 }1 i7 }# Q9 C g
) H# i1 |" _' c2 f* d6 F1 ^2 _
4.1 残差的样本方差(MSE)
; L2 E* |, `8 p' G" u/ ?( Y8 w+ L
. k% H! p9 p" ]& v8 ]1 [( \" J7 G! g7 |, \3 R! m: h* |+ y
4.2 判定系数(拟合优度)" X8 b, V0 U; B( ~( y9 Z$ `
/ m) x5 G7 H( X; F# {2 G) f4 O
7 a' e- F+ t5 I8 K" T- F
" v D2 Q8 b' W/ }, T" {* w5 Z5. 利用回归模型进行预测
5 A n: g, H/ f3 s* b# h![]()
7 z" w) |" Q1 @, }
/ Z" G: v' C8 e5 _+ k; a
2 t7 I% X' ~/ _4 }+ S其他# b& M) t* t, L
4 V% ^5 F& N( Q. w5 E偏相关系数(净相关系数)
h, x6 i: T3 E9 ]# y/ ?. q$ G+ f1 x- J& U& P5 K1 M* f& @
在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。
4 }" U' y( i3 k- L/ O" w9 N8 K" Y5 I! `4 b
复共线性和有偏估计方法
; t( r+ x2 X* X' @; G% p7 h9 J
) b F. v, ?; K0 }& h9 u在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)
7 A% N% O6 R8 W4 `- j7 W/ n# S$ k$ J% b% Y/ w5 f
解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性
: _1 m! ]8 B' `& Y+ Y/ h& h例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。$ Y( g" ?7 V! I2 q
(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)
: k- i1 Y! B& ] M0 A# Y# E0 ^% ?
" y# N4 {5 k4 C( F- `; D& M, D再如,主成分估计——可以去掉一些复共线性- R4 d" N5 z, r/ H8 B
" j9 M3 r2 \6 \- J$ {小结
+ K; }" T" r) A% Q" C! y5 s- k9 T! p
采用回归模型进行建模的可取步骤如下:) T$ O: N7 q$ } h+ }0 \: o
4 q6 C) V/ B+ P* x/ t
建立回归模型
' H/ _% ? |- l4 Y% u& j% ^0 u" Z确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量
7 H3 W* g6 v& \& R+ U, R/ [原文链接:https://blog.csdn.net/xxiangyusb/article/details/99762451
* g$ ?4 j3 ]3 ], f$ F2 x- N
# F# Z- R$ r( |: E! r- ?$ l( {% V9 f) t# b- {$ G; i8 Y
|
zan
|