- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 564637 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174614
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
1 \2 H/ N& o5 l7 P
! F' v* W* ^4 [5 g( a数学建模之回归分析 - o5 h# o6 c- g& g# b
$ f0 r+ d$ U7 T# k
应用场景
7 h4 P+ p5 a5 O1. 建立回归模型7 ^5 r. b9 |) I8 b. d
1.1 筛选变量' C9 _9 N7 {2 J8 X# ^
1.1.1 确定样本空间( j, e8 j1 |5 j* X) ~
1.1.2 对数据进行标准化处理; w+ p% m! ?$ |0 E6 @6 t
1.1.3 变量筛选% ~6 s$ `; r0 e9 k4 ~+ k
1.1.4 调整复判定系数. c( O# m! w; c9 U
1.2 最小二乘估计/ V* ~6 b! H; ~" O
2. 回归模型假设检验) Z$ p9 d! O! v2 t
3. 回归参数假设检验和区间估计
( Z2 K5 U R5 Z8 g9 p7 b& g4. 拟合效果分析$ }2 f' s7 q$ F7 ?4 r1 V
4.1 残差的样本方差(MSE)5 O6 b& q% x6 |2 z( k+ V- X9 K: v
4.2 判定系数(拟合优度)8 j, Q4 N+ F O5 p1 o
5. 利用回归模型进行预测! J3 L- W. u' [& ^: c& V5 x
其他
9 K- e, t) E& @! X( ^偏相关系数(净相关系数)
/ D* D" {3 f/ N A复共线性和有偏估计方法9 ]# e' d$ v C7 W
小结# h9 J- ^6 E. r7 v
应用场景
7 O$ A% w: {9 Z I0 ?- |9 u& x1 z3 r$ R- E& Y) z
简单地说,回归分析是对拟合问题做的一种统计分析。, b: G' C; U! H4 H2 }7 c
P.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。* n0 x d% j9 A% K; w
5 u. d: J5 s* G3 P
具体地说,回归分析在一组数据的基础上研究以下问题:; Z/ Z9 e$ W9 P( {/ v0 J1 K
' c. G; a4 a- d& a: v
1. 建立回归模型
; Y* N+ w2 k6 I; G9 b1 r5 y, t/ z3 G; {
1.1 筛选变量
% ~/ J/ h6 y+ J, E$ O/ h+ `8 X/ l Q1 L
1.1.1 确定样本空间' v3 y: Y8 j* ^3 [* V
& M& w: N" x6 }. D. B6 ?; ?* U
- H" \0 |- I1 q4 i所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。
7 ]5 i# l. d3 u; Q J* w7 |8 H$ E+ ]6 @0 a7 ]4 N& q$ O/ K
1.1.2 对数据进行标准化处理
o9 f1 {- I. ?5 R1 w& h; M
* b- D# Q9 X. g4 C(1)数据的中心化处理' G% ]/ j/ y; o6 x; t
实际上就是平移变化,- q. R5 _5 d/ U* L( @6 O
5 r7 x) {+ {, r4 t9 Q6 w
' ?- ]% s" `, ^
这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。$ `* b' q) p) Q' k% ]9 g" x: ^
(2)数据的无量纲化处理
5 I! t" R. g/ E; b% n0 k0 r在实际问题中,不同变量的测量单位往往是不同的。
2 v7 o) V. M! o4 P6 U为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为11 k, {# o6 d& s( f" [7 y: o. f1 o/ }
即,* f5 e( ]" a; _
( R1 n8 h% m" @+ f1 o3 ^( p
. p* f1 j# j k! D, U1 z' v
当然,也有其他消量纲的方法,此处不一一列举。
4 ?" l W" l* e(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理 _; {. Z5 H6 I9 Z4 v
即,
5 _# g+ ?+ E$ f$ z* P
% @. y; Z/ q/ o
' H: I" F, n0 E
1.1.3 变量筛选" R; A! x5 z. |' N1 }+ u/ T, u
, T) L% E% h# S) ^
——选择哪些变量作为因变量的解释变量:
2 J1 F/ ]1 w" i9 o! ~/ q" a- U' k7 p* \
一方面,希望尽可能不遗漏重要的解释变量
0 d" S+ ^, w: W V一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少
$ K" l" _' ^+ t(1)穷举法
) J/ n) `: T: Z. Y5 z列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。0 ^2 |8 h) s6 B Q* f3 _ `9 N [
假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2 % G' y# b; X, ]& s
m0 R9 f1 u- \* E$ }) T
9 [+ `. [5 |% W5 m
——当m mm较大时不现实# P! y u( m5 [( B9 F& m
# Y4 I W3 A" N. u. E% ^
(2)向前选择变量法
* c) A" D E+ v) s7 ^7 B
! O, p/ T2 J# |2 S K
+ n0 }, Y5 F2 {, a) {; X5 a& F5 N) g8 A8 R! J8 v9 F/ R
6 r9 P* D9 Q* E# D
& r7 ^5 u8 W; q* Z" K4 ~2 h' O
5 m: H# p4 M8 o- [2 E% A(3)向后删除变量法
( ~5 s# {1 p8 G
( K# k3 Y; s! n: x0 s
(4)逐步回归法——最常用( [& D; a/ y) _# y3 c% p
+ i _( y& @# l1 Q H! x/ M
: e' f& ]: | L! g* ~1.1.4 调整复判定系数' q: I0 h; l6 G {9 o! c/ p0 R
- `/ h1 r3 a2 ?" o) Q" X9 i$ W
1.2 最小二乘估计
: X, S! t1 t! `. [/ I! Y8 k! R1 v+ K! C3 Z
一元线性回归、多元线性回归——略。) ?0 C& x, }9 i# W/ @7 \0 O) Y; N
+ B- e9 \3 K6 ?. P$ b/ m2. 回归模型假设检验
6 I# F9 N, k0 J/ G' E
, @/ L B4 w/ ?2 s; S5 S o+ H——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)
- P2 z* s( P5 T* e% V( w9 y8 K* k& J2 h3 t
具体检验方法见书,此处不再赘述。8 j8 D+ o- ^/ o2 x5 @# P, i
' ~6 P# c& @" f5 f3. 回归参数假设检验和区间估计$ T" \3 w9 N( _: |
. t; o0 U6 i- H9 v; T——检查每一个自变量对因变量的影响是否显著(t tt 检验)- D4 _- W5 T1 m, E3 \- z; o2 M
9 E0 `- D3 I; `: s" z( @/ \具体检验方法见书,此处不再赘述。
' Z9 F4 N9 m& G7 |. M- @* D7 Y, B
, e8 x, ^' \7 V; K% B- ^1 l4. 拟合效果分析' r; z4 q/ s( o
9 C- K0 T& Q$ M
4.1 残差的样本方差(MSE)- H2 ]9 B6 W" s7 _1 n
0 {' D9 K5 y1 [5 }
0 n$ } |. X& z1 }4.2 判定系数(拟合优度)
( t/ ?2 b# T6 M9 n7 {
* u+ y6 Z" a: h4 i7 v: A9 a2 S
; q( i$ S- I- B! \; ^- ^, f+ b# e
, w7 A$ J( E" w9 q1 L& i
5. 利用回归模型进行预测- \: |: ?4 ~. ]* Y
& h9 t @" J6 s. q7 v0 N2 a! b
+ x% Q9 `, V9 H
" y2 l4 A( w7 u @: E$ `( d其他5 ~/ I# h7 u; W' y+ H6 q1 P, y
) t+ }) l; d4 L偏相关系数(净相关系数)5 N) k! r5 E- A5 P {* Y
: k" O5 j* j) z: E在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。
- `( _, [8 B, p$ k7 C. b! W+ N! n
, h, ?, ]: A# n+ S: e0 V% Y: I! R# w复共线性和有偏估计方法
7 J2 [: b8 p' {! q$ {
3 P9 C7 B1 B' N w9 ^: s在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)
6 Y$ }/ K# X8 A9 I; t1 r6 o" _; Z0 C, S, Q! m+ U
解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性; Q" Z' M4 K7 y% i
例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。
+ y1 @* g6 q9 Z4 H# f# E6 q, B& s- {(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)
# M# q, _$ [* }: e$ T+ s8 `7 o; x- c7 @5 B
再如,主成分估计——可以去掉一些复共线性8 m2 S; \4 ]) L& {" O: ?7 v+ C% ]8 L& f
( u- Q1 `3 e+ M" J/ q" I; h3 r
小结5 K& h; K- O; q* C# f& F$ ~+ W- h
' }5 G4 ~3 t9 ~7 [" y4 X
采用回归模型进行建模的可取步骤如下:
& ~7 C' @5 z E/ \) j9 _* H1 q' r n1 m
建立回归模型2 O3 G& m* h2 c4 |7 z3 `9 [
确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量6 L: m/ p/ h) J
原文链接:https://blog.csdn.net/xxiangyusb/article/details/99762451
( _; u& Z. k* k$ S/ ?! Y7 [& S3 w9 f
) T) w& w4 a) L- E' n' j# T
|
zan
|