在线时间 1630 小时 最后登录 2024-1-29 注册时间 2017-5-16 听众数 82 收听数 1 能力 120 分 体力 564637 点 威望 12 点 阅读权限 255 积分 174614 相册 1 日志 0 记录 0 帖子 5313 主题 5273 精华 3 分享 0 好友 163
TA的每日心情 开心 2021-8-11 17:59
签到天数: 17 天
[LV.4]偶尔看看III
网络挑战赛参赛者
网络挑战赛参赛者
自我介绍 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
群组 : 2018美赛大象算法课程
群组 : 2018美赛护航培训课程
群组 : 2019年 数学中国站长建
群组 : 2019年数据分析师课程
群组 : 2018年大象老师国赛优
: v- F$ x$ U3 Z {9 V
: U1 F, D. v) K( e2 o6 P7 J
数学建模之回归分析
! ?1 }4 g0 w: h, V. _' R
" [# w6 B# g9 O2 ]3 Q" Q 应用场景
1 x/ r N% \9 e8 k' O x2 ]5 a 1. 建立回归模型. X' {! c3 R% V2 t0 V I+ Y! x
1.1 筛选变量7 [$ a+ x! M, u& M" `5 ~
1.1.1 确定样本空间
' \( P$ O, C8 m' q7 { y/ g 1.1.2 对数据进行标准化处理
9 D7 }7 K) Z0 @' u 1.1.3 变量筛选3 L) H2 h8 o- m8 m: n- L
1.1.4 调整复判定系数
# \5 J' T1 N9 [, {, `; W 1.2 最小二乘估计
j6 ?" g; c2 d& n3 g! Y 2. 回归模型假设检验9 a7 n/ g/ ^, R0 |- {/ t: M
3. 回归参数假设检验和区间估计 O) k2 h2 ^& h" M5 v4 p9 L
4. 拟合效果分析
7 s3 K: i4 r' @5 d" X 4.1 残差的样本方差(MSE)
( c# z$ z! O4 ? 4.2 判定系数(拟合优度), Q( \9 |! B9 I! U4 u& I" r- Y
5. 利用回归模型进行预测8 c2 M+ @3 J3 Q9 ^ f" c
其他- l5 b5 t) q" ]$ H
偏相关系数(净相关系数)
; s. s( H* p8 e6 ~3 p 复共线性和有偏估计方法
! E* G8 p# C: J5 o 小结! i/ @4 {6 D% g
应用场景8 j1 C. j6 b" H7 I2 ^
4 \, K( c7 X7 z! P7 w 简单地说,回归分析是对拟合问题做的一种统计分析。
! ]5 M5 c6 b6 o: o2 r4 L6 Z) L7 f P.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。2 y( e1 ~" _" i) v/ d! W4 W$ W( J! K
5 p9 `- N8 G( e1 f 具体地说,回归分析在一组数据的基础上研究以下问题:
/ F* V8 a/ x G: m) ^
7 S. t3 U' }: g% ~ V
1. 建立回归模型
1 p' M# J4 S4 `1 W 8 Z2 C1 W. P% p1 H1 k# M
1.1 筛选变量) X7 z8 a4 g% f3 g
- g/ L- R! v9 ^! U2 f9 R+ C 1.1.1 确定样本空间
/ R9 d5 p. k7 y' z
2 F3 T' e. n- t$ E
3 c7 r' w1 T! \! c* I# h
所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。
3 Z: Z6 y0 J9 O, _
8 M. l6 Y/ e& ~# ~( L0 K 1.1.2 对数据进行标准化处理
9 ^: f. o" B6 q: k: Q
: I2 T. Y4 d# t. Q8 @6 m* I (1)数据的中心化处理1 R Y) g& o* L, I# @
实际上就是平移变化,% g0 P4 x h5 Y* Z
" R: f% M3 ?0 ^# ~. D, i
6 t# g! l$ x4 g+ }* e4 K: s* j 这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。: }2 g9 ]" d0 q" \0 t
(2)数据的无量纲化处理
1 M* ^7 x* _) a: v) e 在实际问题中,不同变量的测量单位往往是不同的。9 Z b. z% b3 m( J* e- O; A J! l% M
为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为1# | y( C* J& j& t; t1 N) P7 P
即,
" _, H% j+ z, I# z8 O
- ?; \# R6 _+ Q% o- Y% ~
2 R, c% j$ T0 n1 y1 ? 当然,也有其他消量纲的方法,此处不一一列举。! z4 P3 B4 `0 ]! E% P6 {, c" |* B
(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理9 w, E2 X0 L: \, K4 Q
即, N) P1 s' Q. \$ K T$ c) h
. @0 D3 K5 `7 W N
1 g4 w$ t5 y6 V0 M. j: _% T4 X 1.1.3 变量筛选# Q6 D) u6 ^" Y
3 {) N& {* u1 v: O4 n U' @ ——选择哪些变量作为因变量的解释变量:7 Z) D, h9 e! m
7 [6 J; {- ]. _) b
一方面,希望尽可能不遗漏重要的解释变量
, U3 ~% S' [# s$ f; Q0 ^6 |, t7 z 一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少+ ?6 e; D* B3 [; D( ]; Y/ e5 Z
(1)穷举法
& g9 D' V: p8 w* V# b 列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。& c) {! [% ?- S
假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2 3 G8 R! e3 _2 p* _, S; k
m
! o! y3 l" g. Q ^) Z " o9 B* |; w, d1 B' D9 ^2 ~
——当m mm较大时不现实
! R/ J3 G% i$ i0 h& Q
: s0 ~; g6 t- m7 W- F* T# R6 _ (2)向前选择变量法1 z8 V0 E& K1 V5 M) x
* z) w/ n* b. j. o- s& P
* J4 O) d1 t% [, V
: }" A; h0 g5 F% T5 c ) y' B) r& r0 B' O$ T
! ?, S: R: ]8 A8 i; ]
( ?1 ^. H5 I" w( @1 A+ f, L (3)向后删除变量法" ~! P' T& {% h% b: V
; k& w" x3 M3 [: w( h8 Y% {
(4)逐步回归法——最常用: _+ s- R: ~/ V: t
* q' G, b4 j7 f+ a
% m2 f: f/ j _) {3 g
1.1.4 调整复判定系数) G9 D" q7 i' O j2 s) w
g9 x) O8 W( w9 d5 i8 \5 z, n& i8 U 1.2 最小二乘估计. c/ D& j, s4 K7 G
: c a+ {: L0 W0 @7 t
一元线性回归、多元线性回归——略。
# O" l: u1 `: H/ ~% k& k# ` / A( N. W, S+ F. R% s3 L9 x. k
2. 回归模型假设检验
5 H$ q1 P$ O4 M# o4 R5 o" F6 y
1 a6 n+ `' b& O/ O( D7 P ——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验): Y1 E8 [2 E. p4 l% ]; h; n
) v) s" d8 [) ]/ h1 [0 l 具体检验方法见书,此处不再赘述。( Z- ~- M9 M1 P0 H2 |
1 S7 [$ o' o. I6 b: Y1 q9 E
3. 回归参数假设检验和区间估计
- g% Y' k* \# A
( ^7 A+ D4 M8 A) X; E& V9 d ——检查每一个自变量对因变量的影响是否显著(t tt 检验)
* T1 o3 r5 l) }: a, p" ^, [
5 y4 D) k' J# c6 _/ F) {8 X# n 具体检验方法见书,此处不再赘述。" o* W1 z1 c" i$ X
0 {2 p9 U2 m1 V
4. 拟合效果分析; \! B: d# t7 o/ N! X ]
# O; T3 L. s* I0 T/ Y
4.1 残差的样本方差(MSE)" e( @1 d8 e( V% A
4 e% W% o/ H0 @5 p9 a: ?/ H" t
7 s" L2 e$ q6 C- _2 F; j
4.2 判定系数(拟合优度)$ s) W0 L# y& ^3 w2 u- Z! F
9 ]1 Y) t: u1 l4 w
7 U& S1 D' g) `# g% i5 y0 o ~
+ H; K5 J8 O* r2 C, |9 K" r9 w 5. 利用回归模型进行预测- Y+ G2 S/ P ^8 w W$ D0 {0 j( j
; ]. F% B6 N9 ?* T% W! p$ j9 j J7 F
, z' f: Z% ^! E- {* ]! G
8 y" D) X4 ]: E* A3 j8 j# n' g
其他
- y" W& Q0 e0 I( q: T5 s0 a& `5 K% U 8 @1 I2 g, u" C. F' J4 I
偏相关系数(净相关系数)2 c2 B/ J5 Z# G
! K$ M9 G* Z- Z7 Q1 _2 ]7 Z
在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。, E3 Z7 C2 j; a& F
8 m4 h# J! r' [4 o4 h 复共线性和有偏估计方法5 M# ]1 C* `9 f F' e. A
1 v! E' V9 u, q, h6 x, t% q
在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity), F: F8 ~1 k1 i; A7 \, {
- v" ]# H6 K4 @ 解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性6 M2 G' r( i4 m- k* b$ {: E# k
例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。
- N, ^0 u9 U1 C (P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)5 b7 F: }' X4 ^- U* E
( T" a* u& z, x! S& l7 X8 ~ 再如,主成分估计——可以去掉一些复共线性
{: a+ a8 Q, o 3 J* K& W, n0 ^& [2 e% T
小结' L4 H$ t% l$ `% O! M
( `1 ]' c7 f* B 采用回归模型进行建模的可取步骤如下:$ l: P O8 Q4 c# M3 y9 A8 N1 P5 B2 P
# v" }. r5 h: C5 R/ ?
建立回归模型, S" Y n; Y8 K2 ]1 x
确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量, h: `- Z' Y2 ?( b7 `1 R1 |/ n
原文链接:https://blog.csdn.net/xxiangyusb/article/details/99762451
$ s( P! `0 D/ ^% f2 ?$ `) i . r. Q# }* T# `5 ]0 f3 w5 z" G3 [
4 T0 S0 M8 r3 [# ]8 B5 B
zan