在线时间 1630 小时 最后登录 2024-1-29 注册时间 2017-5-16 听众数 82 收听数 1 能力 120 分 体力 559078 点 威望 12 点 阅读权限 255 积分 173096 相册 1 日志 0 记录 0 帖子 5313 主题 5273 精华 18 分享 0 好友 163
TA的每日心情 开心 2021-8-11 17:59
签到天数: 17 天
[LV.4]偶尔看看III
网络挑战赛参赛者
网络挑战赛参赛者
自我介绍 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
群组 : 2018美赛大象算法课程
群组 : 2018美赛护航培训课程
群组 : 2019年 数学中国站长建
群组 : 2019年数据分析师课程
群组 : 2018年大象老师国赛优
0 F: ]0 y1 G# P! ], g
9 X/ i, L/ V; J. P, G+ ^; d2 T 数学建模之回归分析
/ c+ W7 {* @; Y' g/ E: r! N5 p: V s( w b0 |, ~$ Y
应用场景
6 K3 A. s4 {: |! z6 y( T 1. 建立回归模型
; i2 W8 F _# x+ n& b 1.1 筛选变量& g! g0 I/ l3 L, t6 P1 T
1.1.1 确定样本空间
% O. S7 _& P6 p2 y6 ^3 m 1.1.2 对数据进行标准化处理+ v% c' F- H2 C2 t# h
1.1.3 变量筛选
2 F5 ?2 r8 H. g$ F 1.1.4 调整复判定系数0 C" @4 K/ k1 q) K
1.2 最小二乘估计. d# O0 `/ v( X9 E8 @3 p
2. 回归模型假设检验: Y, i3 q2 S% v8 x8 v4 m' N9 q# X
3. 回归参数假设检验和区间估计
" i7 ~* C7 c! } c$ {8 t( c! V2 F 4. 拟合效果分析
9 ^/ T& H3 i% L |0 v8 d A 4.1 残差的样本方差(MSE)
" J5 _* T& ^! l4 B( N) U 4.2 判定系数(拟合优度)1 P3 R2 V7 n& F& u; P
5. 利用回归模型进行预测
7 W1 g$ t) X7 I H( W, ^ 其他8 ]# g' D: B; K
偏相关系数(净相关系数)( H: R# j, X" y
复共线性和有偏估计方法0 u. b1 g V# a
小结
- a1 S* ^; h) y! R 应用场景
& b+ x( t6 F5 _/ o/ E
! K' V( Z |* `9 Q z# _: X 简单地说,回归分析是对拟合问题做的一种统计分析。% H/ I8 k- Z1 b# N0 ]: W ~
P.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。
( \: B3 M. y; {* A
4 Q2 l+ `: s% i! _: O- U0 D 具体地说,回归分析在一组数据的基础上研究以下问题:
! a5 H( b$ d4 r$ v% g
4 M" N3 d; @. u' U 1. 建立回归模型) u3 g$ W* `1 }: d+ `
* p' S) C v# N+ o1 }/ y. y 1.1 筛选变量
2 d" U# ?8 }& f0 h
: Q7 F: e. T$ C2 [. @4 @3 z# i 1.1.1 确定样本空间! A+ z" O+ Y. M4 v. j! c h
" ^ a5 c" L4 h - I# C3 g0 u& J* P+ t t
所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。
# N% j5 F0 P: i4 k( H8 U * `" l1 a" I d$ X, V6 p
1.1.2 对数据进行标准化处理, \9 i% O1 h+ x4 {5 J8 B; T6 ]5 X. I
( I4 N7 C* O0 m6 H0 p
(1)数据的中心化处理& X7 z8 q5 V5 a2 ^: i! L
实际上就是平移变化,
1 \; f2 m7 Z! f0 y' H$ P0 ~7 Z
% Y* [' N/ Q: c: V B
" Y; ]% R+ j$ C: v" y8 d 这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。# u# U7 i+ k3 y) B! l
(2)数据的无量纲化处理
3 v4 x: f+ c& I0 u- P 在实际问题中,不同变量的测量单位往往是不同的。
" q# y: O" K o9 ?$ W 为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为1! f6 e& l% z2 V3 J
即,
0 _4 w: u+ o. ?2 }' I- t * Q `: p% g2 M, P5 h0 d1 I
: R/ Y7 w- l: ?2 o# U
当然,也有其他消量纲的方法,此处不一一列举。& m5 ], @0 {! a; n; A2 g
(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理# W& y6 p0 A2 Z6 F; c
即,
6 d' e1 `; {* {5 \# v * R8 I3 ^9 T7 O0 j5 y
9 ?! P: |; m2 u/ P 1.1.3 变量筛选
0 X- Q) `. _1 `+ ^0 B4 }
1 }- Q6 o: k4 Z ——选择哪些变量作为因变量的解释变量:0 C& k+ `3 |$ m4 ]( r! F
* ^ F' t& l7 L/ W0 ]) w G
一方面,希望尽可能不遗漏重要的解释变量( ~8 ]! @4 d$ I+ f8 K3 [
一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少* E9 m( l2 D( F, m" i& g& j. r
(1)穷举法
' B% w" Y4 U, G& y 列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。2 g5 V* i& v; L% f9 y. s
假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2 % `& ~) M) N) E: ^/ q7 x, |
m* {' r% O3 a# c2 G/ m8 Z$ O
( E8 t1 _. d; ]. v0 `3 Z$ Y ——当m mm较大时不现实
$ q& d1 s0 I) m- I& t+ [% E
o4 }5 c7 H3 E: S { (2)向前选择变量法# n/ ]9 E- s( R7 }
4 E1 @) R! _0 i " H+ F/ x: ^% M. w* E
1 v5 u( i$ X$ j. E* r; w) y 6 k$ n, L. }6 D
1 x6 u# n) f0 s, C
0 A6 D( @0 w) f, D. k2 Q% J: f+ F (3)向后删除变量法
! W; }7 [. {- P: M6 ]
; h9 U [9 C8 K9 L- f! `- V
(4)逐步回归法——最常用
' J# G+ k" C7 L4 ^3 n& d& r' V
/ m4 L) p8 A- ?( R 8 M. ]1 _8 s, R3 P( m* ]' K2 y
1.1.4 调整复判定系数
, t4 _* `' ~4 l8 s+ v
2 c& H) y% Z. G. V 1.2 最小二乘估计: `" Z h0 j: w, a+ F, K, h& P
1 h/ U" p' s" d! P7 s 一元线性回归、多元线性回归——略。
! C2 E# E) E0 `( z
0 ]1 b' J( }! G. R6 k ~ 2. 回归模型假设检验
+ a" ]& q( g# n4 n, h 0 E$ I' ?3 A1 U
——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)
! q# Q P$ T/ C7 L) Y ( C* s: k1 ~' h4 Y& m
具体检验方法见书,此处不再赘述。
. ~( j* Y, q0 T7 ~1 P% f
) K6 E) k+ }2 F( D 3. 回归参数假设检验和区间估计) {8 V2 O" r. W @$ j5 G
+ I# J7 h6 q6 I
——检查每一个自变量对因变量的影响是否显著(t tt 检验)
5 J5 }) H0 \2 X8 @' r4 t ! G1 q i% D8 K9 o! w9 i
具体检验方法见书,此处不再赘述。
+ d- s7 r7 W/ m9 { + c6 M- b+ S: t( \% T4 _
4. 拟合效果分析; ~9 ?9 @! I3 M3 N% N" }9 `7 l2 B9 z
/ }1 _. a4 A6 [+ j5 v3 H3 x
4.1 残差的样本方差(MSE)$ ^9 p+ {' b1 M
9 t' v5 t! m) [ ~# W- i1 l
# ^* a, M9 W8 r: o" N 4.2 判定系数(拟合优度)5 ?" g( D' Y1 W* z
5 n2 L* B% T+ _" E1 C9 w' D
# _9 u5 ^ t. P' \4 ]) l1 R' B
: O1 v9 k8 g" L
5. 利用回归模型进行预测+ P2 C$ i* M' z( P2 T( c7 k
- @+ p( g* R% j9 G ; V+ \/ A. q8 {' ?5 `* _
2 Q7 I- ?* s& I* H
其他$ d U" W; l" M0 {
4 [" \! R7 L( T6 K: l% i2 Z
偏相关系数(净相关系数)% l/ p5 s. j1 z, f4 G0 c
5 r C' C' O' H' N0 ^/ P 在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。& i4 A5 v: v& d1 S1 a, Q: H
" h" } ?+ B& _5 g5 o" z 复共线性和有偏估计方法& I8 k# p, V0 B3 y- K) [
* d5 D% \: X; R9 Z, G$ W' i$ z0 l
在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)1 R' e8 n! u! t, @0 Z- l( J0 }
3 }' m; V' U0 p d9 s1 C7 z" B; o
解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性
. i) M0 c/ {/ G# h$ ?; r/ { 例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。
& a5 H9 a, l I) E+ ~7 d (P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)
, J/ ^8 b, ]0 ]0 p4 E) H1 J* ]5 h & o8 }2 B# j W, S2 d+ i. w2 ^
再如,主成分估计——可以去掉一些复共线性" y% Q3 O6 F: n ?8 k$ \( E
" }" t8 a2 X5 L2 ^* j
小结
( y0 J A# w' n% I; _& c; }
; j* @5 z3 A! s5 r 采用回归模型进行建模的可取步骤如下:3 L( \ T L2 \3 Q
( Y, L6 K% T/ }* O: ^1 w 建立回归模型
8 c4 X# N$ P- e; D" w1 D& K2 _6 w- B 确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量
8 a; T5 f1 C7 L" N7 Q9 g8 s: J 原文链接:https://blog.csdn.net/xxiangyusb/article/details/99762451
9 b& Z0 v7 _8 {' p8 w6 y
3 t& p7 @5 \' c i& b3 B T# x , u, w: _/ V | O3 z! j- }. B
zan