在线时间 1630 小时 最后登录 2024-1-29 注册时间 2017-5-16 听众数 82 收听数 1 能力 120 分 体力 564634 点 威望 12 点 阅读权限 255 积分 174613 相册 1 日志 0 记录 0 帖子 5313 主题 5273 精华 3 分享 0 好友 163
TA的每日心情 开心 2021-8-11 17:59
签到天数: 17 天
[LV.4]偶尔看看III
网络挑战赛参赛者
网络挑战赛参赛者
自我介绍 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
群组 : 2018美赛大象算法课程
群组 : 2018美赛护航培训课程
群组 : 2019年 数学中国站长建
群组 : 2019年数据分析师课程
群组 : 2018年大象老师国赛优
+ O6 J) }0 d+ h) H3 l 5 G! b1 ?% s8 P1 ?6 @
数学建模之回归分析
4 W8 U! s4 ]1 L 9 a* A1 i# N$ `$ K
应用场景 f5 V0 Z: |" \, p4 S; `
1. 建立回归模型
. W2 C( E8 V+ L6 F 1.1 筛选变量3 T4 \' Z5 j- k
1.1.1 确定样本空间
2 a: @" d0 f5 S8 |: n# C 1.1.2 对数据进行标准化处理
5 }. t6 m8 m3 K. T k 1.1.3 变量筛选+ u0 L; \# w/ v/ \, X
1.1.4 调整复判定系数
) I! X* k# z* \: F% H2 o. K 1.2 最小二乘估计, H. x* D! O N
2. 回归模型假设检验
* ?3 P- D0 @% T6 g$ k 3. 回归参数假设检验和区间估计
& f; r, ?* c- G' B( I5 z 4. 拟合效果分析
0 c" j, t) [ _! y) w 4.1 残差的样本方差(MSE)
% Y" @/ \# H( N8 U6 h" g/ Z; o 4.2 判定系数(拟合优度)- h- O% r) \8 o0 y8 W
5. 利用回归模型进行预测6 u: A% L$ w& K$ y6 L
其他/ W, g4 d3 f2 e4 F8 ]
偏相关系数(净相关系数)! }% A0 F* c* L7 I# s2 a" ^2 D6 `
复共线性和有偏估计方法
. _, c+ K3 `" g s1 }: l/ l/ Q8 k 小结' A- e& g" s" H. ~7 x
应用场景
# a5 h$ A: a: [
6 }/ G+ a' N) Y! s' w: M 简单地说,回归分析是对拟合问题做的一种统计分析。
. [' r& E+ ]4 U7 S& N P.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。
$ M4 `- T/ _7 ?$ a# p7 b& N
( L% a& W) l% } 具体地说,回归分析在一组数据的基础上研究以下问题:
; O; L7 P. T4 n: E! q8 ?
1 K7 z8 O9 N$ _+ ~
1. 建立回归模型
+ @7 K, b, f0 ?- a( h0 @ : Q; w0 T8 _, ]# X2 V! B* D
1.1 筛选变量
2 H+ O/ S0 a3 w# F9 q! ~
) X7 G* }" u% R- B% j 1.1.1 确定样本空间
" {, l9 }( t& v
) l b6 P A/ C5 \; g* X+ h$ K! U. ~ R
$ A/ A6 E7 n0 |1 G
所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。
: C% Q" O7 L8 ^ + Q/ f& j9 `$ G: d4 T0 ~, H
1.1.2 对数据进行标准化处理, B: g+ |" e& {9 q x# Q
3 V9 I H4 O5 y a (1)数据的中心化处理
) @2 }8 z* P# i5 M- U 实际上就是平移变化,0 d* B. t, g/ X# F* Q
9 {) Z9 p0 Q' w. v, R
( V! n, P& E% h2 a% P ]& C' u 这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。
" r2 i8 `+ ` \" l' M! F+ H (2)数据的无量纲化处理1 k9 q P, H6 T" u- f
在实际问题中,不同变量的测量单位往往是不同的。
+ x( J7 c3 I3 y5 ?$ F4 A; } 为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为17 ^# s+ ^8 p4 n1 o
即,; b' z* a7 Z6 o: v U( q8 i9 z
2 ^: R0 X% y3 v4 S
: z5 F% D# U1 l1 b* n 当然,也有其他消量纲的方法,此处不一一列举。
0 v( e- \4 Q; m9 t1 V6 q% A0 ]& `: Q (3)数据的标准化处理——对数据同时进行“中心化-压缩”处理
7 o/ | N- M/ ]- M w 即,
; |5 |( @# T* i3 v l, ^1 H0 k
4 G- |: G9 N# X5 n2 ~
' A1 A) L" L5 p& u
1.1.3 变量筛选
M1 L/ \$ |6 {8 P4 U, h
6 Y( z l( i* o: k ? q ——选择哪些变量作为因变量的解释变量:
% `" g) L- b. C, v+ v; y
% E6 ?2 w" o; z3 R 一方面,希望尽可能不遗漏重要的解释变量$ C9 w: u: Q# P
一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少
- F! q p1 U. d' E+ [ (1)穷举法
" a7 A7 O# _$ w5 H; x+ ?1 A& k 列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。
, q% f# e7 [% n" P) y& T 假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2 " }- [- v$ V j, `1 P9 h3 }0 P
m. i. Y0 A6 Q* g. F
* ^5 K$ B% X$ F3 L4 P2 x
——当m mm较大时不现实
, e G7 L$ z1 {! \ 0 M. G% d9 `$ s3 D( S! V
(2)向前选择变量法
# K6 p5 R* b- K
% e) t3 J6 v9 c& M6 u+ K 3 F7 ]/ v) J* \ j
) V6 H7 Z D7 a* F) G7 U# a
. Z. ?7 l G9 T% a/ q! e7 x
) E, n% I% z" _* Q1 V& }
6 R. X6 Z: v# d (3)向后删除变量法( Y4 l, |" t! W, c4 E8 K. M
" N5 R, L: \) ~ (4)逐步回归法——最常用8 M B8 i8 N+ h: ?
9 ?) c1 f* b$ X6 [' _ * U1 {) i) n4 r- I
1.1.4 调整复判定系数. ~ y q- G- q$ I5 B1 ]9 w, C
x, Y- g t8 x6 b0 m1 S
1.2 最小二乘估计
3 \0 p) t5 r K4 G3 I1 g2 |' h ; D0 e! x# n" i2 [! n, k, w
一元线性回归、多元线性回归——略。- M+ T& k+ [8 S) h1 {; s
k0 e5 S$ c r$ h) K 2. 回归模型假设检验
* \0 A* X6 M1 T# [* s
- J, }/ I% D- d1 {6 _/ ` ——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)7 C D7 R# B- ^
! M) R& G2 }. ?6 |8 Q+ {# E0 B2 X 具体检验方法见书,此处不再赘述。
) h: G! j% a. r( x4 A8 L4 l1 D' H ' a4 W# w1 W E
3. 回归参数假设检验和区间估计
; S. V- i8 G' W, g
5 L. c; D# m! i/ b! B ——检查每一个自变量对因变量的影响是否显著(t tt 检验)1 u# l' `* ?; e. f
1 Y% R$ F k* d W( a 具体检验方法见书,此处不再赘述。6 V) i4 r1 X' S* k; Z4 x; X- i A
, a; ~! U& q7 p" x2 T6 X' t 4. 拟合效果分析- a5 R4 {6 }- v' f
7 w) e) p: z% M( y6 J
4.1 残差的样本方差(MSE)7 \5 B9 a7 W* i9 g, k2 i
& g- ?9 _+ A1 |! J. [2 J" o
: i& |: x) d* | 4.2 判定系数(拟合优度)
$ A, |. i% Q& n H6 N" h
3 W( L, i1 D' P, z! e k6 p
3 c) q2 o. y3 \0 B
7 X& S# Y; a" Z8 m4 E$ J 5. 利用回归模型进行预测
$ i# U& C1 ^6 d7 @
( ]' Z; E" j& y5 L0 @+ z $ ~! G* |) x B v' q5 S# k
`* U5 M' O; }6 h; d
其他
2 k9 q7 g" a/ T7 t; ^6 a& u S
, @0 C& X$ a1 Y% X) m( v+ w 偏相关系数(净相关系数)$ J! _+ _6 r8 Q
3 r6 M3 e, [5 ~- m$ g 在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。& w1 _( ~$ B9 T
3 T+ w/ O4 Z/ u- V 复共线性和有偏估计方法
$ N( A0 p, e/ ^
& B4 @7 p! O' z( M" r" N1 o 在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)6 h4 V4 Z6 X' B6 x" {6 P
7 f* [' R" z! e( M
解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性
4 ?+ @4 O$ i! H# O; c! ]8 q 例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。
4 m3 n# M; }+ N) | (P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)
, l& [5 f" w1 X ' i6 w' A( g/ N ~$ o h5 S
再如,主成分估计——可以去掉一些复共线性$ o( t% y- i- a, D @0 D" I
) ^- ]3 n6 k* g3 l: N7 ?
小结
: X6 G; U) G# A$ _! D 9 i$ |# D" d# R. b7 P5 r
采用回归模型进行建模的可取步骤如下:. ~7 Q; ^9 s! r( F
( K, w5 h7 z$ Q: I3 P" o/ ] 建立回归模型
, O" {) c* ^5 G! f$ }$ @9 l) m 确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量
: T# _: j* M$ |2 ^. H! s# J" Y. c. L3 C 原文链接:https://blog.csdn.net/xxiangyusb/article/details/99762451
2 \9 V0 h7 s1 R2 H; u6 M7 M- A
7 c. N* Q: b5 S3 q; A % H' W! d. V% e8 e/ H
zan