- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 564637 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174614
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
; a" E7 g" J8 {1 X! x; G
2 N/ D2 ~ R- O* ]. n1 O m3 {% z数学建模之回归分析
* L0 p5 Z+ Q! e: f$ B3 E% N8 s7 z* B* j7 a* {
应用场景. \- b; U$ g* B S+ Q8 x
1. 建立回归模型
8 W6 Y3 Q% ]: P: f1.1 筛选变量
% K' ]5 b4 M# G' y1.1.1 确定样本空间, S! l5 N2 H/ y3 g l( z9 h8 J
1.1.2 对数据进行标准化处理" M: d8 N5 p c
1.1.3 变量筛选
4 z( ]' U0 a& w+ O7 b/ x1.1.4 调整复判定系数
/ P' n$ Q- P/ X6 v: [3 N9 h8 w1.2 最小二乘估计( ^9 a' R! C2 b1 X
2. 回归模型假设检验
5 k. P& h% g' R3. 回归参数假设检验和区间估计: ~2 v$ \4 F) I% ~7 U
4. 拟合效果分析
! I1 l2 X1 D' f3 R) t n2 v* t4.1 残差的样本方差(MSE)0 z# d3 y8 q8 f+ O7 f
4.2 判定系数(拟合优度)
0 y8 ]& d3 ]- ~, b5. 利用回归模型进行预测$ b7 n" z" F E/ d
其他
3 f4 `! m* j4 e" C2 O, o. |. r* J偏相关系数(净相关系数)/ Z5 G- C. U/ V1 a5 i( q9 Q4 z" a! \' y
复共线性和有偏估计方法, W0 O9 T) ?9 {# h8 O5 O
小结
) P& G' ^/ }* G! g$ ~( u应用场景! f3 E: W+ Z( Q4 q Q7 K' a! n6 I+ _
! z, D- F* c0 C$ n+ r* m4 x J, i
简单地说,回归分析是对拟合问题做的一种统计分析。) L0 a- f. y( E& r7 [; |/ R
P.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。
2 U* i6 p/ n* q9 y7 G& k, ~+ G4 T A! P( T, O# f6 I1 ]: B
具体地说,回归分析在一组数据的基础上研究以下问题:
2 f6 w, m! K1 j9 F
4 }2 H' s, @. K# t* S5 I
1. 建立回归模型
5 ~$ ?' x5 x: y$ \4 \ y9 s/ d7 r3 g7 c' K# v& v' k( l
1.1 筛选变量
1 \2 S+ h9 b- j. [
4 T8 x% ?; \ w6 j O1.1.1 确定样本空间
- K+ F* ]8 F% C6 Q, }6 y
" v3 h E! D! A. y& u, v( b
/ Z/ S5 f, z5 ~
所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。( }! f L) ]5 ~& V8 d
7 l- Y. \; `4 X3 F" Y
1.1.2 对数据进行标准化处理0 R2 ~8 \: i. u6 A; D9 X0 V
4 h4 s& s5 G7 g+ q. a \ b
(1)数据的中心化处理
& Z9 z3 B3 E+ C" p+ O1 c实际上就是平移变化,
+ T0 R% F3 K, `. l3 e$ N7 u" Q) a; {. K: Y) s' ^0 }
/ {% C7 Y+ V, L' ^ M+ A这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。# ~$ y) c, j2 G6 r6 {0 g# J
(2)数据的无量纲化处理) u& p! ~1 l& S
在实际问题中,不同变量的测量单位往往是不同的。. k7 ]; l3 L' e" M- E/ A
为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为13 u" j( o$ v" n# w0 |0 P3 T0 ^2 p
即,
: m" n% X' t! d8 e) d
; i; e$ }, y* ?3 M8 v2 m
) A4 Y& D# L. @7 H当然,也有其他消量纲的方法,此处不一一列举。; ^6 \* c/ _7 m4 B: X, r
(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理
3 W- m1 h- l L+ |即,
. t0 m) q0 d: C$ p
2 E( K; _. d" u
5 G Y5 v! {( C! R" |3 ]! j$ K/ K1.1.3 变量筛选" E( Y9 A6 q% S4 Y4 f+ u* m
. F$ v4 u- O; l# C7 u——选择哪些变量作为因变量的解释变量:
# s+ p: \3 v8 U+ N0 l& f1 k4 a7 K
1 ~7 K0 j! h% v- ~) ]& [' S3 m一方面,希望尽可能不遗漏重要的解释变量
. C, N9 ` ] w; E, C7 ~一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少* W5 d: R% ?% d ]; |! l
(1)穷举法
- \+ a$ R" y0 T( u列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。
) }5 N$ P% x+ [8 {2 |$ l+ ^假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2
8 H! Q* X; ]2 X3 S: x b Om$ b) R" y& `/ n; C5 w, |
0 R8 a& G8 Z7 ~1 ?+ H ——当m mm较大时不现实
& B! Y- t& W! l9 S z; W+ s2 U }* |6 A I& p9 g9 N& k
(2)向前选择变量法
1 |: W" z. A! U0 R W5 M+ b
# S' d# g6 G4 N
2 c8 J8 E# v8 ~- o
. ?8 G a4 @- N7 |8 h. J
) Y+ g; d R$ ^
2 r9 ^5 Q: g/ k9 _& h
4 N9 o; F, _. y3 w* w9 w# c$ M2 a(3)向后删除变量法
9 ~, P9 q/ U& m% r. G6 y9 @; c
( B$ W- @% p; d* I; A x# \; Y(4)逐步回归法——最常用5 v$ O* |9 o- I( d/ `
9 E0 ]; i$ ?! J( k' j* l4 p
8 l3 R5 ~3 T: y3 ^. ^. {2 G1.1.4 调整复判定系数& O1 h* U( h+ P, ]
: ?' N7 v$ O- Z1.2 最小二乘估计5 m8 n4 A( Z1 j
" O) j- m' P$ o9 L- q一元线性回归、多元线性回归——略。8 w! Y. V3 P) N/ t8 K" K2 l
5 W8 h* R) t8 e9 ~& q4 }
2. 回归模型假设检验
$ w) }- k$ b! ]8 D4 ^6 ?9 o: y% ?, Z- z* F2 T j, W$ N1 F( P% b
——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)
! F" g. `0 v' X+ ^ X( n$ `" _/ v. {. S% a9 Q6 p3 v) b
具体检验方法见书,此处不再赘述。( H; @ ^ |1 P! S8 n
- r/ _' ^2 v$ g, k3. 回归参数假设检验和区间估计5 u# E5 O' m3 L9 u
$ d( f5 x' R& u$ }6 V) x
——检查每一个自变量对因变量的影响是否显著(t tt 检验)) a: G% x# C) _, {1 G, o9 P
5 o6 {2 w8 _; R+ I5 ?2 l具体检验方法见书,此处不再赘述。
3 m% S5 E$ G# e5 Z5 \: F. Q$ e X1 ^. A1 C1 ^
4. 拟合效果分析; ?% D1 d! h1 ~2 _: q! s0 ?
5 A1 R( b- C9 \7 b* i4.1 残差的样本方差(MSE): ^3 j* K X, d3 h a
; f6 \6 y1 N2 `" z( a2 W" p! i$ O7 v7 D
4.2 判定系数(拟合优度); f; [) O/ h. \
0 z! G) ]% e, x; B) f
9 d( j/ @* [, f
6 r7 u6 y. X/ l& N! }" P4 A
5. 利用回归模型进行预测
/ U" h+ k5 Y$ V T4 F4 I9 S - G9 k5 x+ p9 h/ q
+ z) s5 s, q6 O
( g4 }9 ?6 S8 O其他
% m; l N" @! u; U# l7 ^+ ]0 g. o3 n0 \% B5 R1 X5 g
偏相关系数(净相关系数)5 M" C7 }- X" ?- } H# @
9 u+ M- f- z1 M4 [! t: f0 x
在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。4 D9 b8 z' ~6 g& X7 {
; \1 p' X: ^6 n1 m
复共线性和有偏估计方法
1 r; V9 H5 f8 c- |
/ Q" E3 j% g; \8 z2 V* o9 n0 o在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)
, e2 V, u$ A% F0 J% c1 X
" R9 b7 Z# `) x解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性* h N. V7 A0 t
例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。* @4 @# u6 h2 ^7 U& {3 o! H' ]
(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)/ ?" g2 S& S u" a/ C, y T
3 d! J% [1 D; \
再如,主成分估计——可以去掉一些复共线性. Q( {) ~# ?$ f- }. R3 R- N
% A8 @. ?: Q. e5 N; T7 S
小结1 j' |: a. ]/ a# Q' E$ m
" y/ O" U( ~# k3 T! e采用回归模型进行建模的可取步骤如下:( ~ F7 o/ k* n( |0 ^
' U' `" o; F( b0 I! Z
建立回归模型, H( T3 {' s. L. b: G
确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量
2 i* |3 k( }& \) p原文链接:https://blog.csdn.net/xxiangyusb/article/details/99762451
$ N5 ?( j3 t* J/ O7 [" ?. K$ N- O* W( b. l5 R9 R
& j- N. P: J$ p7 F5 T
|
zan
|