- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 564698 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174632
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
1 Q7 m; J' ~* k/ c
4 g* L; p z. g' n9 `) c4 z数学建模之回归分析
6 [/ Z- A/ W, m: h6 }& h0 {4 D. a# J; e% J! c8 C' a) C; C. D
应用场景2 V6 N1 y) ^* Z; T4 s. V
1. 建立回归模型
' r, W. ]. I; |, g1.1 筛选变量& [) m9 L% c2 D
1.1.1 确定样本空间7 B7 Z. z* C* u# m1 Q, i
1.1.2 对数据进行标准化处理
7 c$ M) k# A7 i8 r5 H7 i& |7 F1.1.3 变量筛选( P3 `/ e6 @2 n
1.1.4 调整复判定系数
/ A1 p' r. J7 c o1 f1.2 最小二乘估计5 z9 \" v5 H% |7 T! @
2. 回归模型假设检验
# V3 G5 R0 G% m# G$ m5 H3. 回归参数假设检验和区间估计. q' G; j" W! _
4. 拟合效果分析+ V/ `9 Y) X3 b9 x# q2 g5 D
4.1 残差的样本方差(MSE)
5 q/ `0 {5 F$ K- B' B9 F4.2 判定系数(拟合优度)9 ~" C& Z+ R: R% ^) u; k: e' I9 h
5. 利用回归模型进行预测5 T$ f1 m: T! N7 X4 X
其他1 u6 F+ ?' ~. X' a; S* R% }% o2 f
偏相关系数(净相关系数)
8 u8 i- q: z4 N/ o: d5 b& _+ h L复共线性和有偏估计方法$ ~- x( M/ F1 w1 C5 D$ A
小结
7 I4 \2 Y) O7 x& ?/ g/ w" K7 B$ ~应用场景/ g! w: M7 U" l, o
& u2 a& m- I4 h4 q1 W4 i3 V
简单地说,回归分析是对拟合问题做的一种统计分析。
+ \& I7 B* e0 d, @0 v! K7 }: P' u: ~P.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。4 R3 I" V# S8 `. Q) k
' E: ?+ t3 I0 E8 m3 I具体地说,回归分析在一组数据的基础上研究以下问题:
1 w- O6 \0 }; Y t/ `
, l; h8 e8 Y% j+ y [6 c' i6 q6 O5 ]1. 建立回归模型+ ?+ g A( v& m/ `6 k8 F8 o
- c( X0 {# N) Y2 M: \" m1.1 筛选变量
" `. @& Y x; j
% B# K, S) r3 e! J: t3 @2 E1.1.1 确定样本空间3 V5 k3 ?' q$ y* \4 Q+ X
6 j/ m/ d- M3 Y, q
) ~, v) J9 D1 m所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。
" f) j# d( ^( N
# o' V; @3 P6 L. h! q5 Q" a3 Y1.1.2 对数据进行标准化处理( x+ X5 M; { E% y- X4 L
( h& j# {/ L& Y(1)数据的中心化处理& t8 q2 S/ U5 [3 o- v6 Z
实际上就是平移变化,
. D5 _3 ?4 ?. D3 i- {6 d! k2 P1 M2 [9 Y. R, \$ K# b9 n
1 Y1 Z4 `" c1 q5 |这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。
' ^' x) ?& R- F b2 j! [(2)数据的无量纲化处理
6 w, {- ?( Z) q在实际问题中,不同变量的测量单位往往是不同的。- q) T- A& w* n. d$ |: e# H4 M
为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为1
, ^8 o7 e9 Z& c4 A即,! w4 x$ o5 {7 v, [ ?- d
1 p4 b( ]! K a
+ L: t. S; m& f0 E! P
当然,也有其他消量纲的方法,此处不一一列举。
2 T" X6 q0 M3 Y(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理
- `) b; y! y7 T/ u; u: q即,! H3 H* w/ n$ P. T
- a' E8 s( v4 ]: @5 J$ q' N% |
7 c( u( O# }. ?( R5 b7 j$ U
1.1.3 变量筛选
' _9 B8 i/ h: [. q- o
6 I8 T M: \; ~, x——选择哪些变量作为因变量的解释变量:
* U3 Z+ V% H# M% r/ i$ u C7 I {
: e' ]0 L+ G3 s一方面,希望尽可能不遗漏重要的解释变量
& r+ E$ H8 y1 p. f( b( I一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少7 A* ]4 j' x) B# Z- l
(1)穷举法
! g- y' l$ m. E) z列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。
2 U: n) M9 O6 ~+ R假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2
) J0 u. r+ R; }5 Q; qm
' q& w5 n2 r/ B- I' n" z9 [2 ]$ ~, [ 5 m9 f/ e/ N# q, C {1 ^ y f
——当m mm较大时不现实. P5 Z" ~6 f: d
' ?: `' Q. d4 [! d% p; q' U7 }* S(2)向前选择变量法
D" Y% {1 Y$ ^7 u/ r/ d
! l4 r. ^9 k1 `' Z6 r" \8 g+ [. s2 M4 |, w v9 Z
6 G# ~' O! `0 `
6 ?% @0 F( R; V* b% M9 {
! W- K _0 m0 @: Z4 q3 i j+ c
( E% U1 P: S; f% q# I" A) w) ?(3)向后删除变量法
8 O$ Y1 \5 B- P
. W, d" M/ g# [; e(4)逐步回归法——最常用/ u% d" P3 Z' m9 N& i |+ @* h _
- ?3 g8 Z" p2 b$ E
. G( l' c1 T, E& g0 F; h' c1 X2 M1.1.4 调整复判定系数5 {7 @ b1 |* o2 s- ?7 k/ e3 J* O
3 g, o, f/ k3 p' _5 Y5 h* F
1.2 最小二乘估计
8 j9 h( M, P: e8 Q5 U7 P4 n3 v* y0 n, z. }" z. C
一元线性回归、多元线性回归——略。
0 H* ]( n# Q9 Y' e" d2 s- V) y9 P, K& o. W: v
2. 回归模型假设检验
$ i& |$ N2 \% X; Y4 D3 G7 ~! t1 h$ h& {- @, X
——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)
* i% {% l! H4 I" U% [, w$ ?3 ^( `% z8 Q
具体检验方法见书,此处不再赘述。
9 @/ z1 c) \# t& {" ?& x! x! Y" t* b9 F# x
3. 回归参数假设检验和区间估计9 }* [0 y# w# ?" R2 C) l) E
' @. R3 n4 I4 L# @, ?) U——检查每一个自变量对因变量的影响是否显著(t tt 检验)
( D! e4 ^: A7 S6 C! q
! I! E( e: N# ^" _2 q: ]/ _9 {具体检验方法见书,此处不再赘述。
6 J2 z3 b$ }0 {6 c7 f! `" k8 m H, r0 S
4. 拟合效果分析
0 [' f- P( L) s" N0 [0 H/ B5 t) T2 y7 s
4.1 残差的样本方差(MSE)
( z- W# ~, W. A! Q5 C. H* l, r5 a3 z
- g% |( y0 l( n# g3 J$ X
6 g P7 k1 U. ]0 a7 V4.2 判定系数(拟合优度)
2 Y8 Q7 x1 k& d& G b9 n8 K& f8 z2 p3 x6 U4 L5 w
1 |7 D0 C' i4 \9 v+ `
$ W7 P6 w( s A- e4 Z5 ~9 C5. 利用回归模型进行预测
* y. b! G) d) q: {$ P' O: L![]()
( f! n$ E' r- D5 Y3 `
9 Y3 O/ D3 w' |0 F% v0 T- N7 `/ O5 y2 t# h; V2 o& f
其他 `- B/ O. k. I* Q4 c: p
# h6 `, w' ^1 Q1 d3 n" W' y/ A/ Y7 L" b偏相关系数(净相关系数)+ W- Z9 S' E! Q6 L4 F
' l2 b' Y: C- ^! F$ A" D4 H5 ~0 l5 m在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。
3 s0 R; }5 @5 Q. j* p: P# r; J$ s4 B( e
复共线性和有偏估计方法7 N0 H6 L3 z W
7 K$ p, v, G2 S/ l7 n
在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)- f( `. Z, |" y3 Q; \. X4 B) f
V( z5 z" S7 T8 U% q/ U, P解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性3 R( s! S+ [% I! u. B
例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。
# \4 q, X) V& k) { g$ |$ c(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)& x# n+ L0 p" j6 d$ W; ?8 H- p- E& B1 M
- y) ?) a2 q9 a k7 p9 K8 @再如,主成分估计——可以去掉一些复共线性
1 a8 Y9 p7 M4 U
# o9 n+ v. Y7 m- k* y5 s小结3 a+ r* q4 ?( G% ~
1 J3 c, n) v/ n! u- S采用回归模型进行建模的可取步骤如下:
' D& x4 t" O4 Y
; w1 U" S0 q$ o. s' O* @+ }& b. M建立回归模型
+ i8 n9 D6 ^' m. g+ N确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量; U9 S. r9 h$ a* C+ h! p" [" i7 |
原文链接:https://blog.csdn.net/xxiangyusb/article/details/99762451
! z& f" V, l" ]! O& C% |; Q! Q( |8 x) C
! ?. T- n% s. F; [
|
zan
|