在线时间 1630 小时 最后登录 2024-1-29 注册时间 2017-5-16 听众数 82 收听数 1 能力 120 分 体力 563414 点 威望 12 点 阅读权限 255 积分 174247 相册 1 日志 0 记录 0 帖子 5313 主题 5273 精华 3 分享 0 好友 163
TA的每日心情 开心 2021-8-11 17:59
签到天数: 17 天
[LV.4]偶尔看看III
网络挑战赛参赛者
网络挑战赛参赛者
自我介绍 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
群组 : 2018美赛大象算法课程
群组 : 2018美赛护航培训课程
群组 : 2019年 数学中国站长建
群组 : 2019年数据分析师课程
群组 : 2018年大象老师国赛优
# W/ \2 C b4 p2 o$ j , s0 ^) p$ r9 d
数学建模之回归分析
% _2 X8 a* @( J0 N
* o+ t* ]9 A( ^( a+ y1 p
应用场景0 n1 R- g r% J1 e ~% Z- Z
1. 建立回归模型! C, o, k; |/ E# ?* `3 E
1.1 筛选变量
/ @+ n9 z6 V. x# Z* L; x% y/ ~4 _* N 1.1.1 确定样本空间
% ~& X3 T. T& P 1.1.2 对数据进行标准化处理! V# n4 H/ g9 F( J T* }4 c0 y9 J8 B
1.1.3 变量筛选: A7 T( b" G! v2 |6 z; B
1.1.4 调整复判定系数
" i+ z) ^7 x9 `( o+ t3 A- t 1.2 最小二乘估计
$ t' U% C( i2 u 2. 回归模型假设检验) [0 U- y! i8 i6 C
3. 回归参数假设检验和区间估计
1 s m4 j4 y) {, J# s 4. 拟合效果分析
g3 j) u& Z1 i9 P# ] 4.1 残差的样本方差(MSE)
6 S# g, R( j+ Y: x8 U# ? 4.2 判定系数(拟合优度)
/ m. g! v, w& O 5. 利用回归模型进行预测" @' |% |8 p; d. T9 @; n" t
其他
. e' d4 a3 [0 i( ~# n8 B, S. X 偏相关系数(净相关系数)3 Z3 i! s2 H. B# H/ f
复共线性和有偏估计方法
. w/ a. N* b' e2 o9 Y$ k; \4 O 小结2 F$ [9 N! Y2 A
应用场景: G" z* L9 f: G E5 E% R" |
8 j: N* t9 k* |3 D8 t6 G( ?2 k( T 简单地说,回归分析是对拟合问题做的一种统计分析。2 z: ^1 d5 c3 S, T; T
P.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。/ }& v" \: d& v. ]: K
2 L* v. j' E9 F8 d5 q1 c( B6 T 具体地说,回归分析在一组数据的基础上研究以下问题:
+ M. @. V: \: [# L5 R% T4 Y8 {
* L$ c( Q7 U5 ~$ I. ~) L! M x6 Z
1. 建立回归模型
; a. O. _4 W2 O( r; G; V
& f# F! v" l; t( Q2 ] 1.1 筛选变量
6 p+ y& J" r. j% |7 N. o8 K5 v
+ n. C4 ?7 H) r+ r( n 1.1.1 确定样本空间' [, I: n. l b* s' i
) u$ o/ E4 W7 M3 L, }
( m% W3 A, @2 i6 K 所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。
* X. _! D" p! X5 K _
4 M5 V+ R5 n# Z, `& ?" ? 1.1.2 对数据进行标准化处理
" U# `* p4 G1 }0 l6 Z
9 L. T" c2 m0 M: k/ d4 k6 y (1)数据的中心化处理$ [- E5 \+ |4 }: D) i j
实际上就是平移变化,
* V& [8 {, g$ w* Y 4 K* |& u, \& @4 D
. I/ B6 e) ~( w: w5 u. | 这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。
1 |' X& U2 X. Q (2)数据的无量纲化处理# n1 }) z/ G4 F0 {+ V+ P' d
在实际问题中,不同变量的测量单位往往是不同的。
' c2 `4 E7 B5 Y* q 为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为1
* ~( f) B; h% g& l 即,4 ?" p t8 O5 V$ b+ r5 E: y! G
9 P! J) v+ a( }' f# k
6 |' _# y6 v) d. {5 p% V, t
当然,也有其他消量纲的方法,此处不一一列举。' m* ~) `' F: j, @
(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理
. r# K. t5 @! y 即,. ^6 r9 G# n. t' ? z: @/ \
9 C5 b, V& f+ }0 j( l/ O8 L: p9 u
% G( P, y& y* R8 W& @2 Z8 i 1.1.3 变量筛选( s* T+ d4 g" s6 D
: N( f, A2 i5 F' E J% e1 X ——选择哪些变量作为因变量的解释变量:
8 b! f ?% z' E5 B9 g9 G7 A o7 ]
! G" I8 E5 k5 `/ {0 B 一方面,希望尽可能不遗漏重要的解释变量
6 u Q+ R U9 c' W. g 一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少
) V4 } A9 _! R) }1 C1 ^ (1)穷举法: C. F3 T. V( _! r+ v
列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。+ O- Y' d+ w' L [: \
假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2 ) w# P( L" X6 b
m
x4 y- ]- e& A% p9 ~! M % Q5 q2 _; Y+ q- m: u
——当m mm较大时不现实
4 T, m2 f" l6 z# T# o, j4 E2 B
/ T# k- S- S$ j5 E1 F2 n (2)向前选择变量法
/ u/ U1 [/ B- m5 W ^, J
. f6 f6 f [9 l& F& l
d! l2 g0 h- I: n; @* h
* o( [5 A$ ~" p; x
/ Y2 p; R7 d# p+ \
6 `7 W' i \! B% b r% p$ L 1 g) j5 u) ?! q- {
(3)向后删除变量法" N, c: a' G, o# w
1 e' i+ a, o% w
(4)逐步回归法——最常用
0 ~/ |% U2 \+ e$ c l: t* X* y8 c
. @2 { q# H- ~* s2 C8 [
! R* B+ \' w: Z 1.1.4 调整复判定系数
$ s- y9 t% j$ @2 V! H. `$ ~0 H
2 L- c* u! t3 p( c- ~2 c 1.2 最小二乘估计, I; M2 e6 z) z/ R3 Z g
# |- ?' F- {3 O: O+ q# l& X 一元线性回归、多元线性回归——略。" c$ l: n, G+ A. Z9 b* a" c7 Y
$ w: {& N+ k( o: v' K 2. 回归模型假设检验
2 O _, k/ D" n. x
" r4 p' M0 ?9 i1 D) u ——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)8 u1 p% a/ e' x L
- i p. d& V M- ]/ X 具体检验方法见书,此处不再赘述。* l% D, N5 J- }2 V( z
' T& q( X% f; f4 d3 ?& P8 ] 3. 回归参数假设检验和区间估计
2 O& L- e# ^ Q+ }+ K c & @8 r9 ]8 A" u9 R- C
——检查每一个自变量对因变量的影响是否显著(t tt 检验): z! F' ?3 t9 Y3 J
) j$ h& b0 P' k
具体检验方法见书,此处不再赘述。. n, t; g7 O' A: p: q
/ _, T2 D, i% `
4. 拟合效果分析
, b6 x4 n0 i* i g8 s : c* |: Y; Y4 g5 {- ^/ F! f
4.1 残差的样本方差(MSE)
6 ^7 G4 U. c) F" u; s. }
- h* k* r: n- y- O4 Y# g
" T8 f; q6 J& H5 X4 \
4.2 判定系数(拟合优度)2 O R- ~/ R! T4 R, d+ X
. Q% J g. b7 d
' g& l# T4 N; T
3 |9 h& B" a- ?9 Z% A- d 5. 利用回归模型进行预测- d. z) ?) }% b/ `7 @5 W0 y' O) o
; m9 _, S4 Z* C+ t4 g! P
! V4 J6 B& v+ [' p6 h5 N
% F' M0 E$ y% K7 H
其他
% L3 c8 Q: v7 r% N4 Z4 y 0 u: V; i! q* ?2 f( A9 q# r s: P
偏相关系数(净相关系数)
* p1 t$ Z0 v& X& h + G3 g6 F, f6 r9 p; ~" n& c
在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。" Z& `5 q( r- |! q2 n: k
+ w5 f5 r3 H' A% c5 h( ]. f
复共线性和有偏估计方法# M% v7 c' F; o" j" Y) x
) ?6 e+ c2 [* Z) W# X! |7 r 在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)
5 v# e) q* _: V9 l5 f
/ y- v1 z' K) ?; c5 u/ b! m; \# a 解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性/ F) R' A. O) ~* g( \
例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。8 t5 @5 {+ Z/ R# @
(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)6 U+ z- @) m% p. [& W
2 H/ a, J+ c1 L' ~& ^
再如,主成分估计——可以去掉一些复共线性
N+ t. m3 C1 _ U( b
9 {2 Q$ B6 S) L6 g' u, P 小结
' R- E b/ l: K# [3 | 4 t1 F. T) Y$ g+ d
采用回归模型进行建模的可取步骤如下:
* D" S, v! g" n4 g3 I6 b1 P" J 1 [: R+ ?* p' b' v9 i/ O& M
建立回归模型 }/ T P7 T: a! }4 Q+ Y- l! P
确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量8 v+ a% b7 r! Y4 @, t, R
原文链接:https://blog.csdn.net/xxiangyusb/article/details/997624517 ~5 S# ~, s; a. S& q3 u( o
, ` F+ Z, U, M& L# o! B
5 t" s3 p# f% u6 h
zan