在线时间 1630 小时 最后登录 2024-1-29 注册时间 2017-5-16 听众数 82 收听数 1 能力 120 分 体力 564637 点 威望 12 点 阅读权限 255 积分 174614 相册 1 日志 0 记录 0 帖子 5313 主题 5273 精华 3 分享 0 好友 163
TA的每日心情 开心 2021-8-11 17:59
签到天数: 17 天
[LV.4]偶尔看看III
网络挑战赛参赛者
网络挑战赛参赛者
自我介绍 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
群组 : 2018美赛大象算法课程
群组 : 2018美赛护航培训课程
群组 : 2019年 数学中国站长建
群组 : 2019年数据分析师课程
群组 : 2018年大象老师国赛优
2 a2 z4 V3 ^* t1 b' _* e9 f n
6 D* X2 t3 n4 i; \ 数学建模之回归分析
1 ~" y6 l G& W5 |+ S3 D4 \% P
: r- _/ \- G4 a5 e: X- s 应用场景
. t- y. {( w: s7 k 1. 建立回归模型
, k: N6 V }) g+ p; ^$ V3 e4 h, [ 1.1 筛选变量
& J) x4 I$ w( s w 1.1.1 确定样本空间
1 {! C" G3 p! V& t8 o 1.1.2 对数据进行标准化处理
& u/ h, |# T: L: F0 K: V+ f: X/ M6 b 1.1.3 变量筛选; C9 l1 F9 o8 h0 V! G
1.1.4 调整复判定系数' {5 m" _% _" O
1.2 最小二乘估计) R( m7 U' H6 F: X$ Q
2. 回归模型假设检验. @& F; [$ a% @" t
3. 回归参数假设检验和区间估计1 u# @; ~- ~1 h6 F' X$ w7 }
4. 拟合效果分析
4 `2 d$ f4 Q& @' b7 i& T 4.1 残差的样本方差(MSE)2 I2 {+ r6 B( X1 v) ^, r
4.2 判定系数(拟合优度)
4 r7 g) l; O. _ 5. 利用回归模型进行预测( N' \1 P: s* P+ J5 b F. G
其他
2 H7 ?" V+ p! h+ r 偏相关系数(净相关系数)0 N' \4 j9 @& `; U9 h- Z
复共线性和有偏估计方法
' o0 J1 j* b: B* h) @ 小结' Y) }: G$ W9 Z2 W5 [+ U% _- F$ ~9 ?" V
应用场景 V$ V: s& a" X- ?
( A, I! _# u2 A 简单地说,回归分析是对拟合问题做的一种统计分析。% W* O6 X8 E1 ]5 X4 I8 w
P.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。
( G. p: P; m f0 Y1 ? ) y( i2 z2 \" i, d- h9 Q
具体地说,回归分析在一组数据的基础上研究以下问题:
0 a( Y. h! z5 T0 N, T0 @
$ L, t1 \; K% x8 r
1. 建立回归模型
/ o) F) D. ~. @' p; T K6 @# F
% c1 a' y/ ^, Z6 U: { S 1.1 筛选变量! b m* ]6 V. N8 [) r9 o
+ k/ I5 {) c8 S, m: U9 ~5 `* f# c* h. i 1.1.1 确定样本空间& `' k" S$ F `5 T% V
, J4 ~& z4 F! o2 L8 w' O
7 }" p |/ b# h! A1 h
所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。
. [/ l- n# S% [ 6 o$ V5 A) _# P$ c# N
1.1.2 对数据进行标准化处理
) x$ I4 A& Z j+ w8 }! w) o( C( {4 B 1 ]3 s! H9 K* n4 j7 J' A/ K
(1)数据的中心化处理1 ^7 X( K4 e3 i: _7 d( p. t
实际上就是平移变化,, U4 L) U+ B5 v0 e* J
& Y; \! x# x* p( g! ^' L
3 ?" i) `% S* U5 s0 t. E8 v
这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。
* h0 R1 u6 k7 ~$ n( M& u (2)数据的无量纲化处理
* ?1 e2 p3 D: @' m; D 在实际问题中,不同变量的测量单位往往是不同的。% m& O5 u2 g8 z4 p- Y
为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为1% m! l C C( \- z; g
即,
# z; R; O- M! z7 I) p/ \5 H# a
, S0 r6 ~7 k. Q% }6 G( `* ^5 y0 J
+ U4 N& P5 H/ c1 V& F$ L6 P9 J 当然,也有其他消量纲的方法,此处不一一列举。; B6 ]' X/ m+ |6 i
(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理0 P5 y/ R3 b5 |$ o
即,
) o: d u* _& L6 F9 G: d' u2 j " k! I7 F1 Z6 J2 J* K: ^
" z4 ^ V" w- }" y E 1.1.3 变量筛选
7 q7 C" `' L4 Q7 e 9 s9 F' P) B# b- A" R
——选择哪些变量作为因变量的解释变量:
% q M0 }1 n1 ?$ C# B# n9 c) {' Q- k
2 }6 |; m; _( P% d$ A( Y 一方面,希望尽可能不遗漏重要的解释变量
% h: x" j% i9 s3 ` 一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少
8 v- H' K7 f' G. L! @4 v (1)穷举法
/ I/ q- _0 H9 h, z* G 列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。9 e- D* D8 O0 v7 C
假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2
8 v1 ~) Y# |, x Z m* N- V6 r0 r1 @+ J
! t# O/ I) {' m3 Q ——当m mm较大时不现实- \8 d0 ]9 }3 H! @8 Q, g. U! I
& n: ^) T$ D3 b' J (2)向前选择变量法
+ P( S8 Y8 `' l- l' m5 x6 o7 y: Y& P; \
; @9 n( `& m+ N& b( _5 g
4 f6 E1 U" Z% c- X" ~7 H, a% L
5 V6 ^' a- G7 T: D; u. \4 E
9 ~- X8 {7 o, q
) J5 Z' K) P" a4 T3 g
3 v; N. V. |0 a1 ~4 x: F
(3)向后删除变量法4 x1 X7 p1 j, a! m
( I: P p1 G; x" o4 X% Z (4)逐步回归法——最常用- F" _( b& D6 Z& l
+ X, T) r$ p! u/ ~
' d% b/ P$ c! S/ h7 E
1.1.4 调整复判定系数
" ^/ w- p9 V+ s
+ \8 V3 l( o, ` 1.2 最小二乘估计
+ a: N8 K" D4 N! |0 _3 R q 1 S8 I4 U' e2 [ D
一元线性回归、多元线性回归——略。
* _- N! Z0 D T6 E( E 7 r5 S; {! n) F# `$ E7 U( X
2. 回归模型假设检验
7 L7 y3 Z) c1 g6 c) o9 ^: R0 u
# a$ ]4 p o' Y& h5 e+ n" V0 C: C ——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)/ g8 Y! m6 ^) X, u
8 \8 l; v1 p. n
具体检验方法见书,此处不再赘述。
2 Z i' M3 `& a9 N$ }8 a * R& q+ c M# x; B6 Y* y6 F
3. 回归参数假设检验和区间估计
1 B5 J6 K- H( ?8 X* R$ N
7 [. Q6 n' c5 w1 B2 D ——检查每一个自变量对因变量的影响是否显著(t tt 检验)
( [, P' {0 @6 X3 C4 a3 ]; T0 _ 9 y' q8 x, c" y- O! l3 _
具体检验方法见书,此处不再赘述。2 A& ?6 X0 m2 Z# S
# d& W6 I$ }! O5 n
4. 拟合效果分析
6 s5 m( j% A6 j+ i \ 6 S0 v$ u2 @& \
4.1 残差的样本方差(MSE)5 T! b9 t+ @$ u1 _
0 {; A" i& a6 W& r1 M! o @7 A) I) Q & t6 S- p6 Z6 v# t
4.2 判定系数(拟合优度)
0 ?, `3 M- R# B& W
1 d8 Z) P& _. |/ G: U( E" A
& u+ Z( k$ I! a. s* ^1 j 8 P% F2 K& D" ~" |9 w3 W
5. 利用回归模型进行预测
" o6 T8 [/ Z# K+ a& T5 W+ X 3 M! B9 e5 w! s+ z3 h2 @& U% Y0 D
, [* C5 u6 g- _" S7 _# R+ \' E
% ], G( x* ~$ O, \
其他
$ m% }" n# ?- L9 ]7 q4 w
# [5 D+ }6 v$ ?7 B 偏相关系数(净相关系数): ]2 {. ?8 h! n7 g, I
* W; c# ~' ]1 v( f 在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。* P' [9 D$ ?( V, m0 E, L* x* f1 H
0 ~5 j/ q" K+ ~% b* }0 F0 e 复共线性和有偏估计方法
. Z2 O; \8 j x. Q 7 W( |+ i+ g& _ @1 ^; L5 I5 a
在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)% h4 A! N& ?4 W) H+ b9 t
- t; V4 F" |! ~, X 解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性& O3 G9 E$ ]: n' e( c
例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。* U7 t7 ~# _' }" {$ f
(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)
- t8 {& t; q% [# y+ e 3 i- |, `. t/ t) H6 x+ k+ P
再如,主成分估计——可以去掉一些复共线性2 n4 a3 k) b& C- U% `4 o5 O
1 O: w3 z; `, z) X6 H$ M& F
小结' @; ~8 @$ u' } W5 s& j$ B
9 e% A! s& ]$ Y- ~4 Z3 S
采用回归模型进行建模的可取步骤如下:7 i& M# @* {6 ]- u3 L, I
$ F7 g5 ~8 A* n
建立回归模型* J1 X. I5 p r
确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量' G5 d0 ~. V3 v2 O; M
原文链接:https://blog.csdn.net/xxiangyusb/article/details/99762451( ]+ R5 m; q. T( @
* }! J' \. C( @8 m' R
9 v9 V! N+ h: v% v
zan