QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1250|回复: 0
打印 上一主题 下一主题

数学建模之回归分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-3-13 15:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    4 q3 h6 t0 k5 L# J& _' |6 Q  b) o6 O6 J) Y/ _: J0 g' F! H
    数学建模之回归分析

    * l$ b  _3 p. [/ M) g2 @) E/ j' T0 Q1 x5 H6 x0 x, c( ^
    应用场景0 k8 t% E: e  V  k4 W1 X- l. Z
    1. 建立回归模型3 j* |0 H$ s4 V  `  f8 u, T
    1.1 筛选变量& q3 G: i, e" \" _# F$ L8 S4 K+ |
    1.1.1 确定样本空间
    / ^6 Y" c4 _6 @% K# e1.1.2 对数据进行标准化处理
    ; x$ w8 _9 t- n: _, ~7 ~- G4 i1.1.3 变量筛选
    . {  L4 {: S! T& k2 I1.1.4 调整复判定系数* W8 o( T3 u3 A7 X/ }' f
    1.2 最小二乘估计* f) E9 {6 J: Y
    2. 回归模型假设检验( `+ a. l( ~+ y  e6 T) [3 r
    3. 回归参数假设检验和区间估计0 r  ?* f; ^) ]  v: q8 ^
    4. 拟合效果分析
    6 k: K" [8 e. f0 F! I4.1 残差的样本方差(MSE)
    , f. V1 ^# l+ p9 f  @4 x( {4.2 判定系数(拟合优度)" E1 C. d! |2 d- _" r7 m. i* G1 D
    5. 利用回归模型进行预测2 m. o: @0 c2 \- b0 |
    其他
    8 v' N( I5 K% N偏相关系数(净相关系数)" b- [5 j7 l, D7 K( h8 B" K
    复共线性和有偏估计方法
    0 Z* v5 |2 F+ O7 O3 Q, m, O- G小结
    , h% t6 z$ |/ A0 _" x, `应用场景
    4 E/ @$ C( r- W( @! \5 k
    ' ]" R/ E6 M3 J8 u简单地说,回归分析是对拟合问题做的一种统计分析。
    5 r' R) w( B( J# a2 [9 ]# F; cP.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。
    , U8 d- M2 H+ N6 W& {, z- c# Z1 O3 m2 W3 u2 S/ O
    具体地说,回归分析在一组数据的基础上研究以下问题:
    , C& Y7 T9 u. w; M# Y7 U 12.png ( M) l) N$ H1 B# H  U
    1. 建立回归模型8 g8 D1 L! w& ]
    & Y1 W. E2 q: N! p
    1.1 筛选变量
    ) a$ F6 l& {0 ~# Q
    6 w  B6 Z- G+ ]6 X1.1.1 确定样本空间
    ' q9 ^' L% D/ c 11.png + r' Q  A9 |2 {- p+ Z

    5 d3 c7 K& z' E$ b, L- S( ?& d所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。
    , B4 s) j$ z- ]6 _6 C( R3 y
    $ S# N8 y! k- D5 c" B- p* Q% e9 J, e1.1.2 对数据进行标准化处理
    0 @* M" v( y. V
    1 T: r, e( g" M" W+ P(1)数据的中心化处理7 `9 n* o0 v% T! N6 F2 n
    实际上就是平移变化,
    * S% E! s: A% d% y: {8 ^& A
    / }, B2 i0 x. p* D9 D. Y 10.png
    ' m$ D1 P& h/ t8 H" b! x/ D/ H这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。, w. X; s5 L$ r* D( m
    (2)数据的无量纲化处理
    * ^) L3 w& e1 T& @# a' z在实际问题中,不同变量的测量单位往往是不同的。0 r8 d6 @3 A0 i" Z
    为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为1. j" J( \" }3 f2 u: E, N/ V5 a
    即,2 ]+ V0 S3 J; z

    4 R' H3 x( H+ Y4 Y 9.png
    $ b1 S- ]  `1 ^0 ]1 Q9 K当然,也有其他消量纲的方法,此处不一一列举。
    $ D8 ?; f. y: a9 Y7 `. r(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理" M; a8 u$ \1 G, B
    即,
    - w3 I/ @+ l5 S& y2 z+ d# z( V) Z/ K" f5 }# v( j
    8.png
    ! I" {$ R1 j8 }* h, T% L2 a1.1.3 变量筛选) x/ x+ I1 S+ {/ O$ W. k% `

    " c. Z) J5 W% H: e7 R' ~. e——选择哪些变量作为因变量的解释变量:- J) u/ E' h* ?
    $ K/ U) J, g5 e7 ~+ y
    一方面,希望尽可能不遗漏重要的解释变量
    1 |- G8 c( Q. F1 P$ k一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少" B, l$ u# a7 F! I
    (1)穷举法
    ) A4 I1 M5 K" f: {列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。
    3 A1 a; D) r' w3 K3 R7 c; X+ o) a* _假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2
    , Q- }' Y6 [9 ]" R$ L: U3 H3 A# Lm) q; w2 ?% u2 Z6 O& B" Q
    ​       
    2 D1 G( P- b  X ——当m mm较大时不现实, G8 s" Z& K! |. f; ?/ Z  a

    * B; i: y- r  R$ K- |(2)向前选择变量法: d- q- d0 [" L0 P6 `8 w. R  ?
    6.png % z1 h: t8 |( I& v4 f6 c8 I, ?
    & X2 Y" k) U4 M. ]# Y
    : k6 a) u  l+ `* W7 ]- [( u

    1 e2 g" A3 [/ S; E% h9 n 7.png ; y, A6 U  K* Q* [1 M5 Z4 @

    5 e1 m- z6 a/ O8 l& I; e" i4 R' E0 e(3)向后删除变量法
    # l3 @/ F% c& j* d- @ 4.png
    $ d( }  S( d. t5 o* e# h1 {/ E& n(4)逐步回归法——最常用9 E/ M9 M3 _* p
    5.png
    / ^  f* m) g: f# }
    " b: i8 X/ R5 q( U. P! d; P1.1.4 调整复判定系数
    6 `. l! ^; B9 s0 k% v# X1 z 3.png " H& u# d! A- [% c. R
    1.2 最小二乘估计
    , n# b% |* M$ f# T6 \1 s# l. Y
    ; K  Z3 a+ }0 I# v0 e6 m/ t一元线性回归、多元线性回归——略。
    ) f2 ~1 f0 u! {8 y* q$ ?: g6 T4 |  p) m" e
    2. 回归模型假设检验0 j/ j, E" f) q/ N

    7 K. X+ J2 o/ M& i  O6 k# K——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)" C# h( q: ~  c; y9 {+ Y1 P  `, ~$ G

    " r0 J, _+ Z$ X3 w4 v具体检验方法见书,此处不再赘述。
    # s, ]6 R8 |  i5 K7 x1 a0 c8 v% ]5 l" M/ C: T; q' b8 x$ a
    3. 回归参数假设检验和区间估计/ R  c4 K$ q9 E# W* H
    ' G( V9 y, f' q# o7 |6 r
    ——检查每一个自变量对因变量的影响是否显著(t tt 检验)- I6 i- m4 B% \6 x

    : Y# e, v& a- T# S6 S; T1 R具体检验方法见书,此处不再赘述。
    # h' x& O; D1 o) x/ j* |. \
    # W* V" G; V% O: ]) E) y- S4. 拟合效果分析
    ; S; v9 _- B. d! x' _% d2 f* z3 i
    % x: d4 U& E0 @9 o0 M% V! `' o7 S7 B4.1 残差的样本方差(MSE)" H  {4 r- f; Z$ A3 w
    2.png
    8 t/ C" G6 C+ Z$ ]# O$ `3 Z8 E! D+ \  n
    ) d7 V/ Y6 ?) v* E6 O3 b# k4.2 判定系数(拟合优度)
    , J& [, o* L5 g
    4 S' h$ r/ k" T  u- g 360截图165011039490135.png   ~4 I; j6 A* {% _* Y! b, r* d

    7 q5 W. q& H2 p$ i- H. h5. 利用回归模型进行预测
    ! i& Z3 I" @  {8 S) V  I4 {6 K
    7 v" h) q7 g2 h$ a6 l1 j+ c! ]* u: i, _

    3 F2 m# Z5 s# ?3 I其他
    / J. x* J4 R" S) x& V) i0 ^8 n$ B; h# e2 }* A
    偏相关系数(净相关系数)
    ; F  Q) G0 h2 |3 U2 o8 r5 C% h5 q
    在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。# e" |2 o9 t! o* i, G" T
    * {) ?) F. |: W  G; u* T0 I" h
    复共线性和有偏估计方法% g: E# m$ k( c5 v
    . v; U+ p1 X- t& T  l+ C+ ]
    在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)4 c9 I8 U8 T  h- m& Z- R

    # Z) T7 k3 g2 j1 y4 e解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性  g9 u, y  s# E
    例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。
    " K& w: P2 r, O6 f/ S- R5 a(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)
    # y; H& @- H- ~" g
    3 B$ ], g0 K9 ^9 a' e再如,主成分估计——可以去掉一些复共线性
    5 e) g5 W7 ~- i* \, Q  V2 G( j1 [& P! b/ n' r$ ]# V5 B1 i: o
    小结
    / M' w. G5 Z* D) e! L% n# d+ r2 W' k* r% Z+ [1 L/ T3 R' m
    采用回归模型进行建模的可取步骤如下:
    ) g1 ^# Q8 Y9 ^/ `( z7 Q% X! q1 F, Z' M! k6 z
    建立回归模型
    0 ^( h1 I  P& |7 X确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量
    $ f" {3 _% j3 N: U  E- d1 Y' e2 e原文链接:https://blog.csdn.net/xxiangyusb/article/details/997624517 c% p8 }6 D. C! E: ?. `
    8 Y( [& Z) c. j
    . _6 `5 h. A$ a$ m) D% u/ ^$ ~; w
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-21 02:14 , Processed in 0.414470 second(s), 54 queries .

    回顶部