QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1252|回复: 0
打印 上一主题 下一主题

数学建模之回归分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-3-13 15:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    : p( v6 v" }( a- v. I8 o( v, n& U6 D' u# H7 ~$ f
    数学建模之回归分析
    " `- i$ k/ Q* \. O

    " }) z$ ]+ |4 q& g& ?  F应用场景4 k+ v; N4 ^7 ~
    1. 建立回归模型& k: G8 C) k* ~& x. S
    1.1 筛选变量! {' V8 H0 o# M! Q  @3 W& X0 r5 }
    1.1.1 确定样本空间! s( t- T. G' {& G4 B, z
    1.1.2 对数据进行标准化处理
      `* u6 D- s% b0 }6 {. p1.1.3 变量筛选
    3 P7 }: c% w9 ^( n1.1.4 调整复判定系数' V5 l/ q4 C3 F& g
    1.2 最小二乘估计# \; N; S# x* o; K
    2. 回归模型假设检验
    & d9 y; g2 J0 j( [  V) N) u$ ?3. 回归参数假设检验和区间估计% w, ?4 o6 `: C( I
    4. 拟合效果分析) g+ z0 n( G6 g! d$ `0 m, e
    4.1 残差的样本方差(MSE)
    1 ]0 g% j& H" h' y. V7 W3 [4.2 判定系数(拟合优度)7 w& j( h) I- K9 Z& N
    5. 利用回归模型进行预测8 D4 _  ~$ A/ @3 X0 X0 g
    其他
    ( l& B8 E4 S  {1 Q偏相关系数(净相关系数)
    * B4 k9 T* _9 D( [- {% g+ G5 i复共线性和有偏估计方法
    ! Y' W4 g6 s3 V& }( a  ^9 G( i7 g7 m( C5 E小结
    # @; M- H8 T2 i! p/ A; W( b应用场景
    ! b$ _9 ]7 ^* ?+ q$ G+ L  z" U+ E9 Z% D! J0 k8 A
    简单地说,回归分析是对拟合问题做的一种统计分析。
    ) [3 a; W4 A% FP.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。
    . Y( j( W" L0 {8 P5 k; `7 A- d. r  U  E8 a$ D; Y; F
    具体地说,回归分析在一组数据的基础上研究以下问题:7 i& @' j/ O* [, b
    12.png " @* d$ }) V0 D
    1. 建立回归模型, o/ V+ Z  s* T( D$ q5 T

    - {8 c/ ^6 A1 J2 u% T1.1 筛选变量
    3 O7 W3 j/ g& T# M; }) z8 z3 Y1 Y7 A# `
    1.1.1 确定样本空间( \# u. W3 f- m( M/ \
    11.png ; W6 U# |4 v2 P" p4 p5 c  e
    " Y" N7 O& y; y8 N+ d$ h( ]
    所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。4 B# w. y7 S2 y, u
    6 S$ F6 L) h1 y  y0 f  e6 T3 u
    1.1.2 对数据进行标准化处理) F- }/ B; ~8 J  ]6 O7 U4 C
    % i& C0 Q0 ?! ?8 Z6 ?
    (1)数据的中心化处理
    % r) [2 h9 r2 Y4 d实际上就是平移变化,
    ; d- |. I# R; m$ R$ A7 z1 x4 [$ l! n, E/ k0 ?
    10.png
    ; ?% P$ V* r  A1 d! H这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。
    4 `+ A- c' C4 @' Z(2)数据的无量纲化处理
    % X$ {4 j2 a  g0 S$ }  k在实际问题中,不同变量的测量单位往往是不同的。7 V. k; ]# J2 K# s2 ~
    为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为1
    : x" z- n9 H8 D: J: l  z即,6 C$ h' U# Q' j0 V# h" Q
    ! r' i7 O7 Y) p; E) P
    9.png 1 `" t- v' r1 w1 J/ D0 }
    当然,也有其他消量纲的方法,此处不一一列举。" j; H6 Y0 h- C+ G: e- H8 X
    (3)数据的标准化处理——对数据同时进行“中心化-压缩”处理
    ) }3 z/ k: B, o1 t: C即,
    ) D4 Y! i/ \& Z' m! V
    / j  {/ \- w5 ]0 h 8.png * S/ h( \% W5 r
    1.1.3 变量筛选
    ) U, K- G$ R6 s
    + ]% Y% S8 d& f2 s4 @——选择哪些变量作为因变量的解释变量:
    & e' P- M7 M  Y5 ?" A$ v1 }. C5 K# ~( ~( @* X' w/ o
    一方面,希望尽可能不遗漏重要的解释变量
    ( a1 U4 o' d  r8 i一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少
    ) L2 N9 x  m8 U(1)穷举法: K& Y: u* f$ t+ g) h4 K  ~0 }
    列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。5 Y! q' P7 N  Q0 C' J5 Z
    假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2
    ' s4 K8 }' g' E" b0 Y- Wm
    ) A' p, P) D! \​       
    1 [5 H) x1 f8 j8 C ——当m mm较大时不现实/ S. l5 v. N% Z- e9 C9 F

    % y- ]. Y2 o6 F(2)向前选择变量法
    - X. [" ~/ Y: b. {/ D3 b+ [" d 6.png
    : s) |. z  q* o( x  B) V5 b' ^# f) f" `' F+ J( ~  f
    . r1 S9 f  Q5 G/ C3 ~# U
    9 l3 w! m; J$ C
    7.png
    # }. k0 _3 w+ \/ h. m  t0 O7 A+ L1 R& _
    (3)向后删除变量法- e1 r3 _: M# i9 z; b
    4.png
    % }' F: S3 K& {(4)逐步回归法——最常用
    7 y% e$ _; h3 p8 L/ ]4 t 5.png
    / A2 t# ~# D* r. M: Q3 z$ h/ u" y# m" m5 ^
    1.1.4 调整复判定系数7 A7 W! }2 R2 t
    3.png
    0 H. n. z! T- m9 F1 Z0 r. G1.2 最小二乘估计' i7 B+ e1 E" l" k! e

    + v2 \/ i3 }0 y" R9 O; X( z; ^6 q3 I% q一元线性回归、多元线性回归——略。
    1 q7 j) n+ p" U1 o# A6 Y- @' T; S/ U* `( K) e! z) e
    2. 回归模型假设检验4 R1 L" p8 H4 J0 m9 q& K
    & u4 ?4 D' m. |1 S
    ——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)
    + P1 ]/ E* k8 m
    1 t0 K- _9 K+ d具体检验方法见书,此处不再赘述。
    # @4 D" L* Y$ F9 m
    2 ]) R1 L7 w  e3. 回归参数假设检验和区间估计0 e1 k! \+ T& q! f- g6 E! x3 ?2 a/ u) u

    + ~: q4 J( P; T5 J$ c" S6 T——检查每一个自变量对因变量的影响是否显著(t tt 检验)
      i/ ^+ A0 _6 X9 {; G8 r
    / L. w' e9 b$ v$ L具体检验方法见书,此处不再赘述。' t: J# Q) [8 A, p( e3 H! C
    1 D7 G" P+ h. V& `1 Z7 V$ f$ p
    4. 拟合效果分析& F5 e! A+ B, Z4 Z% |4 P* t0 M
    2 M( }; D. S+ \3 W- p- X" U' |
    4.1 残差的样本方差(MSE)8 O* X% [! H4 y5 U
    2.png + u! a! D; r4 W/ P& k( @9 x
      ]) e/ Y* s% g4 J7 r
    4.2 判定系数(拟合优度)1 R2 I9 i% h0 H0 m) N
    7 O) @  }3 R* r4 t9 S
    360截图165011039490135.png
    0 i& Q9 |! l4 t- B$ N+ b. h. _# E9 @3 {
    5. 利用回归模型进行预测
    ) E3 D% \1 |* I) g! r$ v5 |' J" [5 o7 \# m6 v

    ; y: @$ G/ [7 A2 ^7 o5 Q
    : `& |4 N8 w; h( R  }其他0 b: ?0 F2 Z! x" t: q

    ( s  a. T3 s1 Z- `  x偏相关系数(净相关系数)& @5 A2 ]& B* K. t& E
    ( A  O" G! `$ p1 |: P* x
    在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。' Q" U) T* r: \
    $ D5 h; c9 _/ ~1 ?8 |( M
    复共线性和有偏估计方法
    ) m; R' e  H7 w+ \8 k
    7 |& p9 k' R- A: [4 y4 b  J  g在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)
    $ \1 x) @( g# U& j8 R: {  M8 n' W3 i( Z5 f
    解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性
    + c6 v1 G% X8 V) c例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。8 _8 a& g+ ?* r# ]
    (P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)0 h  O+ o& P$ v# W" l
    % w3 Z5 r6 n: m: r
    再如,主成分估计——可以去掉一些复共线性
      o3 ?) \7 z, i3 G+ r8 X2 k7 l* {  w- t" W  o( Z
    小结
    + J* H& S9 |( c9 ?9 ^
      S" E" R* m/ \采用回归模型进行建模的可取步骤如下:5 z) K. X6 @" e+ U" y/ m
    " w0 w% [/ w- v/ @  `/ S+ I
    建立回归模型
    $ t8 h1 N) B: m2 H) i' V0 {确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量/ @7 H4 ]7 r7 g- g. _- w, x8 q
    原文链接:https://blog.csdn.net/xxiangyusb/article/details/997624510 X6 v  n! @5 I% t  k
    ! ~# l! {& ^* `5 z

    ! ]2 r! U* i4 b. q3 k. I. e) }) X
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-21 19:33 , Processed in 0.366135 second(s), 54 queries .

    回顶部