QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1249|回复: 0
打印 上一主题 下一主题

数学建模之回归分析

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-3-13 15:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    ' b% I0 V% C/ m8 J  G5 c; J+ P( d  |/ O0 q9 l: R
    数学建模之回归分析
    ; b8 \% z# d, n5 O9 y* n  g/ C

    3 @4 \/ [' W; i: T- T+ J8 b应用场景
    6 {  a* I, j9 C: y! t1. 建立回归模型
    7 ~5 u$ b) P! ~1.1 筛选变量' Q; @# N$ R4 e; H
    1.1.1 确定样本空间- r# o  B; q) ?5 X$ ]* P
    1.1.2 对数据进行标准化处理
    ! l5 ~# P8 \- M0 |4 K1.1.3 变量筛选
    : ]# G& f( h( W  l1.1.4 调整复判定系数
    3 A0 ]7 [2 X8 `! j. N$ h/ |1.2 最小二乘估计
    2 p. X3 a0 h3 D% ~9 T2. 回归模型假设检验
    9 X8 Z' O% L' x0 _" @8 T. U3. 回归参数假设检验和区间估计
    ) G" E, [/ f' S4. 拟合效果分析
    5 ?" Y3 m5 r- |- Z3 y0 @6 K5 C4.1 残差的样本方差(MSE)
    0 k$ ^4 b/ E& {4.2 判定系数(拟合优度)
    9 q) s% q& S: |! e. h; o. h5 {5. 利用回归模型进行预测
    * b  [4 |2 M3 c- B2 S其他0 l) P! V6 l4 A: |. ?
    偏相关系数(净相关系数)" y# M$ q9 d& e4 M1 |2 V; s& \
    复共线性和有偏估计方法
    - U& g# D8 _& \1 r" F5 _小结% N/ O; _5 x$ Q+ R, H* P5 N) y% ^3 Z
    应用场景
    : y5 ?/ q" Z: D, n; J* v6 L7 T
    " K, b4 v& B6 X简单地说,回归分析是对拟合问题做的一种统计分析。; x5 l" b4 e& \4 A+ Z) F8 n
    P.S. 曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间一个函数,使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定,要做的工作是由数据用最小二乘法计算函数中的待定系数。
    ! G/ @7 P6 d4 y- F$ R9 T/ ?" x5 L, q1 V9 h
    具体地说,回归分析在一组数据的基础上研究以下问题:  {% q4 @5 U; o* z5 \
    12.png
    ) X& f( F6 S/ c. n0 M* [1. 建立回归模型
    4 @6 S) B8 {  d
    + C7 `- p6 a$ J& Q1.1 筛选变量
    5 l% g+ g8 U, U6 g4 f6 _
    % F% [/ \1 f* y' M0 ]$ O% `! Y1.1.1 确定样本空间
    ( B* X1 y. E. `# A) U1 \ 11.png 8 V' d: Y( E5 u2 j) R

    5 o/ ^# N0 m& |; h所构成的数据表可以写成一个n×m n \times mn×m维的矩阵。
    0 B/ K) x3 v  i( Q: r  u
    3 W) o% }- m0 ~, E+ t! g# O6 V2 D' j1.1.2 对数据进行标准化处理
    ; F% B* ]3 T( x  d
    . b  j7 S" x) h+ S8 ]6 U5 @4 u(1)数据的中心化处理
    7 [9 U/ B1 y$ x0 p7 t1 |. b7 W% i实际上就是平移变化,$ l8 a# {* A6 A

    5 y' {3 r( s" x1 J, Q 10.png
    * @4 K: N. j: i: v% Z9 G. s' T这种处理,可以是样本的均值为0 00,同时它既不改变样本点的相互位置,也不改变变量间的相关性,但变换后,有许多技术上的便利。, ?+ R. C* ^; A, q3 f1 a, R
    (2)数据的无量纲化处理
    , v6 F0 T, \# l9 X$ Q& _在实际问题中,不同变量的测量单位往往是不同的。* \9 j5 H7 H9 {0 M/ y
    为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理——使每个变量的方差为17 n3 w1 \- _; b2 e9 V
    即,
    6 T3 g( @  I1 y0 L+ s
    " c/ @1 O* U" K3 V0 O$ _$ Z- b 9.png
    , A# G2 S- p5 Z) [/ B当然,也有其他消量纲的方法,此处不一一列举。
    5 h! u6 p& ?* a% x" M4 j0 ]5 Y(3)数据的标准化处理——对数据同时进行“中心化-压缩”处理
    ( m: k1 ^( a3 F1 V2 m( D; D9 d即,
    & D7 _2 f* g' v% p  d6 s' E5 G# w% N; _! l  w
    8.png
    6 s6 G' s; J! m0 I8 j4 V1.1.3 变量筛选# ~& l, ]! W  q

    . Q# G5 I* R  J* u; ?$ D1 {: t; B——选择哪些变量作为因变量的解释变量:
    3 |; Z- |% |2 }  C9 P0 F" M  n$ G3 S+ h9 ]% L  q1 |5 H
    一方面,希望尽可能不遗漏重要的解释变量- V% f1 U5 Z7 S1 v* p+ C; O0 w
    一方面,遵循参数节省原则(自变量数目过大时,模型计算复杂,且往往会扩大估计方差,降低模型精度),使自变量的个数尽可能少( u! Z- r/ B6 O$ P
    (1)穷举法
    ; R, A9 ~, T0 t! j5 S+ ^, ~: P: R列举出所有可能的潜在变量,再根据自变量的不同组合,选取合适的模型。
    * V- C& w7 L" x& Q假设有m mm个潜在变量,则需要拟合与比较的方程个数为2m 2_m2 2 @. p, a7 p& _% n. q
    m
    % P* X' C# q' P' F. n$ ^7 X​        # V* ?0 @* j5 Q: {( B4 s6 ~* j2 Y
    ——当m mm较大时不现实
    : N: K7 p$ x3 L* r7 l
    + h7 g" t+ V( `+ e4 t(2)向前选择变量法
    ) q* a% {9 R% r3 A  b2 D. w 6.png ; V1 G9 N4 }  o( y  Z! q
    , c8 e$ N6 y: V  T* @- |- U. u3 Z
    5 f2 r" C  l. e

    ) s, e) e& ]- b6 A8 T) l0 @ 7.png " R2 |' R. n' y; e" e3 R8 e( |. p
    ! h- n: ~# c' b. n) D6 a
    (3)向后删除变量法
    2 ~2 N5 q& Z7 x 4.png 6 r7 E9 j% V# J" n9 m
    (4)逐步回归法——最常用
    5 X& [8 @+ b3 X+ W5 g. i 5.png
    ' p9 {3 u1 k2 i6 w4 Y
    7 |  k- l# _  h2 x/ f1.1.4 调整复判定系数
    : k2 ~: A3 A; d( O) u 3.png . C% G  D, Q9 w! m$ f, }' w
    1.2 最小二乘估计
    ( x# u+ ^3 z+ r9 W( ?+ k& [3 D5 {& \1 a7 w5 S
    一元线性回归、多元线性回归——略。! S+ d$ d8 B+ T3 J' a7 t* V; ?0 c* g# D- O
    2 l& I9 t5 J; Y: w2 ^7 W) W1 c
    2. 回归模型假设检验
    * ]. Q; }( k0 i7 [6 e( |3 S" |. ~# ?) o. ~7 m4 k
    ——检查自变量与因变量之间能否用一个线性关系模型表示(F FF检验)8 N5 k; |; |+ K

    % l# \. _( O# `; B' H( H具体检验方法见书,此处不再赘述。( v$ }0 C6 e* N0 D! D5 w. |
    & j6 @; M. M) u; E1 Z5 w; Y- w8 \
    3. 回归参数假设检验和区间估计8 H( m5 p4 D) Z- Q

    ! r- |" L! z: u9 q+ s——检查每一个自变量对因变量的影响是否显著(t tt 检验); Z% k* L+ _+ G# f7 a; N+ y, T9 A- P5 p: T7 N
    ( Y) t- P7 {% j' i
    具体检验方法见书,此处不再赘述。
    0 ^- X0 D' g; ?. g( ^3 z) k! {) I
    4. 拟合效果分析
    / u  w1 j0 V6 T9 `* U5 N4 D" K4 s% X
    4.1 残差的样本方差(MSE)  X& U6 N  ], |1 p
    2.png
    6 Y* \; R0 i3 l# v* u1 j) C+ ]. B; d% C. D
    4.2 判定系数(拟合优度)0 F6 O& a" u" Q; }4 W8 f

    : s) v& C% L8 p" j) A 360截图165011039490135.png + U1 M$ e- [, ?/ s* J
    8 t: E2 D; {0 `4 y5 B
    5. 利用回归模型进行预测
    : l. O/ S* A3 l+ B  t
    / P2 ?9 j5 }8 m5 z' a+ F" m& c! t, l: W% U* C8 a
    8 t2 H7 r. a' A
    其他+ O) V. q) D: H0 \0 K5 j
    ) u# ^( }$ N6 Y/ m3 R3 f% L) S
    偏相关系数(净相关系数)
    6 Q% n5 D" o, L. ~8 k- E. y5 R, U/ [1 R2 I$ w3 F% p- r0 C
    在研究两个变量之间的线性相关程度时,可考察这两个变量的简单相关系数。但在研究多个变量之间的线性相关程度时,单纯使用两两变量的简单相关系数往往具有虚假性。因为它只考虑了两个变量之间的相互作用,忽略了其他变量对这两个变量的影响。( d- p2 r/ h5 y+ z3 t; u
    2 R/ W, r# d3 K2 n) n
    复共线性和有偏估计方法
    8 d+ a3 W) H% z7 R+ ~
      s( Z4 c% U6 \  C/ s' Q8 ]% q在一些大型线性回归问题中,最小二乘估计不总令人满意,比如系数正负号与实际意义不符,这可能是因为回归自变量之间存在着近似线性关系——复共线性(Multicollinearity)
    1 I. W8 }0 O1 f% {+ F7 w
    ' K( z& q% s5 Z3 }$ A1 Q' g解决方法——牺牲无偏性,改用合适的有偏估计方法,以改善估计的稳定性
    1 D) U( i+ G; ]- @6 i/ @' H例如,岭估计——可以显著改善矩阵列复共线性时最小二乘估计量的均方误差,增强估计的稳定性。
    6 y- w2 W2 N+ j1 C0 I8 ?" L4 E) }(P.S. 均方误差Mean Squared Errors:一个好的估计应该具有较小的均方误差)
    : f4 o1 m* T# g' i" o$ j. R8 G' g3 P. h6 s. w$ Q3 |0 i
    再如,主成分估计——可以去掉一些复共线性
    $ z# s& b4 [2 m- b: U3 \: q6 e; v2 l% I, V
    小结/ h# F! x: t$ U" U: o% ~
    % n. O- Q: m# @8 W. g2 r2 v. g
    采用回归模型进行建模的可取步骤如下:
    , @* n! _( ^: B2 [/ c
    8 s- p# h! M) S" P$ h建立回归模型& u; f/ b1 J) j2 J
    确立样本空间,对数据进行标准化处理,采用逐步回归法筛选自变量: _8 _, [! [- F2 y: {& q! [/ I1 ~/ r
    原文链接:https://blog.csdn.net/xxiangyusb/article/details/997624514 }: o* @0 e+ u. e
    % d; p: |0 ?* C7 N
      R1 P+ s( r  |/ G* j: r  u
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-20 17:26 , Processed in 0.419185 second(s), 54 queries .

    回顶部