QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 7079|回复: 0
打印 上一主题 下一主题

2020全国大学生数学建模比赛C题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-5-24 15:54 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    2020全国大学生数学建模比赛C题总结
    & @' C4 m/ B9 q: }' Q0 G' ^+ d( l  ]+ ?% i
    首先瞎逼逼一番,吐槽一下题目和比赛经历,对这部分不感兴趣的可以跳过:
      ]- t. y" X' A3 ^9 r' e虽然我是周六下午才开始做的… 总的比赛时间不到两天,不过好在一个人,不怕拖队友。至于题目,我第一眼就喜欢上了 C 题。我想,恐怕很多人都喜欢 C 题吧,因为赛后做了一个总结,发现学校选择 C 题的,比选 B、A 题的加起来还要多。% L0 _+ F$ A- u, {# ^( c% V4 M

    . X/ c- Q8 f& c% V5 T
    0 w7 a( [( \- w# b3 k
    为什么选择 C 题呢?因为有数据处理…, H# D' n2 _3 e

    8 }; r! N7 i) W7 w

    + r4 g2 X: r, b6 M" W所以无论它多难,我都选它,哈哈哈。
    7 Q$ |" e0 d& Q6 o7 m$ v) ~) O, O4 F8 ~/ a2 Y# |  [& S6 U" u3 E9 j

    , p8 G& T2 |# R仔细看这一题,它与机器学习好像有区别啊。说起机器学习,我会想到:7 B" A$ x9 n6 L, g8 B# |; A
    8 g1 H" x1 J8 ]- T8 a6 k* ^

    - V0 m( R% Y5 T3 U  U分类
    0 E6 [' ^2 e6 q- G- Q8 V- d) ]: A回归
    . ]2 A: R! C: \. L# K9 Y9 f3 w' p拟合6 T% ~! j. ^2 w3 P9 `2 S( o: R# N
    预测
    , M5 w& X* L# b7 H* f9 Y/ l但是,这题… 好像不是一种,用数据拟合,然后再预测的问题啊(机器学习的通俗定义)3 J0 d/ O# k7 C: M: V; k( x

    / j: N7 T' @6 c- u& D5 u4 p7 t

    0 ~0 t9 \3 A5 y$ W好吧,选都选了,只能硬着头皮上了。$ u; @4 @3 }( [
      G: d6 n' S0 Y8 ?6 d# x! ^

    4 Q" h1 o  I3 n5 i! i问题分析
    $ C0 ]- g& {& P根据附件1,定制一个量化的信贷风险;
    : S, ?4 v- J  D- J$ D为银行制定一个信贷策略4 F& Q8 _) A0 |7 g
    有突发状况是,上面两个问题应该怎么重新规划?
      e7 |6 e' N. I! f3 w三个问题,我们分别称之为问题一、问题二、问题三。
    , l' k  h2 v( Y2 D. |' J2 G0 K) A$ r  i

    0 q+ F- Q0 c& f7 j- p5 F, p+ _数据说明" ?* S, {# \) V# _4 s- b; D
    附件1:sheet1:给出了企业的代号,企业有无违约的情况,信用等级5 ?, B$ u7 E! L& Q9 P3 o6 c- m6 E3 E
    sheet2/3:给出了企业的大约 2 年的进/销 量的发票数据,) P0 l% t3 I  s2 k6 o
    附件2:给出了企业的大约 2 年的进/销 量的发票数据。没有给是否违约、没有给信用等级+ b. U! S" c) @' k6 i& o* @6 R, x3 T
    附件3:给出了银行的利率,以及相应利率下,不同信用等级的企业,不愿意贷款的概率(原作是比率,我感觉能用比率近似概率); F$ c# o4 O) \3 |" O4 n

    * p) m. C5 ^0 k4 P0 b
    * e1 v4 D8 q1 ^! d
    问题一求解% T3 f, ]  S6 v% P
    你们看,附件1 比 附件 2 多了什么?信用等级、以及有无违约记录。而问题二是要我们求附件二中的企业的信用风险的。所以,仔细一想,肯定是在暗示我们,1、用进/销 量数据,来评价企业的信贷风险。2、信贷风险的量化指标,需要建立在企业信用等级、是否违约两个变量上。3、设法建立进/销 量数据与信用等级、是否违约的关系。
    / [. e& y' z+ G# M# S1 s
    & E  Z" h  C# U

    - T' \) p3 ?# W! Q好了,第一步咱们清楚了,就是要建立信贷风险与信用等级、是否违约的联系咯~
    & K+ P( `  m; V. t& Q+ t- g, `  \( k
    & Q, O# P! K8 t% t
    我查阅了一些文献,虽然说得都很复杂,但概括来说,就是一句话,我银行借钱给你,你还的起吗?这就是信贷风险了(说得比较通俗了,有点对不起学金融的同学们)
    6 T  |' G1 H2 \
    - }" ^/ ^# g8 I- u% j) W' m

    ! Q" h9 i# D  m  K; f' }; O6 ~. V于是,我将信贷风险定义为:企业违约(赖账不还)的概率。
    + H! b! }8 c! e9 r
    ) v" D7 v+ e6 ]
    - W9 X# p! r0 y  c% ?
    而机器学习的知识告诉我们,分类模型除了能够自动判断个体的类别之外,还能够计算出个体,属于该类别的概率。于是,这不就是一个机器学习问题了吗?3 V' h3 o9 t0 _' c! E1 Z2 L
    3 a* K$ T6 b3 [
    / c* ]% c' q4 g( W8 l1 b0 [1 G
    这个问题就是:根据进/销 量数据,训练一个分类模型,然后将模型的输出,确切的说,概率输出,作为信贷风险,Over。
    0 v+ E8 m6 Z, R' V: c, W" g6 d6 R; |2 Y' C/ W% ~4 h/ U
    1 M5 x# n6 b9 F9 v. J# ^
    但是,进/出 量数据是时序性的呀,如果按照上面的思路,那肯定是要一个企业作为一个样本个体。可是…,这个样本个体也太奇怪了吧,是一个时序数据,哇,都能构成一个表格了。。。
    : b" w& Y- w4 y5 @. I
    - l2 ^" S* G, e$ q( P, a* p
    9 J/ s6 k" W: r
    按照上面的说法,这有点接近自然语言处理了,也就是一片文章,对应一个类别。这里是一张时序数据表,对应一个类别。天!麻烦!1 C% u9 T* e. J9 c4 x9 q
    " U1 \, ]3 H0 j, W. v* K
    & S6 `% @- U) f' l. }/ v
    有些大佬可能已经豁然开朗,用 NLP 来解决啊!!!' c$ y* h! |6 J
    2 A8 \8 p4 s3 g5 W  n: p" q

    * \! W% ]# G0 }# {& B) f否也,这种跨越对我来说,有如天堑(虽然我是搞 NLP 的)% M6 ?5 H% N" S
    + O/ ]7 W1 l+ i- K

    1 ]6 L5 g5 H5 _- h因此,我决定,转换一下我们的数据集。  T5 G0 O2 K9 S, V

    8 J9 K; b, p& B

    " c* l' K4 L# n* t. @数据处理) l& q" Q, n, G  y+ c
    首先,如果按照上面的思路,用机器学习模型的输出,作为信贷风险。那么就要让数据变得简单一点。; M2 U0 V& q) p3 _, ]3 ?) U- W

    1 e- ]/ ]$ a7 Y; p- @# C% G
    & W/ s' m4 f/ R' A& U* F' T8 N4 }# L- l" u
    原始数据是这样的:多个企业,一个企业包含了大约 2 年的进/销数据,一个企业对应一个标签(是否违约)。) P2 M4 l6 Z9 _9 Q; }( O! d( w
    % [6 o+ O+ a4 S% R# i7 B# V7 f

    8 R- a/ v8 m% \我们希望的数据是这样的:一个企业,对应一个向量(行列都行),并对应一个标签,这样才能用机器学习模型。
    ; ~/ I, `# n4 G% x! M- u) a0 x
    * E! Q1 a2 B2 C  k% ~' R0 y

    , D  Z- V: ^6 ]" c) I因此,必须将时序数据弄掉!!!9 N3 K3 f- |+ C) E2 h! k1 U
    ( d& H4 D( O  w; d4 g- f# ~
    7 J, [; h' E; t1 x) S: z
    由于数据是按天给出的,首先,为了简化,我们以 30 天为单位,将数据合并!" Z) O4 N# W/ X9 b/ u4 L1 d  ]
    5 `! N8 {6 v  l7 B

    1 l; C3 _# r9 n; O# {" j& h6 m6 b然后,用一条曲线(我用的是 9 次多项式),拟合时序数据。有了曲线之后,我们不就可以用函数的系数,来替换原始数据了么?
    . k# `8 L6 H/ E$ P+ {* n/ F/ h5 i( K

    ( z. x( `3 [8 f0 @" X这样,一个企业的数据,就从对对应表格(时序数据表),转换为对应函数的系数(向量)了。
    9 j6 ^5 l& y, L
    & x9 U# ?5 n, v/ R* s% s
    ( d* z% n* j) e' e  o* G
    等一等,误差怎么办?用曲线拟合数据,肯定有误差的嘛。0 z( @3 q, ^! Z7 h

    + U" w, E: x& Y' f: s

    3 E  [+ T( @; X7 W6 _好,误差我们是用什么来度量的? 常用的有 R 方对吧。那就计算出 R 方,然后把 R 方也作为企业的数据之一,不就得了。. m, G; I# [# L* y/ d
    ' M0 l& i% @3 o& X  K- W

    7 [: R2 Q8 X& T可能有人犹豫了,可以吗?0 q; E1 S# ^1 w1 {& y

    # `7 O/ g0 A5 Y' T1 \

      D# Z4 [" S* K- _好,拟合的曲线可以一定程度代表企业进/销的基本规律,没问题吧?
    % U  S/ D8 h) M) W, A
    : p( G# U- D5 Q7 _
    " e9 G2 ?* Z0 P
    R 方计算了误差。换个角度想,可以代表企业的进/销,偏离拟合曲线的程度,对吧?
      S  Y: S8 G2 ?2 C+ x4 x- t, W+ O" M1 W! i
    % N* s( S+ }; ]/ S$ t0 d8 C6 y
    这不就得了么?
    5 n2 ]7 U$ Z0 U0 D9 W7 c8 i/ ^9 ]( G, b. f  M$ f( Y% D
    3 P! W7 r6 K: Q1 L
    当然,误差是肯定会有的。但至少经过这样的计算,解决了我们的燃眉之急吧。为了方便讲解,我们将这个数据成为 一数据 吧。, f6 f7 C# e  S( Q$ n. b# w

    4 B6 J$ e- ?% j3 @+ G

    ( O6 {/ P: s6 S# A! s; e2 a1 _+ g有人还会问,信用等级呢?我们不能忽视这个数据吧?da si ka ni。
    , P0 r% v4 J" a
    - F/ v( W$ ?) I: b. F$ M8 {) V6 H
    . `# Z2 U6 X" {$ M* U
    且看我怎么处理,我们可以像 NLP 的 Word2Vec 那样。我们用一数据为输入、信用等级为输出,训练一个模型,然后用模型的参数,或者其他东西作为 二数据 不就得了么?4 e9 N: I2 G- K2 P& j1 [6 N" z

      [( h! ~7 w1 `7 k6 ]- [

    " L$ F1 B5 a( K5 g1 f4 j之后再用 二数据 为输入,建立一个机器学习模型,用来计算企业是否违约的概率。 Case Close!6 ]2 N) r7 I1 x$ }( @1 V' p
    : q3 y  G& S5 c6 l$ @# b0 ~
    " p: K" R% b& P
    问题二 求解
    / ~$ z3 I  l8 ?% l  u; g制定银行信贷策略是吧?, J) W9 U0 P3 j" G; \

    $ L! ~% c; Q( H4 Z9 O

    $ e) `! ?/ `2 I; Y怎么制定?无非是利率、期限、额度咯~. G, x% o7 j% O7 R/ a1 M
    - ^+ A& p* J" Q) H( w6 F; a
    ( k2 z9 d: d+ n+ x% Y9 J5 p
    期限我们不管,因为没依据。利率和额度紧密相连,都是钱的问题嘛。
    ' b3 m) k% `8 @& G
    , k' \+ [" g9 K2 m2 x) y
    ( K: S# T5 ?" }4 j" J
    让我们想象银行是为了干什么的。商业银行肯定是为了赚钱啊,哈哈哈哈。1 O1 |4 c1 S' C: C, `2 }

    5 Q6 w' r  d0 n: R# O: I

    ) o# t; @* ^  |+ P( `" j于是,问题转换为,求解一个优化问题,即选择合适的利率、额度,使得银行的利润最高。
    8 r) U# K7 e6 n; o" F' Z1 s$ P" @) N' t4 \
    . i5 p: E  l. F7 C
    so easy?ok?
    7 p: W5 U4 {: ]( M$ g3 ?5 ~' N1 U2 U
    0 A" H$ O$ [. ^8 C
    5 q1 @: o6 a6 f- x7 I
    于是,最根本的问题,就要对银行的利润建模咯~~
    # a# L+ ?) K$ a2 a7 I
    " z  B9 w4 D* {7 i, m5 T; p5 \) D

    9 |6 C# `- v1 c利润的期望 = (1+利率)^(时间) X(企业不违规的概率)X(企业愿意借钱的概率)
    5 r$ _% B: v* G+ H$ U- ]" @: ~8 D! f1 m* V, E" S

    ' H* I- t5 ?6 U# W" s用期望近似利润,case close,say goodbye。% p' }" t4 k& K

    9 u, ^  _# d* x. L0 V! `
    % H2 F& n, J9 J
    至于优化问题,加上题目约束后,就是一个约束优化问题了,怎么求解?方法实在太多了。我们训练机器学习模型,不就是求解一个优化问题吗?作为弄机器学习的,你不会连求解一个优化问题都不会吧?
    $ U8 \1 v2 r( c8 C7 n: P
    ; e% b$ T% S+ K0 o* X! Q* g

    7 I5 F- m( m  f4 F) \有的人会再次反驳:可我们这次求的是一个约束优化问题啊!! h& |! _' ]! |/ o0 e$ d) z
    - K- C% v2 O) t# x; d
    - \( K  E6 I$ {7 k% a) Z4 H; ~9 r# e
    我会答:你用罚函数的方法,不就可以将约束优化问题,转化为无约束优化问题了吗?
    % ]# e* U% }9 F8 l7 ]0 I7 ^1 E* W9 Y6 d
    $ \: f. w( `5 j* x# W- a
    , a. X% ~: M, P
    问题三) c. i+ y( x6 ~1 ~2 r: J
    突发状况会影响企业的运营状况,所以我们只要将 一数据 的 R 方微调一下,不就得了吗?????
    $ h$ I; a6 g& H8 S3 j: A1 j2 t& c. C% S6 K

    6 j/ U5 ?$ u6 g* m7 A$ d- v, H3 U3 n有点简答吧?0 r, ^- F- N5 r& o, p5 J% i

    6 \' `+ F( B9 m: r

    8 y: t' n( L) C4 z最终总结8 c3 ~  Z" v# r9 L9 L
    C 题,似乎是最简单的。但处理数据,比较麻烦,可能很多人卡在这里的吧。最难的一个点就是:如何将一个时序表,对应到一个标签的问题了吧。6 k+ ]+ b  b! C6 P7 V, j* U
    ( Z; U- X- `  V5 @: h% W/ Z

      j0 D/ W# |0 h! ]- P7 g好了,最后一次数学建模比赛了,大家江湖再见吧。1 B7 p  h. e$ o+ h
    ————————————————" `3 `& w& v. o
    版权声明:本文为CSDN博主「zhuo木鸟」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    0 U6 L7 Q" U! l8 b  {6 b5 R) j) o* O原文链接:https://blog.csdn.net/weixin_42141390/article/details/108580140* p) v+ E3 i; m$ R

    : E. ?- E( r# ~, N/ s9 N5 C( d
    " a) B7 J1 K/ {, h+ L

    风控大赛.jpg (209.44 KB, 下载次数: 0)

    售价: 1 点体力  [记录]  [购买]

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-8-20 17:39 , Processed in 0.524886 second(s), 55 queries .

    回顶部