QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 7610|回复: 0
打印 上一主题 下一主题

2020全国大学生数学建模比赛C题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-5-24 15:54 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    2020全国大学生数学建模比赛C题总结% N, n  p' Z" ~  o" p" T

    6 M$ [& p. z2 H; t* z; e. i) B首先瞎逼逼一番,吐槽一下题目和比赛经历,对这部分不感兴趣的可以跳过:
    : q  `3 B$ d4 u7 `( K虽然我是周六下午才开始做的… 总的比赛时间不到两天,不过好在一个人,不怕拖队友。至于题目,我第一眼就喜欢上了 C 题。我想,恐怕很多人都喜欢 C 题吧,因为赛后做了一个总结,发现学校选择 C 题的,比选 B、A 题的加起来还要多。( y' u: ~( k3 j! O2 ?. M

    ! S9 {$ C. A3 r
    - c+ p0 O' A! L
    为什么选择 C 题呢?因为有数据处理…
    - J5 Q" ^/ x* t+ D& y# Y/ U6 t
    0 {3 Y; M# y! L9 v) C5 n6 \
    - _. `; R! K. e3 p. c0 f" u2 w: d
    所以无论它多难,我都选它,哈哈哈。* {3 r) @, N0 O* Q
    ! o- P2 O$ |! G/ d/ I( D+ w
    3 C$ v7 y2 S# v( |
    仔细看这一题,它与机器学习好像有区别啊。说起机器学习,我会想到:
    ! Z& s& b, Q6 c: ]' Q) q
    % Y0 i8 h; ]0 _1 H% A
    , N9 f, G1 _4 V6 h* B; @
    分类
    # m6 V6 I2 c9 Y* C回归5 A% `. L0 i7 X
    拟合( G# q* O8 \5 N; N" T
    预测) M, g! h8 I7 u# U; b
    但是,这题… 好像不是一种,用数据拟合,然后再预测的问题啊(机器学习的通俗定义)
    % R2 _1 y) t* N9 }) I2 Y% X+ W8 k7 Q) C( w) `' t( l

    . J& u+ d% N& d. L好吧,选都选了,只能硬着头皮上了。9 B2 U5 B* w" T' E4 J

    3 t- v) {' S) V; b0 T8 `) S9 O

    5 z8 D" s5 L$ j% D" N1 C问题分析1 \8 i4 s2 j8 U; }8 N6 a# Y5 }/ K
    根据附件1,定制一个量化的信贷风险;
    0 L: f/ G3 k! L+ f9 B. p# \" {为银行制定一个信贷策略+ u+ s% g  u3 P5 L4 R6 {( Z
    有突发状况是,上面两个问题应该怎么重新规划?
    : Z$ Z' l' B# I7 S8 c/ c三个问题,我们分别称之为问题一、问题二、问题三。
    # C5 R4 S( m  L* j7 m1 G& }1 `3 O
    ; }8 k- f# f9 K- Q1 B
    数据说明9 @) Q: f9 y+ p4 [6 {  R" N
    附件1:sheet1:给出了企业的代号,企业有无违约的情况,信用等级
    ; ~$ G. A2 n& ~7 Hsheet2/3:给出了企业的大约 2 年的进/销 量的发票数据,
    , k. F5 q8 C/ ~4 L9 q' q' D附件2:给出了企业的大约 2 年的进/销 量的发票数据。没有给是否违约、没有给信用等级
    % Y* x* X: i0 Y附件3:给出了银行的利率,以及相应利率下,不同信用等级的企业,不愿意贷款的概率(原作是比率,我感觉能用比率近似概率)
    1 l2 e' \1 Y3 l9 Z3 d% o5 v; Q1 c  o1 d7 o' s
    ) i/ {4 j( G+ Y8 R, Q! `2 ~& X
    问题一求解3 O% ]+ }  s$ ~( d
    你们看,附件1 比 附件 2 多了什么?信用等级、以及有无违约记录。而问题二是要我们求附件二中的企业的信用风险的。所以,仔细一想,肯定是在暗示我们,1、用进/销 量数据,来评价企业的信贷风险。2、信贷风险的量化指标,需要建立在企业信用等级、是否违约两个变量上。3、设法建立进/销 量数据与信用等级、是否违约的关系。
    * v7 ]  h; q* o6 D- `: a
    ( `- D4 `9 l# R5 P7 x$ |

    0 w) ~% V! q* C好了,第一步咱们清楚了,就是要建立信贷风险与信用等级、是否违约的联系咯~
    6 f. d( \4 j. H- r; y- ]0 B$ C
    ; t7 W- r# `- w3 S- c
    - D4 b9 R9 v/ m3 X" V  `9 x
    我查阅了一些文献,虽然说得都很复杂,但概括来说,就是一句话,我银行借钱给你,你还的起吗?这就是信贷风险了(说得比较通俗了,有点对不起学金融的同学们)% q) |, j! U3 h; z

      P4 H4 Q- |1 B0 e6 L0 R9 Z  x
    $ e# P, m/ n, Q% b+ N
    于是,我将信贷风险定义为:企业违约(赖账不还)的概率。* u$ `5 i9 C% ]; v! t  n) i! W; I" l
      t2 M' w/ K% U! k4 s; j7 M

    ( n9 c7 h7 u( E" V2 H6 K, q而机器学习的知识告诉我们,分类模型除了能够自动判断个体的类别之外,还能够计算出个体,属于该类别的概率。于是,这不就是一个机器学习问题了吗?2 a6 L. k, h5 D4 H# [# o7 p
    4 ?* F" q: S. h2 m) _
    : x$ T; w, D+ L
    这个问题就是:根据进/销 量数据,训练一个分类模型,然后将模型的输出,确切的说,概率输出,作为信贷风险,Over。
    - e* I3 z, y  a4 F$ g
    ' _3 c. E  ]8 h0 m& u; q: ^
    1 [/ I5 L! D0 H7 l6 q  b
    但是,进/出 量数据是时序性的呀,如果按照上面的思路,那肯定是要一个企业作为一个样本个体。可是…,这个样本个体也太奇怪了吧,是一个时序数据,哇,都能构成一个表格了。。。% f5 v) ]  e% r6 G. f6 n
    3 [1 R9 F$ |2 ^) r" Q

    3 a- f0 |/ X( s7 ]& r# R9 k  R按照上面的说法,这有点接近自然语言处理了,也就是一片文章,对应一个类别。这里是一张时序数据表,对应一个类别。天!麻烦!
    * g* ]: O4 c: j1 @4 Q
    - D; j8 P$ |( R2 r$ E3 @. F

    8 s0 N: }8 y8 V1 o  k有些大佬可能已经豁然开朗,用 NLP 来解决啊!!!
      S9 [, O* [6 x/ C1 L3 n) T# m
    : \$ _0 o) _  o# L9 Z6 N
    3 ~1 i6 D7 I7 [5 S
    否也,这种跨越对我来说,有如天堑(虽然我是搞 NLP 的)
    % y* w! Y% C1 y8 d6 b$ I  ~, K# N( r! \0 B+ G5 x3 O2 Q& m

    ' H! |0 _7 U7 C3 F因此,我决定,转换一下我们的数据集。9 j. B' J5 i- O; g+ g4 j

    ) c/ ?' }6 X4 H; Z7 |
    ! s/ \' [" P$ |5 M
    数据处理/ ?  X( l1 A- R3 C! {
    首先,如果按照上面的思路,用机器学习模型的输出,作为信贷风险。那么就要让数据变得简单一点。
    ( u; ~! q+ S4 s/ u: K( r
    ( E2 X8 @% u# K( w6 s) ?% T4 G% X8 D
    4 g& _( a% W1 F) h! X) g
    原始数据是这样的:多个企业,一个企业包含了大约 2 年的进/销数据,一个企业对应一个标签(是否违约)。) V, ~: P# @' c& ~1 J  ~
      G( }: A9 G& s- m6 @
    % E8 ^% S" M; }8 k
    我们希望的数据是这样的:一个企业,对应一个向量(行列都行),并对应一个标签,这样才能用机器学习模型。
    # C) @$ O  N8 e( [7 h3 N: G
    - i+ M$ g, _3 R& U

    2 I" r" J; e$ a0 S9 N1 L; e因此,必须将时序数据弄掉!!!
    # B; c6 t5 D9 D( d; ~2 W5 t1 ?. F! B% ^" l
    4 Y, P. r6 D, u2 ~4 `; [  _
    由于数据是按天给出的,首先,为了简化,我们以 30 天为单位,将数据合并!7 h+ U8 m) e, M# R" F- E

    + F4 t4 X% T" L# Y0 W- @

    7 k3 ^# B- M' M. o1 }  _+ g然后,用一条曲线(我用的是 9 次多项式),拟合时序数据。有了曲线之后,我们不就可以用函数的系数,来替换原始数据了么?* P8 P- b0 g/ \+ j
    $ T- u8 e; A, t; d/ t! i

    , N, k1 V* K7 O% u这样,一个企业的数据,就从对对应表格(时序数据表),转换为对应函数的系数(向量)了。' z  k. w! p0 h1 V6 h& l( B
    , K" O" L8 Z" F% _& g! e  n

    / d/ g5 e, Y2 H8 w3 S# T# E等一等,误差怎么办?用曲线拟合数据,肯定有误差的嘛。( ~6 R; ?8 @1 ?' Z/ D/ x2 c
    $ o; n! X# l2 E" w4 o& P( }( v
    7 a' B. |, m& a
    好,误差我们是用什么来度量的? 常用的有 R 方对吧。那就计算出 R 方,然后把 R 方也作为企业的数据之一,不就得了。1 C1 j+ j8 e2 s) U3 r, j, y
    ; _0 f( k; {: }! Z% [; x( [4 c

    7 ]' }# p) P& w( B% M可能有人犹豫了,可以吗?5 k) y5 H4 n, T* G4 y* G
    7 }% u9 v- I# [# T2 d4 X

    4 @' d. Y6 w! h+ I: t好,拟合的曲线可以一定程度代表企业进/销的基本规律,没问题吧?  {$ E$ U4 g* d+ h% ?

    3 R& O' Q& R4 {4 a" q, @+ Y

    9 S! A* j  N9 r5 T9 UR 方计算了误差。换个角度想,可以代表企业的进/销,偏离拟合曲线的程度,对吧?8 B* l+ a5 N" i

    # {$ ?, B2 T2 o( {2 Z: \- w

    / }" _4 P. z8 z1 [, n这不就得了么?* Z0 P0 Y' o; F

    9 S0 p6 ], K- v: X' Z
    ) }  N& w5 J1 Q; `/ ~4 a
    当然,误差是肯定会有的。但至少经过这样的计算,解决了我们的燃眉之急吧。为了方便讲解,我们将这个数据成为 一数据 吧。
    5 B6 W6 _  K7 I* A8 S0 B8 O0 a+ n% S% g
    % v& E# v- j: l$ l/ `8 |' {( w
    有人还会问,信用等级呢?我们不能忽视这个数据吧?da si ka ni。! o9 I* |$ Z3 b+ x& `5 R  a

    ) b- j4 Z( K5 Q& ~( _: ~' J: K1 |2 N, c
    3 t! [! L0 B0 E0 D4 r5 v6 {
    且看我怎么处理,我们可以像 NLP 的 Word2Vec 那样。我们用一数据为输入、信用等级为输出,训练一个模型,然后用模型的参数,或者其他东西作为 二数据 不就得了么?
    9 u& I4 D. M; E7 X; I1 Q8 S4 M% l! t/ [+ {5 z$ F
    1 R- ]) J4 N4 s# K3 K8 E: t
    之后再用 二数据 为输入,建立一个机器学习模型,用来计算企业是否违约的概率。 Case Close!
    : ~% X; J. q& U; z5 d
    7 z( O  {, N2 n% x6 e6 }; X) J
    . P  b  Z  V( q1 F- u( X
    问题二 求解/ l) b; }7 j" }. \
    制定银行信贷策略是吧?
    8 Z. `! s/ l3 M2 s; C# T% C6 M0 T0 ]; r. I4 ]  x  b5 {6 V  \  g9 z
    7 C9 J8 Z5 o3 T
    怎么制定?无非是利率、期限、额度咯~
    ) i* f( J+ x( E
    . L" c6 d9 C1 w5 h8 ^. i" a
    5 W$ [5 Z2 L$ b: T* H5 ?/ G. f
    期限我们不管,因为没依据。利率和额度紧密相连,都是钱的问题嘛。. _( M/ _* R( a: Y
    - ^4 w' N8 k0 W6 N4 n, u$ j" m

    5 f# P* J% T9 a让我们想象银行是为了干什么的。商业银行肯定是为了赚钱啊,哈哈哈哈。
    9 T* U; I8 a8 e0 r
    8 w6 ~2 v& g1 j2 a

    7 z/ z0 p' [1 h2 O: R8 c0 F于是,问题转换为,求解一个优化问题,即选择合适的利率、额度,使得银行的利润最高。
    ) m+ ^  U# }0 G7 x2 [& I
    1 j+ b6 O2 ^9 N! I5 e' z6 q9 Z# `+ d
    1 M0 [. t: q2 s& J
    so easy?ok?
      @& U, @+ v1 \6 B+ U0 ]: G
    5 g$ u8 e$ X2 j( `
    8 p/ M7 e! ~% T, L+ f/ ^! I5 |
    于是,最根本的问题,就要对银行的利润建模咯~~0 }9 G( h0 r6 w( _. `% F# F2 O6 y2 }

    3 u0 [% j& [0 @: S& f( I# {; L

    ( n' n! b/ a  N6 s利润的期望 = (1+利率)^(时间) X(企业不违规的概率)X(企业愿意借钱的概率)
    + i/ d' u* [1 u; k7 `: U5 g% v  _1 m

    8 s. C1 j  c. T3 C) d  A+ j用期望近似利润,case close,say goodbye。* L& y8 q3 v4 J9 i4 s$ A

    4 }$ {, b9 ], Q

    4 N4 L. q6 {# V9 L2 O1 o至于优化问题,加上题目约束后,就是一个约束优化问题了,怎么求解?方法实在太多了。我们训练机器学习模型,不就是求解一个优化问题吗?作为弄机器学习的,你不会连求解一个优化问题都不会吧?8 y! O% ?* ~. j$ T& _) [

    8 |* y5 Y+ c* h2 m, a6 v
    ; V, \' u9 S/ ~7 {
    有的人会再次反驳:可我们这次求的是一个约束优化问题啊!/ @- s4 @  m3 D1 W& u

    2 ^- e+ O1 b  L/ Q/ _

    " F  j: u, A6 g: H# `& K" j我会答:你用罚函数的方法,不就可以将约束优化问题,转化为无约束优化问题了吗?
    2 }$ e0 w7 n+ E& _  ]  m4 s$ \. _8 |, A' _
    8 ]7 r7 |( e1 |" \3 e' G4 ]* x
    问题三5 o- \  U8 b. i9 o/ R8 c+ a
    突发状况会影响企业的运营状况,所以我们只要将 一数据 的 R 方微调一下,不就得了吗?????
    ! J& |6 M* ]5 O, G$ M
    $ ]5 z2 a* p, }2 C& ]$ V1 N" `* p9 E9 |

    ' k% b# C- ]' @; @有点简答吧?
    # L7 W7 ^" v' J2 k* E7 J. ?! Z
      S8 ?8 A" H: h& Z! |2 J' V! _
    + M, A6 l( R7 J  X. O2 i
    最终总结
    & d. H$ p9 B, ?& y7 N* X1 E/ X1 }C 题,似乎是最简单的。但处理数据,比较麻烦,可能很多人卡在这里的吧。最难的一个点就是:如何将一个时序表,对应到一个标签的问题了吧。( T& R) I# T4 W4 F

    7 B8 `  E3 H- Y" z& o: R1 K! d
    4 k8 w1 u8 a0 i. p
    好了,最后一次数学建模比赛了,大家江湖再见吧。* E" e3 t( n$ m, c' }4 a5 v# Q! Q
    ————————————————
    8 H+ j8 U, U8 ?5 q& \版权声明:本文为CSDN博主「zhuo木鸟」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。; a2 i0 }4 ~0 F* s
    原文链接:https://blog.csdn.net/weixin_42141390/article/details/108580140
    5 X# t0 ?% S' i% ^/ q. \9 j
    " d1 O' _) s" R# s, r. f* X. j, O- a5 x* y6 Y5 O. ]

    风控大赛.jpg (209.44 KB, 下载次数: 0)

    售价: 1 点体力  [记录]  [购买]

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-15 03:40 , Processed in 0.323833 second(s), 55 queries .

    回顶部