QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 7608|回复: 0
打印 上一主题 下一主题

2020全国大学生数学建模比赛C题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-5-24 15:54 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    2020全国大学生数学建模比赛C题总结. z, e  ^2 i" F( b6 f* B" Y! z
    4 p1 I: \0 w( A$ k! a: ]" X: X1 _
    首先瞎逼逼一番,吐槽一下题目和比赛经历,对这部分不感兴趣的可以跳过:
    : ]  ^& S0 Y% q/ J, @" _1 B虽然我是周六下午才开始做的… 总的比赛时间不到两天,不过好在一个人,不怕拖队友。至于题目,我第一眼就喜欢上了 C 题。我想,恐怕很多人都喜欢 C 题吧,因为赛后做了一个总结,发现学校选择 C 题的,比选 B、A 题的加起来还要多。
    4 X& F  c7 }4 _$ _# ?! \1 G6 C0 b* ?/ [
    & `# w6 W6 x- ^- e1 |) P" {) {$ X
    为什么选择 C 题呢?因为有数据处理…
    3 `, ]4 r* V, m% v7 Y2 M7 v! p
    2 E$ v4 S$ P( _1 n+ h5 f7 t
    $ b) o( ^0 d, [" O! Y4 l% u9 Q
    所以无论它多难,我都选它,哈哈哈。9 W- ^9 U( y/ N. z) x9 b  e

    2 v& r) q' e, v- }( W
    . s/ Y. l. f- f
    仔细看这一题,它与机器学习好像有区别啊。说起机器学习,我会想到:% z# I4 D* h3 x/ @4 p/ [- a
    * U- @) Z  r0 m8 R2 `
    ( `+ Z# v, T, i5 Y, |8 b
    分类
    6 N0 H5 ^6 m! B: y# e/ N4 A2 s回归9 v9 `7 l( t- S9 P
    拟合! t+ V, u" f% w* K# L7 ?
    预测
    : M* O! K/ j5 E4 r$ f: d( J但是,这题… 好像不是一种,用数据拟合,然后再预测的问题啊(机器学习的通俗定义)
    ) \! l' O3 q, K! v. V# K! m! _5 C4 \* c0 i' X# x+ W( K
    " Q% j- ^% s9 [% }
    好吧,选都选了,只能硬着头皮上了。
    " ~" v6 }% W; \4 Q6 U, `, O- D# @8 _3 R$ K, ^* a: F. `0 s( D. H. O

    7 W8 I9 }( A, ], z2 |问题分析
    6 f, r/ q- ^. ]! ~0 |根据附件1,定制一个量化的信贷风险;! n" B( U5 a) `4 u
    为银行制定一个信贷策略' c/ V* o7 g/ g' k$ ^5 q
    有突发状况是,上面两个问题应该怎么重新规划?) d1 E5 x. ?7 Y) V! M; E
    三个问题,我们分别称之为问题一、问题二、问题三。/ C  J( J) q: `2 U6 F% _7 B7 b
    " w2 F, i5 N% d  h

    # @/ t3 T9 G8 s* s. P& r$ P数据说明& I! |# T3 z+ n# S
    附件1:sheet1:给出了企业的代号,企业有无违约的情况,信用等级' C! `0 A  F( n* {
    sheet2/3:给出了企业的大约 2 年的进/销 量的发票数据,# o7 s! ~, j3 n7 ]) I
    附件2:给出了企业的大约 2 年的进/销 量的发票数据。没有给是否违约、没有给信用等级
    $ o6 v+ z* X* G2 f附件3:给出了银行的利率,以及相应利率下,不同信用等级的企业,不愿意贷款的概率(原作是比率,我感觉能用比率近似概率)
    8 z6 {2 P3 z& S9 b9 O2 N
    ) E) W- M, O$ [5 n; Q
    6 C+ y2 t. Q8 F' o$ T
    问题一求解
    6 S# ]( u  M; m  ~你们看,附件1 比 附件 2 多了什么?信用等级、以及有无违约记录。而问题二是要我们求附件二中的企业的信用风险的。所以,仔细一想,肯定是在暗示我们,1、用进/销 量数据,来评价企业的信贷风险。2、信贷风险的量化指标,需要建立在企业信用等级、是否违约两个变量上。3、设法建立进/销 量数据与信用等级、是否违约的关系。8 V8 L+ F- q3 V4 ]* O3 s9 n0 m" u

    " _( U  w8 |; d. ~$ \

    1 W+ V$ o+ @  Y2 d, H8 Q好了,第一步咱们清楚了,就是要建立信贷风险与信用等级、是否违约的联系咯~% n2 U7 o0 s4 Q, R

    * P$ ]" R9 I1 e! Z: i

    ! }# ?5 ?2 s) b; ]我查阅了一些文献,虽然说得都很复杂,但概括来说,就是一句话,我银行借钱给你,你还的起吗?这就是信贷风险了(说得比较通俗了,有点对不起学金融的同学们)
    2 u! o- k0 ]9 @8 Z( L/ o3 I/ C1 d! D8 t# J2 R  e4 J
    ' S6 N$ F0 G9 Y% L* @: J
    于是,我将信贷风险定义为:企业违约(赖账不还)的概率。& j5 q* h' l! i/ V+ b
    ! F& B% W+ A. Z- A7 V- `

    : u6 P; B/ `0 L& n1 S而机器学习的知识告诉我们,分类模型除了能够自动判断个体的类别之外,还能够计算出个体,属于该类别的概率。于是,这不就是一个机器学习问题了吗?3 P  y. h! _0 [
      C+ X+ Z5 X2 H$ |

    % b7 l; e( m, o+ W* T& ~这个问题就是:根据进/销 量数据,训练一个分类模型,然后将模型的输出,确切的说,概率输出,作为信贷风险,Over。
    : h$ I2 g' i7 V& j0 h  n' X' V3 f2 A8 W" G: ~" i1 A) {; p
    + q  w3 T" [/ Y4 x7 @3 @/ B
    但是,进/出 量数据是时序性的呀,如果按照上面的思路,那肯定是要一个企业作为一个样本个体。可是…,这个样本个体也太奇怪了吧,是一个时序数据,哇,都能构成一个表格了。。。
    % n+ Y. G  D' `5 f8 L1 y
    . E, z% \3 c, @: e4 ^

    ( ~* v# k5 M7 y; x, J( h, L, c" `按照上面的说法,这有点接近自然语言处理了,也就是一片文章,对应一个类别。这里是一张时序数据表,对应一个类别。天!麻烦!) V3 K2 |7 D, ^- D7 k" x

    $ F6 I6 r' ]7 W3 L0 a
    7 D/ U9 p1 K/ @) p- o$ p
    有些大佬可能已经豁然开朗,用 NLP 来解决啊!!!
    + l3 U1 H; a* N  v0 E, o+ P+ n1 u/ k! U

    ! l3 e( a+ y) P8 B) t$ X6 H否也,这种跨越对我来说,有如天堑(虽然我是搞 NLP 的)
    3 A+ ]+ P& x: m! o* }9 f% a7 `+ z; u! n" Z9 B

    ; I2 q+ i# ^/ y9 Y9 v因此,我决定,转换一下我们的数据集。) h% B6 S2 D' x  @9 T

    5 L( H' J# W3 r. ~& r/ _4 n
    7 v$ t1 n( W& Z. n0 W* |: m5 a
    数据处理
    # b8 g& B! }: G: z/ W. I% }首先,如果按照上面的思路,用机器学习模型的输出,作为信贷风险。那么就要让数据变得简单一点。
    8 R5 j% B9 a( k; S  Z
    : X- L8 [, o: o! e3 ]
    * w+ P8 F' N' I% F5 A; Z4 g8 z
    原始数据是这样的:多个企业,一个企业包含了大约 2 年的进/销数据,一个企业对应一个标签(是否违约)。
    ( i4 }4 B# k5 B7 Y: w" s* p) _" V# x+ Z3 t8 [/ T$ V8 P+ o
    # y+ u6 D4 F0 k. ~8 v
    我们希望的数据是这样的:一个企业,对应一个向量(行列都行),并对应一个标签,这样才能用机器学习模型。& P6 P9 C  {& ~: m. |; x. t7 y2 L+ _
    1 v- r+ S% ]' [

    ; [. t; M8 G8 R( e- E4 Y, \因此,必须将时序数据弄掉!!!
    * k8 G7 I" ]/ D; t7 r5 D3 D. z" P! y3 ~
      U) n; o+ e2 ~2 |3 L
    & _; p! o9 H; v% e
    由于数据是按天给出的,首先,为了简化,我们以 30 天为单位,将数据合并!
    0 |+ x" ^0 p  k- J; C3 F' t0 s
    $ p. Y% y$ _/ |3 J
    ( K; I' @2 q- H
    然后,用一条曲线(我用的是 9 次多项式),拟合时序数据。有了曲线之后,我们不就可以用函数的系数,来替换原始数据了么?
    $ d# r/ i8 ]( `  d: A, f  Y2 r0 D( {7 Y

    7 z5 b2 F2 Z+ Z+ ], q, l; E这样,一个企业的数据,就从对对应表格(时序数据表),转换为对应函数的系数(向量)了。* K2 b7 d. o% \% B( T9 A

    0 P) p2 o! G- Y' b* V
    % S" t: v3 O' L9 k+ h: w3 l
    等一等,误差怎么办?用曲线拟合数据,肯定有误差的嘛。# J4 [1 `6 J3 G$ w* H4 H1 o$ ]

    . ^. s, V8 @( ~+ {

    5 A7 b' u! ^2 P好,误差我们是用什么来度量的? 常用的有 R 方对吧。那就计算出 R 方,然后把 R 方也作为企业的数据之一,不就得了。* [9 p4 {3 g; N8 G- g0 C

    ! V" E. L- b0 N1 V3 q, T* Z( D

    . n. Z$ g" Q) W1 I& z2 f9 e5 E% m可能有人犹豫了,可以吗?
    & p) Q6 P0 H3 Y0 s1 q3 y+ ^; T$ Q  h5 q% U2 I( B8 i

    ( R6 A  s, y! K, n好,拟合的曲线可以一定程度代表企业进/销的基本规律,没问题吧?4 R/ S* U7 F( h0 _0 I! O- [) H
    7 d6 k6 b/ F0 N. A+ U% a

    , h; ^! s& C. y! ?R 方计算了误差。换个角度想,可以代表企业的进/销,偏离拟合曲线的程度,对吧?
    ' }8 |# F+ R; Y' G4 X& G5 e- a1 b; X& f" h- N2 l0 P9 m  e

    / d5 V( ^' A$ K, A' u这不就得了么?
    ! I9 E/ o5 G/ \, R- j
    : `) s8 w5 {$ {1 {' {1 W4 b9 D) d
    / O4 I- n; D3 R$ ?* Z6 ~7 h! D
    当然,误差是肯定会有的。但至少经过这样的计算,解决了我们的燃眉之急吧。为了方便讲解,我们将这个数据成为 一数据 吧。
    0 I  c4 J+ {& e  T4 ?4 p- Z
    % C5 B, d4 g7 {8 G9 |! v& _

    ; a& h+ \, ?6 L' v# `7 A2 @有人还会问,信用等级呢?我们不能忽视这个数据吧?da si ka ni。' F. p; _" N. H* f1 o  U1 |
    ) `+ ^4 P) z! `- ]
    ! x" C. Z* X$ C* }
    且看我怎么处理,我们可以像 NLP 的 Word2Vec 那样。我们用一数据为输入、信用等级为输出,训练一个模型,然后用模型的参数,或者其他东西作为 二数据 不就得了么?$ H0 l8 j+ R! x

    * g2 n/ g" r1 l) |& y: D
    ) q1 c# w# @. k$ v  ?4 `) H
    之后再用 二数据 为输入,建立一个机器学习模型,用来计算企业是否违约的概率。 Case Close!
    5 H' a$ e! q: M9 @3 f7 b% s
    % L2 C4 S7 l, L& P# n, ?

    3 o' R$ I' P5 B2 \# Q# \, W问题二 求解
    9 e5 `9 D0 P8 ~8 S) F4 @制定银行信贷策略是吧?
    ' k, a6 {7 r/ j4 c( T1 J* K4 c0 S% l6 `: p5 r: [
    . ~+ ]' p4 k' m
    怎么制定?无非是利率、期限、额度咯~- J4 U+ I  `3 d4 g6 v# o7 ^0 J+ x! D
    9 t! P0 ~0 b: p& F
    " {9 _  L( V9 C8 N2 g
    期限我们不管,因为没依据。利率和额度紧密相连,都是钱的问题嘛。% J7 G( w. B: ?6 m. W/ ^& ^
    ; W8 \3 _; u2 y! k% Q
    " ]: ^$ s# G# F
    让我们想象银行是为了干什么的。商业银行肯定是为了赚钱啊,哈哈哈哈。# s1 L8 ]7 `2 I( Y( l

    - g4 {7 t1 _% L1 Z. L

    1 X2 J0 c7 B. {: w1 {: `2 i; V于是,问题转换为,求解一个优化问题,即选择合适的利率、额度,使得银行的利润最高。* c4 p3 ~& C# H

    4 b( G1 C/ a/ @; o

    5 C: R1 _- g6 m, Q! }$ R4 gso easy?ok?
    , f- F8 r9 D, Q. ]" d* O* ~, U; a, t3 d8 c: ~. N
    / T* S7 L5 v  O# u& c' M
    于是,最根本的问题,就要对银行的利润建模咯~~
    0 t+ G/ H+ X2 K) X1 T' m+ T. q7 n

    ; F- o! b. [+ B! N: z/ w5 v* P利润的期望 = (1+利率)^(时间) X(企业不违规的概率)X(企业愿意借钱的概率)
    : l, x* T' s+ x7 W! w2 ?& A: \, a, G6 h
    ( ~' @$ t8 o+ x8 m7 Y" G
    用期望近似利润,case close,say goodbye。( r4 ]- f7 H* Z7 a" [1 L1 C

    1 k+ F1 I9 Z/ _2 g0 D( W
    $ [& B4 S- I  _% F# F
    至于优化问题,加上题目约束后,就是一个约束优化问题了,怎么求解?方法实在太多了。我们训练机器学习模型,不就是求解一个优化问题吗?作为弄机器学习的,你不会连求解一个优化问题都不会吧?& Z, n) ^/ ~% y) K

    / K+ C! }0 n3 s3 L' a. N; ~

    ) M* O# B( k2 L) {有的人会再次反驳:可我们这次求的是一个约束优化问题啊!" l9 G. x0 v  i8 u
    1 Q& }+ u: }! n
    . d+ @" y# M6 H# p/ D
    我会答:你用罚函数的方法,不就可以将约束优化问题,转化为无约束优化问题了吗?+ ~- L4 i9 n# f8 F! |* k( x3 v

    % ]4 H+ O/ {/ _

    & m' M  t2 y( F: Z+ ]问题三
    ! v6 q, U$ b) |1 Z4 p2 k0 `& J突发状况会影响企业的运营状况,所以我们只要将 一数据 的 R 方微调一下,不就得了吗?????
    " ~7 r* N: d" K8 K! M+ s: Y8 D: S& a# b4 D

    # `! p! B4 C3 S# v有点简答吧?
    ' j! I$ n. y6 K: t* H3 @6 N( s
    ! ~! I1 d: C0 b! b
    " q% S# J, ]" f( A, g* P: S9 G
    最终总结
    3 m. j  [* [( x; S0 eC 题,似乎是最简单的。但处理数据,比较麻烦,可能很多人卡在这里的吧。最难的一个点就是:如何将一个时序表,对应到一个标签的问题了吧。  L  g$ W$ P) {
    * q+ n# m* Y- S& V# p0 N
    : _$ P  Y" }0 ~5 V
    好了,最后一次数学建模比赛了,大家江湖再见吧。, }% }& x; g. @
    ————————————————4 n$ d- n- {$ @1 ]; L& `! Q# y) W
    版权声明:本文为CSDN博主「zhuo木鸟」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。; N# Y( l8 a2 F6 W1 }' H% j
    原文链接:https://blog.csdn.net/weixin_42141390/article/details/108580140( l% A& m! o! S( A3 M
    9 x8 {, s' U; O, K8 u/ ]* T

    / M/ }+ a% n) |) O  @+ v7 d6 t

    风控大赛.jpg (209.44 KB, 下载次数: 0)

    售价: 1 点体力  [记录]  [购买]

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-15 00:01 , Processed in 0.455708 second(s), 55 queries .

    回顶部