QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 7594|回复: 0
打印 上一主题 下一主题

2020全国大学生数学建模比赛C题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-5-24 15:54 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    2020全国大学生数学建模比赛C题总结7 E  J! d+ K  L6 y- E2 o; B

    ' V7 P9 n9 s& g+ C' N$ x& `首先瞎逼逼一番,吐槽一下题目和比赛经历,对这部分不感兴趣的可以跳过:
      B1 h# M& Z. u% E6 X  v& k虽然我是周六下午才开始做的… 总的比赛时间不到两天,不过好在一个人,不怕拖队友。至于题目,我第一眼就喜欢上了 C 题。我想,恐怕很多人都喜欢 C 题吧,因为赛后做了一个总结,发现学校选择 C 题的,比选 B、A 题的加起来还要多。0 {# b6 ~8 Z9 b( B& E) Y" Y! h

    3 ]6 `# x, f) X# i# u9 D( ]

    + H, I# ]. t; t9 ~5 \4 \& `为什么选择 C 题呢?因为有数据处理…
    ' o1 ]7 k) D; y; V3 F- e" L, o7 N* z
    - i* O2 S8 c$ v' y. [" R) F; _( _; R& Z  }

    ) @# N' z% I) }' ~3 @所以无论它多难,我都选它,哈哈哈。2 L/ H# e( E/ E3 {. Z

    6 C  c5 e0 r# e+ n2 u4 s/ G: u
    ) t& n- f4 j( w+ H) K# G9 I, u
    仔细看这一题,它与机器学习好像有区别啊。说起机器学习,我会想到:: Y' p5 K. i$ F' _1 T) Z) x" ]

    ) O- i" H; S1 u% t2 q% P
    7 f1 X; v% ~. f3 W; Z4 o* T6 n
    分类7 C: {' p9 W; P! q  C/ ?$ U
    回归' D% ]& q/ @+ b& a
    拟合
    - A, p: A/ n- T7 G预测
    4 I1 r) ]9 @; Z0 V9 J5 s5 g但是,这题… 好像不是一种,用数据拟合,然后再预测的问题啊(机器学习的通俗定义)8 O: J' s4 A4 F$ I) T9 |# C
    ' T& v( a! P7 d# x

    4 U# y5 m5 ]9 p$ @好吧,选都选了,只能硬着头皮上了。
    # M; ]4 c& P5 X) F9 h" o3 _  S$ g  U& P: F% R
    ( L+ g7 \" U- z: J$ T& \/ d/ I! ^- q
    问题分析+ E: N/ i5 e2 a' W  f2 V- P
    根据附件1,定制一个量化的信贷风险;
    " j1 y( ~, o( _( P为银行制定一个信贷策略4 R  {2 a' O" {& m
    有突发状况是,上面两个问题应该怎么重新规划?
    5 h4 E/ Y1 C  Y9 G0 Z, n$ Z三个问题,我们分别称之为问题一、问题二、问题三。
    ' F$ R! x  G5 n2 Y: y& N8 t
    / u# B+ ~. `$ c# j2 i0 U6 y2 e1 Q

    ! L7 j6 I# l6 w( O; w数据说明# I" G1 `1 _# V" u5 a
    附件1:sheet1:给出了企业的代号,企业有无违约的情况,信用等级
    # M0 D- J0 C* H& Csheet2/3:给出了企业的大约 2 年的进/销 量的发票数据,& y- X3 w2 z  \4 R6 l5 o3 X( @
    附件2:给出了企业的大约 2 年的进/销 量的发票数据。没有给是否违约、没有给信用等级# y4 V5 ]2 }( h7 I
    附件3:给出了银行的利率,以及相应利率下,不同信用等级的企业,不愿意贷款的概率(原作是比率,我感觉能用比率近似概率)
    ! `( u1 j/ e6 u. Z& l( k# y& a! T, }9 W# _

    3 k( S" e2 a+ c, G9 L6 }8 |问题一求解
    % y  Z2 M2 m/ V! `你们看,附件1 比 附件 2 多了什么?信用等级、以及有无违约记录。而问题二是要我们求附件二中的企业的信用风险的。所以,仔细一想,肯定是在暗示我们,1、用进/销 量数据,来评价企业的信贷风险。2、信贷风险的量化指标,需要建立在企业信用等级、是否违约两个变量上。3、设法建立进/销 量数据与信用等级、是否违约的关系。# [: b- d4 c4 J8 M8 ~6 i" k7 q! t

    ! T% F3 B. D: [- J3 ^8 o

    ; u( S3 K* l5 P' q9 ~* J- Z* a好了,第一步咱们清楚了,就是要建立信贷风险与信用等级、是否违约的联系咯~
    ( W9 Z7 I' F+ p6 F+ n  u# Y# ]- }$ }! L8 f. m

    $ j0 ^0 o6 N8 k' z我查阅了一些文献,虽然说得都很复杂,但概括来说,就是一句话,我银行借钱给你,你还的起吗?这就是信贷风险了(说得比较通俗了,有点对不起学金融的同学们)
    2 s. v* @# s' v+ p) W! b
    & o& ~$ U8 j" c

    + g* I3 B, i: [9 S& j! M于是,我将信贷风险定义为:企业违约(赖账不还)的概率。' g( k; P) c  Q: ]0 s3 f, f& j8 f

    - h5 C. I; {3 f- }3 b

    / ]1 ~& |4 J2 X- g  [* K9 Q/ l而机器学习的知识告诉我们,分类模型除了能够自动判断个体的类别之外,还能够计算出个体,属于该类别的概率。于是,这不就是一个机器学习问题了吗?
    / g3 V+ L' v5 D# y' c, Z( ~6 I
    1 b* D; ~& s& r4 C1 h. Q

    . W" `0 _/ T- \  y  i这个问题就是:根据进/销 量数据,训练一个分类模型,然后将模型的输出,确切的说,概率输出,作为信贷风险,Over。2 T' e3 {; C  a1 u6 J
    1 I+ w7 _- n+ N, {' _

    ) L9 x* M! Y4 p但是,进/出 量数据是时序性的呀,如果按照上面的思路,那肯定是要一个企业作为一个样本个体。可是…,这个样本个体也太奇怪了吧,是一个时序数据,哇,都能构成一个表格了。。。7 i& I% Q  a9 C
    4 v0 W8 F' x% a' ]/ ~* H( v
    & s  Q! l6 O; `5 i! P2 T% R& n
    按照上面的说法,这有点接近自然语言处理了,也就是一片文章,对应一个类别。这里是一张时序数据表,对应一个类别。天!麻烦!
    # [, M$ t" D+ N2 `# S$ S5 O+ ?4 v5 M! {5 l

    , L) q! [. D  a有些大佬可能已经豁然开朗,用 NLP 来解决啊!!!
    " c% a9 q+ I. `0 Q
    # F$ r+ }8 |! o1 q5 m, A
    , c8 l' O- Q' a# F/ B3 M) ~9 s
    否也,这种跨越对我来说,有如天堑(虽然我是搞 NLP 的)4 v4 W. {2 E  O+ @0 a

    + f& h* C5 g8 X

    & y' b# t/ v/ `' q- s因此,我决定,转换一下我们的数据集。
    ; `0 J* z  X6 ^+ X9 S! v' d3 R4 ]! d" s1 S+ P; O1 b
    $ s0 ]$ Q: c1 f/ ?# w9 C7 }
    数据处理, d4 x% o, C; B" e# v7 ~
    首先,如果按照上面的思路,用机器学习模型的输出,作为信贷风险。那么就要让数据变得简单一点。
    ; V6 Y$ j( ?; J
    % F  }( U3 K: l0 ]
    0 p4 _3 K+ {: c; S( j6 v, Y  o2 W* g
    原始数据是这样的:多个企业,一个企业包含了大约 2 年的进/销数据,一个企业对应一个标签(是否违约)。) X! I+ j3 V! ~7 D

    * M0 i# Z% D( r3 o% O+ w

    % U0 d- G. j/ q7 j7 j我们希望的数据是这样的:一个企业,对应一个向量(行列都行),并对应一个标签,这样才能用机器学习模型。& F4 `& \( h/ H8 M
    $ a* ~& h$ t8 R8 o  P( O* y' m$ l+ m
    2 `1 p3 _  M3 ^* o0 x9 V( s
    因此,必须将时序数据弄掉!!!
    2 w7 z( U$ ?* j8 Y! L+ Q5 m2 W8 ~; ~+ a# t& g( N/ ^, e

    5 C5 M& v- G" i! Q& J1 N  p  ]由于数据是按天给出的,首先,为了简化,我们以 30 天为单位,将数据合并!
    " v! N9 \& k1 ^1 X" w8 u2 ?
    % _9 M9 k- U* P7 u6 `$ A9 [1 r
    1 |. d4 k2 g* f" B  G& ]
    然后,用一条曲线(我用的是 9 次多项式),拟合时序数据。有了曲线之后,我们不就可以用函数的系数,来替换原始数据了么?
    / @7 U2 I# c3 _( `4 q, G: r
    9 [) \5 o1 V  R" e& B/ m
    , [3 t* G- S; }! H2 G
    这样,一个企业的数据,就从对对应表格(时序数据表),转换为对应函数的系数(向量)了。) {! p) w, B0 t
    1 Z3 c- u- l; Z6 f- g7 X, A

    & ]: `! q# H8 A. p. u等一等,误差怎么办?用曲线拟合数据,肯定有误差的嘛。
      y) p0 k3 x/ @9 g' r6 a; W- |1 T' n4 P3 A0 n
    9 C7 S$ {' a3 g2 u* n. s
    好,误差我们是用什么来度量的? 常用的有 R 方对吧。那就计算出 R 方,然后把 R 方也作为企业的数据之一,不就得了。9 r. P# |! z7 x. Q( ^; s  L1 X" p

    3 I# k" r! h7 I; _$ K6 h

    0 }; {- w, B7 G* ?3 G可能有人犹豫了,可以吗?
      v0 K' o* h: q2 ^; z3 o; P' V" [, |. G/ z& t. T
    ' y, T6 e! j1 P# {# v  M
    好,拟合的曲线可以一定程度代表企业进/销的基本规律,没问题吧?
    % r* \9 ?' s0 \4 Q* w  \9 F, E
    ( W+ t% l0 T/ [2 ?% z
    " i' Q% X' Q. r" b9 \
    R 方计算了误差。换个角度想,可以代表企业的进/销,偏离拟合曲线的程度,对吧?
    0 X; D! P: [5 w! s
    & T  z7 I8 d5 W; C) \6 P/ n

    # R# ~) v  z; y* ?4 ]' }这不就得了么?" m" O7 N6 l0 K7 J

    : j7 o8 l% V& V' T

    ) _# Z9 @: q8 Z& F当然,误差是肯定会有的。但至少经过这样的计算,解决了我们的燃眉之急吧。为了方便讲解,我们将这个数据成为 一数据 吧。! X* t* T. v" V
    " ^8 x  Z0 O# l% S5 F$ D$ R; B- A' ^  e
    * u+ v0 o6 \) M1 f3 K
    有人还会问,信用等级呢?我们不能忽视这个数据吧?da si ka ni。& P- `" u4 q  [7 b$ @( `8 E

    : H9 B% o* c) t0 I
    ( z$ W: s& t, q5 e# c+ e: P. h
    且看我怎么处理,我们可以像 NLP 的 Word2Vec 那样。我们用一数据为输入、信用等级为输出,训练一个模型,然后用模型的参数,或者其他东西作为 二数据 不就得了么?
    1 C5 w- z+ a( a! e& N
    # m; R+ C" h9 ]

    ( k% r6 t$ S5 l" b( p. `. d之后再用 二数据 为输入,建立一个机器学习模型,用来计算企业是否违约的概率。 Case Close!& }: j5 ~( U5 u

    4 D5 ~  B: l7 c
    $ o: W$ c* a. O  z; s
    问题二 求解
    ) O; J8 m: {5 j+ x2 B制定银行信贷策略是吧?
    $ Y- S8 u6 X# ]: u% l6 x
    3 ], K! e" I" E
    ! W& I( r( R0 j& V2 t
    怎么制定?无非是利率、期限、额度咯~
    1 z& u( L. c, z6 B6 ]3 ^) j" z
    : {" _( r+ K+ N* Y! V0 B
    6 ?; d. y# q5 n( B1 ^6 ~
    期限我们不管,因为没依据。利率和额度紧密相连,都是钱的问题嘛。
    : @' S, |7 C! W3 _, c: q( b# Z8 Y2 V( f

    ) d* p' o3 a' f5 |( t+ c让我们想象银行是为了干什么的。商业银行肯定是为了赚钱啊,哈哈哈哈。( N- t/ C5 p# e$ H1 l
    . m0 v, s8 r% f& S5 x
    9 [% B: S* H- o4 H2 x
    于是,问题转换为,求解一个优化问题,即选择合适的利率、额度,使得银行的利润最高。: R% |  h; `- ]0 @# U2 g/ `

    ; {" _5 M8 ]0 y/ S- c; |5 p3 c
    $ I( @( v" _/ U" Q' G! v
    so easy?ok?: b% l' D+ v/ n& m& k& B

    # o2 G4 j- u, x  i/ a3 G  N
    . l( y* i8 y& ~
    于是,最根本的问题,就要对银行的利润建模咯~~6 b* s8 f8 p8 o

      V! U4 J4 a' [/ k1 _

    0 Z3 P3 u1 J- L1 Z利润的期望 = (1+利率)^(时间) X(企业不违规的概率)X(企业愿意借钱的概率)
    , j( K" f0 Y' [
    7 @- T3 n9 j8 }, u  [

    5 ~2 \# f3 S  J) y/ ]' F2 [用期望近似利润,case close,say goodbye。
    + I8 J/ e2 K, m7 @/ |4 ]/ h9 W8 b6 l: F" t% u+ T1 X7 A7 v

    : r. i6 x+ c$ Q' G' h# ~) J4 B9 Q至于优化问题,加上题目约束后,就是一个约束优化问题了,怎么求解?方法实在太多了。我们训练机器学习模型,不就是求解一个优化问题吗?作为弄机器学习的,你不会连求解一个优化问题都不会吧?  s$ e" q4 V( X8 y! M

    ) u3 y8 L0 g0 S

    7 ~3 Q* ]* C! }有的人会再次反驳:可我们这次求的是一个约束优化问题啊!
    6 m% k- N0 _5 h& Z' Z% Q9 w! P

    ; F+ M! n- c, G( I我会答:你用罚函数的方法,不就可以将约束优化问题,转化为无约束优化问题了吗?7 e4 b. Q. `- U$ y, X

    9 g! F1 c, ]2 U7 r5 H

    ' l# }( l8 f. n- F/ z+ U问题三8 E# Z9 V. h1 i$ j: k/ d0 \
    突发状况会影响企业的运营状况,所以我们只要将 一数据 的 R 方微调一下,不就得了吗?????" c+ a+ k0 y$ ?. n6 h. p7 U

    7 w3 W* n; N4 I

    / L" _0 q& i' s8 [有点简答吧?8 @- W" G0 O% `; W; y

    - V! R) P/ ^$ s' v* x% R
      \3 e1 m' c/ p# i, i2 Z
    最终总结% J# W& ~2 o- e
    C 题,似乎是最简单的。但处理数据,比较麻烦,可能很多人卡在这里的吧。最难的一个点就是:如何将一个时序表,对应到一个标签的问题了吧。+ y# J! b3 ]# [# q3 z, o6 h5 P

    ( ~% d+ v* c% O
    ( S) l+ J  X  O2 t7 h+ E4 X
    好了,最后一次数学建模比赛了,大家江湖再见吧。+ p4 {- O9 X( w7 Y& @: O; a
    ————————————————  B; P; t6 P# d" P% ^
    版权声明:本文为CSDN博主「zhuo木鸟」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。/ Y3 f# S3 V0 Q$ h! i: v# }
    原文链接:https://blog.csdn.net/weixin_42141390/article/details/108580140
    ' X' c1 A5 r9 z! l$ _/ ~% g$ b9 [) T+ r+ a7 ]2 ^
    % O1 E4 O, A  U

    风控大赛.jpg (209.44 KB, 下载次数: 0)

    售价: 1 点体力  [记录]  [购买]

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-5-27 03:53 , Processed in 0.321509 second(s), 55 queries .

    回顶部