2020全国大学生数学建模比赛C题总结 # C1 S! ^: z, K1 S6 j: k; R* @) b% M, ]9 `# w. ]
首先瞎逼逼一番,吐槽一下题目和比赛经历,对这部分不感兴趣的可以跳过: ; l1 m |. J, ]4 J" P虽然我是周六下午才开始做的… 总的比赛时间不到两天,不过好在一个人,不怕拖队友。至于题目,我第一眼就喜欢上了 C 题。我想,恐怕很多人都喜欢 C 题吧,因为赛后做了一个总结,发现学校选择 C 题的,比选 B、A 题的加起来还要多。3 l' o' g: U ~3 L4 ~
1 z2 u! V8 Y' f : U! `# _! }0 X2 w" ?为什么选择 C 题呢?因为有数据处理…, k. B8 }7 S! U n8 t6 |) r5 G
& B/ ~% B* F+ j% E' Q! a
- k# F' C! k( D. _$ B8 s4 A所以无论它多难,我都选它,哈哈哈。3 \% n" m' N% a y- s- [6 ^: ^
' J6 m0 p! Y9 i: r $ q2 P$ K5 k- A7 o. {, c( |仔细看这一题,它与机器学习好像有区别啊。说起机器学习,我会想到:; I0 n1 P+ j/ |, I
8 P- n" ?5 ?8 H, P" d8 {* ^5 P0 ]$ I: w
分类2 l, l* A G: m" h1 ^
回归 " R* G' U& {( k5 m3 b) Z! O拟合2 y2 z1 [' `$ z9 a
预测 ) X; f4 G6 x+ c但是,这题… 好像不是一种,用数据拟合,然后再预测的问题啊(机器学习的通俗定义) $ }9 u! t1 H. a Q7 A5 f$ U" z: ], g3 I/ X( M i
% u- t- U. D4 T/ G好吧,选都选了,只能硬着头皮上了。 B! J9 L4 W) x8 f$ }% @8 b, Z* k8 X: O
5 c4 V* R% E& c
问题分析0 N8 Z5 E- r( R/ @2 T- W L
根据附件1,定制一个量化的信贷风险; - M5 j* B' ^; O7 S" H( U为银行制定一个信贷策略$ b. @* ~6 R6 j: B4 e& T, n. a
有突发状况是,上面两个问题应该怎么重新规划?& V' L! J3 b& i
三个问题,我们分别称之为问题一、问题二、问题三。 ( E2 p( u3 }& F# l& T3 Y7 Q# v. H! i9 }0 r% i
# x1 G8 N0 T ^7 v
数据说明2 D7 W/ A2 @' A, l @1 d: y" _
附件1:sheet1:给出了企业的代号,企业有无违约的情况,信用等级 5 m! G6 `) A& S2 F; c+ Nsheet2/3:给出了企业的大约 2 年的进/销 量的发票数据,4 [' q- D1 J! P" e3 r+ F7 P$ N; p- i9 o
附件2:给出了企业的大约 2 年的进/销 量的发票数据。没有给是否违约、没有给信用等级% ^# }$ {( K, N1 m# Y3 H1 `; `
附件3:给出了银行的利率,以及相应利率下,不同信用等级的企业,不愿意贷款的概率(原作是比率,我感觉能用比率近似概率) & h% f: c$ _9 F$ w p 2 D3 I1 X' Q. \5 z# E2 C5 b) ]0 B; l9 O. c* S {4 a9 V* g/ }9 J0 C
问题一求解7 C9 R: }. s4 F+ e2 j. \
你们看,附件1 比 附件 2 多了什么?信用等级、以及有无违约记录。而问题二是要我们求附件二中的企业的信用风险的。所以,仔细一想,肯定是在暗示我们,1、用进/销 量数据,来评价企业的信贷风险。2、信贷风险的量化指标,需要建立在企业信用等级、是否违约两个变量上。3、设法建立进/销 量数据与信用等级、是否违约的关系。 9 r) C. E# E) r( L6 v F/ F ) @. B1 P" ?3 X$ A 0 f( c h6 C! e) ~& W, x, I好了,第一步咱们清楚了,就是要建立信贷风险与信用等级、是否违约的联系咯~ , S l Y' Y4 H/ a. [' P' K7 w $ I: L, b2 x3 g2 P# b9 z: x! G8 b7 i- ]8 S' S. S& T- \0 C% ?
我查阅了一些文献,虽然说得都很复杂,但概括来说,就是一句话,我银行借钱给你,你还的起吗?这就是信贷风险了(说得比较通俗了,有点对不起学金融的同学们) ! X" A4 c2 y( m0 @8 `, X; n# J 5 g( X2 Z5 J$ W6 }; U; c& j6 W7 [7 m7 V+ E6 s
于是,我将信贷风险定义为:企业违约(赖账不还)的概率。 # t) y2 L: R& Z5 L8 {" D4 V' T' z8 G; W9 N. W' @3 B
8 b. p; }# ], m- i
而机器学习的知识告诉我们,分类模型除了能够自动判断个体的类别之外,还能够计算出个体,属于该类别的概率。于是,这不就是一个机器学习问题了吗?7 ?( O4 k1 g1 G
9 H% Y4 f* K1 W 6 R2 A7 M& |0 X j这个问题就是:根据进/销 量数据,训练一个分类模型,然后将模型的输出,确切的说,概率输出,作为信贷风险,Over。+ H8 L% Z% d4 V7 c3 @$ V
. [3 z" f+ l* }+ N. ?3 o, h: q0 ]+ ?; I2 B
但是,进/出 量数据是时序性的呀,如果按照上面的思路,那肯定是要一个企业作为一个样本个体。可是…,这个样本个体也太奇怪了吧,是一个时序数据,哇,都能构成一个表格了。。。 l7 J* S* `, e- N2 V
/ m" V o4 g$ g- ?