数学建模社区-数学中国

标题: 2020 全国大学生数学建模竞赛C题思路+代码 [打印本页]

作者: 杨利霞 时间: 2021-5-24 15:37
标题: 2020 全国大学生数学建模竞赛C题思路+代码
2020 全国大学生数学建模竞赛C题思路+代码
题目链接：https://cloud.189.cn/t/ri2uUb7BRVJr

前言

又是一年数据挖掘题型，第一次接触这种题型还是在去年的mathorcup上，这种题的难度就在于指标的建立和数据的处理上。后面会出一份关于数据挖掘题型，我的相关经验，常用的工具和代码。

下面的一，二问实际都在解决

贷不贷款？
贷款金额多少？
数据清洗
这道题的附件数据没有出现缺省或者异常数据，因此对于数据的预处理，更多的是根据问题的需求来做的。

将是否违约，违约设置为1，不违约设置为0

信誉等级ABCD分别对应4,3,2,1

发票状态，有效发票为a，作废发票为b

我将销项和进项所有数据，以公司代码为区别，提取到了不同的sheet当中，对于该公司有效发票数，作废发票数，负数发票数，方便对数据观察。

# 遍历所有sheet数据
for xsn in sn.sheet_names[1:]:
# 读取文件
datas = pd.read_excel(file_pos, sheet_name=xsn)
datas['date']=pd.to_datetime(datas['date'],format='%Y/%m/%d')
datas.set_index('date', drop=True)
# 找到全部公司名称代号
code_list = list(set(list((datas['code']))))
for name in code_list:
      tmp_datas = datas[datas['code'] == name]
      tmp_datas.index = range(len(tmp_datas))
      # 转换日期未object类型
      tmp_datas['date'] = [x.strftime('%Y/%m/%d') for x in tmp_datas['date']]
      count1 = tmp_datas['tax_status'].value_counts()
      tmp_datas['a_count'] = list(count1)[0]
      if(len(count1) > 1):
         tmp_datas['b_count'] = list(count1)[1]
      tmp2 = tmp_datas[tmp_datas['cost'] < 0]
      tmp_datas['neg_value_tax'] = len(tmp2)
      if xsn == sn.sheet_names[1]:
         tmp_datas.to_excel(writer1,sheet_name=name,index=False)
      else:
         tmp_datas.to_excel(writer2,sheet_name=name,index=False)
负数发票：在之前购买的物品，并开具了相关正向发票，后来退货所以开具了值为负数的发票，抵消前面正数发票的值。

提取到信息：

部分公司数据记录很少，或者时间跨度大，需要综合数据指标，抵消数据数量和跨度大的影响
有些负数发票，在之前找不到对应的正数发票，可能是因为在数据记录日期之前购买的，在之后退款，因此在附件中找不到记录。
问题一
建立指标
进项发票作废率，进项负数发票率，进项每月平均交易额，进项每月交易次数，

销项发票作废率，销项负数发票率，销项每月平均交易额，销项每月交易次数，销售收入增长率

提取出相关指标到附件

for xsn in sn.sheet_names[1:]:
# 读取文件
datas = pd.read_excel(file_pos, sheet_name=xsn)
code_list = list(set(list((datas['code']))))
for name in code_list:
      tmp_datas = datas[datas['code'] == name]
      tmp_datas.index = range(len(tmp_datas))
      insert_datas.append(name)
      # 作废数
      cacel_count = len(tmp_datas[tmp_datas['tax_status'] == 'b'])
      # 有效数
      valid_count = len(tmp_datas[tmp_datas['tax_status'] == 'a'])
      # 发票作废率
      count1 = (cacel_count / (cacel_count + valid_count))*100
      # 负数发票数
      neg_count = len(tmp_datas[tmp_datas['cost'] < 0])
      # 负数发票率
      count2 = (neg_count / valid_count) * 100
      # 转换时间
      tmp_datas['date'] = [x.strftime('%Y/%m/%d') for x in tmp_datas['date']]
      # 时间最大值
      max_time = tmp_datas.iloc[0:,1].max()
      # 时间最小值
      min_time = tmp_datas.iloc[0:,1].min()
      # 时间差
      diff_time = months(max_time, min_time) + 1
      # 有效票
      valid_tax = tmp_datas[tmp_datas['tax_status'] == 'a']
      # 平均月交易额
      avg_money = valid_tax['totle_cost'].sum() / diff_time
      # 平均每月交易次数
      trans_count = len(tmp_datas) / diff_time
      insert_datas += [count1, count2, avg_money, trans_count,]
      if flag:
         df1.loc[len(df1)] = insert_datas
         df1.to_excel(writer1,sheet_name='进项信息',index=False)
      else:
         merge_time = tmp_datas.groupby(tmp_datas['date']).sum()
         # 销售收入增长率
         income_info= list((merge_time['cost'] - merge_time['cost'].shift(1)).fillna(1))
         diff_time_day = days(max_time,min_time)
         income_tax = (sum(income_info) / diff_time_day)*100
         insert_datas.append(income_tax)
         df2.loc[len(df2)] = insert_datas
         df2.to_excel(writer1,sheet_name='销项信息',index=False)
      insert_datas = []
flag = False

并将是否违约插入到最后一列

# 提取是否违约的列表
m = []
for name in code_list:
m.append(datas[datas['code']==name]['break_contract'].tolist()[0])
df1.loc[:,len(df1)] = m
df1.to_excel(writer3,sheet_name='sheet1',index=False)
建立模型
Logistics违约率预测模型
使用Logistics违约预测模型，代入所有的指标数据为自变量，是否违约为因变量，预测出违约率。

X=datas[['进项发票作废率','进项负数发票率','进项每月平均交易额','进项每月交易次数','销项发票作废率','销项负数发票率','销项每月平均交易额','销项每月交易次数','销售收入增长率']]
y=datas['是否违约']
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2,random_state=2020)
X_validation, X_test, y_validation, y_test = train_test_split(X_test,y_test, test_size=0.1,random_state=2020)
model = LogisticRegression()
model.fit(X_train,y_train)
a=model.predict_proba(X_validation)
result=[]
for i in range(len(a)):
if a[1]>0.5:
- J( i7 u6 z3 d0 z8 d. Y8 ^ result.append(1)
* H4 Y- @2 F/ Yelse:% \, M! u, D5 }7 B# j8 v
result.append(0)
1 m8 z0 I8 H& Z; a. D. lfrom sklearn import metrics0 b3 A9 _. M  G- ?
print('误差: %.4f' % (1-metrics.recall_score(y_validation,result,average='weighted')))1 L; R9 p  W- W6 G) {% b
最终得到一张我们的分析表格
5 p; S( S/ w8 s" f5 u" g0 p5 P6 x: N8 ~2 c5 y1 B
9 Q" Q* C2 r; j7 o  T

! e: T( T+ }5 I+ `- _  `9 C
' [8 E" a" D( z6 `; r* ^& [+ F# m4 J5 B" S# B1 u" P0 X, x
( S# q8 y2 J1 L& Q' E9 \
通过预测是否违约，我们就能解决贷不贷款的问题。/ |7 ?# [2 S" T4 ~) a) U7 J8 M
7 S: s* D1 \2 [- _2 m- r! L

) r& S: I; R$ U& j( b7 D2 w0 Z+ P贷款金额& ^9 R, ?+ \0 B
贷款金额的确认，根据该公司不违约率在所有公司中的权重，乘以总贷款金额确认：% w2 Y5 |3 J" J. A+ m7 j

9 Y5 q# B# ~6 ~" p/ A
9 \4 ^& P7 S5 R# G" p) C; ~3 j- h1 M 9 `* K6 n; L7 s6 {/ R- o$ Q/ r: w
8 _) ^8 \; J- c1 g& C

, x$ W) r* z& Y1 }0 k8 B1 S: Fri=1−Zi∑123j=1(1−Zi)×M5 W1 a: j: [$ B; R1 s3 P3 {
ri=1−Zi∑j=1123(1−Zi)×M
2 _% ~- Z# k% n/ B8 }& y9 {" A因此，我们得到的贷款金额是违约率和贷款总金额组成的关系式，这在第二问中能起到重要作用。' ?' Q/ ^& L& U8 z. Q

1 Y8 F9 v6 j. I. _6 D- [# u6 u6 V' Y, X) A
贷款年利率
6 w: W3 U" {. w  E2 [$ |绘制出年利率与客户流失率图，可以分析出两者应该是有关系的。利用SPSS拟合出不同信誉等级，年利率与客户流失率的关系式。
, V& f9 [- g- x& C% Q! v) ~0 e
" S9 k) Y7 {3 H& K4 ~2 J6 b1 S0 J
. y$ q7 f# x7 s" _信誉等级 R平方关系式$ J2 i0 t+ c/ w3 A) i8 S, U" x# {
A 0.9977 y = 37.97x^3-258.57x^2+640.944*x -1.1219 O  `8 R! N5 M
B 0.9982 y = 33.995x^3-225.051x^2+552.829*x-1.0174 h1 |0 l1 E$ O7 D, D: w
C 0.9982 y = 32.157x^3-207.386x^2+504.717*x-0.973) F7 H5 e3 |8 s% r& R+ W2 o9 }4 c
银行获利=贷款金额x贷款年利率x(1-利率对于信誉评级客户流失率)) }6 U3 P. D1 b" H0 b9 `

0 S: f  G  @+ p  m5 w. v& f9 W# i) f
在贷款金额确认，贷款年利率范围在0.4~1.5的情况下，利用上面拟合的关系式，我们能够暴力跑出最优年利率。1 F$ V! M$ O+ ?; [; G/ s8 }) b

8 ?3 X+ h6 `* _) w& M+ a
: A1 h1 A0 S% J8 g+ L  e9 n: @double turnover_rate(double x, char ch) {! E- I' i! J4 Y$ w9 L  V
double y = 0, result = 0;* }# y' {; V% n9 Q$ f
switch (ch) {4 D4 o7 A8 g3 j) t
case 'A':
: }& [" ]6 s  h& p$ M, M y = 37.969520 * pow(x, 3) - 258.570452 * pow(x, 2) + 640.944427 * x - 1.121484;
* {& z) ?/ f5 |- F# C! w6 _% t8 h result = x * (1 - y / 100.0);& z0 m4 I5 |, X5 E
break;. o( V3 m/ l8 u6 S, r/ A1 j
case 'B':4 ^. F) i3 W7 w2 m) h
y = 33.994698 * pow(x, 3) - 225.050538 * pow(x, 2) + 552.829151 * x - 1.016503;7 ]6 _5 V6 z5 i1 O" K
result = x * (1 - y / 100.0);
2 D5 U# D2 f( m  }) M+ c1 d- d break;
& V3 Q4 }" ~  @4 @; [' B! |; o case 'C':
" _6 C! M, h3 O* D+ @! c3 n$ E  B y = 32.156864 * pow(x, 3) - 207.385880 * pow(x, 2) + 504.716993 * x - 0.973497;
  M% y& t. c6 d: D result = x * (1 - y / 100.0);
6 ]4 T$ s: a3 u5 n; Z6 s break;* P4 L! t! R! U
default:
. I# E4 O; r' a cout << "输出有误！"  << ch << endl;/ O; ]# Z. }2 D2 @
}- f7 v- j9 l2 Q5 B* r4 w" n3 `

) l6 t& w2 V# O# ^3 o4 H return result;% L+ q1 F0 Z1 Y* o  r
}: [' ]/ O, K6 b8 L! Y, ^" z: x

9 a( N, A+ ^6 G. q( Y7 b6 @8 ^7 Y; g' @" q2 O
4 F9 m( W) ]/ }, j! U- @  N

) O9 n( H& r) A# ^1 R问题二/ S# y: N& E9 i+ [9 _1 m/ n
利用代码，重新计算出各指标数据$ Z: h4 \0 e- i' Z1 Q( l
代入Logistics违约率预测模型，预测出各公司的违约率
6 r$ }% F4 S& P  _' d3 J根据标准普尔评级建立，主标尺，对不同违约率进行A~D等级划分，信誉等级D不予贷款
8 H4 O8 Q" M9 i# o+ Y! h将违约率代入，之前得到的公式，得到具体贷款金额
! ~8 ~" `. E. e( S  Y. Y1 j8 n最优年利率沿用上一问1 c, E: r: c0 T$ f$ G
# 信用等级& z6 A  Y# N; c0 G- d; H
cs = []* R. J( n! H$ _
# 最优年利率,客户流失率,利率值
$ z* K2 [5 {  j7 X) g: |6 T1 R% Atax = []* g+ h6 b5 l( Y  e
for i in m:: t' m0 _$ F2 A+ ^5 C2 u0 ]
if i <= 0.0069264:9 \6 e. @1 H  U% T: l  _! ~6 h
      cs.append('A')
& y8 Y' z+ `3 T* e8 y  L       tax.append([0.083,0.503173,0.0412366])
# \5 E7 G! L* Q! h9 B elif i > 0.0069264 and i <= 0.22619:
9 N1 B0 X' A  V5 m# i6 |       cs.append('B'); \% C5 m2 L# B0 ]9 d
      tax.append([0.097,0.505215,0.0479942])
# T7 C4 M+ P% ^+ x( S' s9 ?4 L6 @ elif i > 0.22619 and i <= 0.509915:
0 ]& d8 ~) Q0 }3 A! |* a& K$ U       cs.append('C')
7 @7 E% f- }( b6 ~- W       tax.append([0.1069,0.506501,0.052755])" }& y# B6 W: M0 Z1 d$ s
elif i > 0.509915:, c: C$ @. {0 H& N2 ^  i! g( U
      cs.append('D')# m* Z6 @( N# w6 f9 A
      tax.append([0.15,0,0])! F: i" \* A+ d( d1 o- z4 k
else:
3 \# }* ^; p) G) w7 z. u; g) |       print('违规'), |; t, d% G- G5 E, S. k
      8 r5 P! `* r- E  N2 V) q" j. O
parr = []
  S- v0 a- e( ^  t0 o+ Ifor arr in list(a):
3 c4 d2 K7 v- c7 ?0 J( Y parr.append(list(arr)[0])) G1 R; S5 g$ r% g" R8 j
sum_val = sum(parr)
# V; X6 f+ l( a  j7 ^2 }- Lamount = [], p4 ~8 l8 |0 ^$ q" U
for ival in parr:9 ]0 j$ V3 Z. c( \2 O' |3 X
tmp = ival / sum_val * 100000000
7 W' b- z$ L* J/ t1 I5 c2 z if ival < 1 - 0.509915:
0 r* y5 u# [5 R6 v amount.append(0)
+ k! H! F( r5 @; f else:
, L7 P$ ?( X, `4 h) n1 p0 o2 r amount.append(tmp)0 O0 R7 t% R8 e! b" b8 R$ f. j
& b) i  [7 J. l- e

5 |( q8 w6 e" a3 M# i9 }/ _: a. U
5 b0 U0 o5 L* C" }3 N/ b' R( H' B4 J0 @# O2 E, B5 ^
可以看到，贷款金额也都在10w~100w之内。
& l% F$ H& O& w' E  k
9 A' F$ @' q! Z' f
# v% J$ P: L1 @! z8 n) i问题三' t/ {* T3 ~; ~( J
这一问，我们做得有些匆忙了，有其他想法的可以按照自己的想法做做，这里只拿我们的做参照。
# ^) L$ Z" V" y0 a! b* R0 N, \: Y2 c9 ^% t8 K! S
0 c2 D) [6 l1 V: h& X
疫情对公司影响最大的就是每月平均销售额和每月平均销售数量，因此，
6 ], l7 ^, K2 |1 T! a8 V/ X
& X8 Z. q2 J; b& t, M0 n; k' ?% }8 Z
- W! W4 J) \* e' K( b对每月平均销售额和每月平均销售数量，分别取随机数，数量取10w组，其他指标数据值不变，是否违约数据根据第二问结果，设为初始值# D) j# x! P3 n' F; m& A
代入Logistics模型中，预测出每一组的违约率5 [( g' `) W  o% ^5 T
判断每个公司违约率的变化情况，根据变化情况来增/减贷款金额和年利率。3 X0 `* x+ H  K" ^6 I. U
rand_num = pro_rand()/ `9 \6 c8 P% }! a, C7 ~% }
& p1 s8 o& c. I. P) C. Z! I
data_form = {'E377':[], 'E311':[], 'E297':[], 'E386':[], 'E233':[], 'E367':[], 'E194':[], 'E196':[], 'E249':[], 'E205':[], 'E159':[], 'E300':[], 'E346':[], 'E395':[], 'E360':[], 'E200':[], 'E195':[], 'E247':[], 'E317':[], 'E303':[], 'E135':[], 'E217':[], 'E298':[], 'E325':[], 'E335':[], 'E157':[], 'E287':[], 'E270':[], 'E286':[], 'E212':[], 'E261':[], 'E423':[], 'E390':[], 'E189':[], 'E129':[], 'E366':[], 'E191':[], 'E246':[], 'E406':[], 'E357':[], 'E349':[], 'E387':[], 'E372':[], 'E385':[], 'E209':[], 'E267':[], 'E414':[], 'E316':[], 'E341':[], 'E281':[], 'E206':[], 'E363':[], 'E166':[], 'E190':[], 'E140':[], 'E130':[], 'E225':[], 'E347':[], 'E356':[], 'E185':[], 'E192':[], 'E207':[], 'E234':[], 'E136':[], 'E379':[], 'E274':[], 'E383':[], 'E242':[], 'E361':[], 'E408':[], 'E198':[], 'E204':[], 'E413':[], 'E389':[], 'E253':[], 'E226':[], 'E231':[], 'E182':[], 'E318':[], 'E392':[], 'E275':[], 'E425':[], 'E388':[], 'E305':[], 'E155':[], 'E348':[], 'E400':[], 'E256':[], 'E351':[], 'E201':[], 'E345':[], 'E278':[], 'E306':[], 'E308':[], 'E215':[], 'E382':[], 'E407':[], 'E376':[], 'E291':[], 'E369':[], 'E139':[], 'E296':[], 'E260':[], 'E145':[], 'E257':[], 'E216':[], 'E125':[], 'E312':[], 'E354':[], 'E380':[], 'E326':[], 'E268':[], 'E186':[], 'E179':[], 'E223':[], 'E319':[], 'E422':[], 'E224':[], 'E151':[], 'E293':[], 'E302':[], 'E309':[], 'E378':[], 'E373':[], 'E364':[], 'E144':[], 'E162':[], 'E208':[], 'E399':[], 'E355':[], 'E197':[], 'E375':[], 'E368':[], 'E334':[], 'E172':[], 'E254':[], 'E352':[], 'E230':[], 'E313':[], 'E255':[], 'E273':[], 'E220':[], 'E169':[], 'E126':[], 'E237':[], 'E153':[], 'E164':[], 'E344':[], 'E284':[], 'E320':[], 'E328':[], 'E143':[], 'E338':[], 'E290':[], 'E251':[], 'E314':[], 'E330':[], 'E424':[], 'E183':[], 'E248':[], 'E181':[], 'E271':[], 'E403':[], 'E359':[], 'E324':[], 'E304':[], 'E213':[], 'E412':[], 'E337':[], 'E235':[], 'E371':[], 'E283':[], 'E391':[], 'E370':[], 'E173':[], 'E158':[], 'E171':[], 'E299':[], 'E310':[], 'E174':[], 'E295':[], 'E402':[], 'E419':[], 'E327':[], 'E294':[], 'E339':[], 'E203':[], 'E285':[], 'E410':[], 'E241':[], 'E152':[], 'E228':[], 'E245':[], 'E263':[], 'E404':[], 'E160':[], 'E292':[], 'E397':[], 'E329':[], 'E163':[], 'E301':[], 'E365':[], 'E178':[], 'E288':[], 'E175':[], 'E211':[], 'E252':[], 'E276':[], 'E156':[], 'E232':[], 'E321':[], 'E128':[], 'E150':[], 'E148':[], 'E161':[], 'E222':[], 'E142':[], 'E134':[], 'E238':[], 'E396':[], 'E239':[], 'E227':[], 'E147':[], 'E188':[], 'E243':[], 'E401':[], 'E362':[], 'E418':[], 'E272':[], 'E333':[], 'E405':[], 'E416':[], 'E358':[], 'E202':[], 'E259':[], 'E180':[], 'E409':[], 'E244':[], 'E394':[], 'E282':[], 'E210':[], 'E124':[], 'E398':[], 'E374':[], 'E277':[], 'E265':[], 'E421':[], 'E342':[], 'E322':[], 'E165':[], 'E340':[], 'E381':[], 'E331':[], 'E280':[], 'E393':[], 'E353':[], 'E221':[], 'E219':[], 'E323':[], 'E336':[], 'E199':[], 'E170':[], 'E137':[], 'E168':[], 'E350':[], 'E141':[], 'E214':[], 'E177':[], 'E250':[], 'E269':[], 'E167':[], 'E307':[], 'E420':[], 'E411':[], 'E262':[], 'E176':[], 'E218':[], 'E229':[], 'E315':[], 'E264':[], 'E127':[], 'E132':[], 'E154':[], 'E133':[], 'E332':[], 'E138':[], 'E258':[], 'E266':[], 'E236':[], 'E415':[], 'E146':[], 'E193':[], 'E187':[], 'E384':[], 'E417':[], 'E289':[], 'E279':[], 'E131':[], 'E184':[], 'E240':[], 'E149':[], 'E343':[]}
" a9 G! ~- J, @df = DataFrame(data_form)
' A( h' s1 k! l0 S7 j* f7 p$ I . E0 a; Y/ q( O3 M# @
for val in rand_num:
" ^: ^2 N! R% ]6 v" e  O! a a = rate_func(val)/ C0 G8 D; @2 Z) L  X
rate_list = get_rate(a)
# z5 b2 L% i' ?4 W2 q- [ df.loc[len(df)]  = rate_list
2 \& i6 f5 c( A9 `5 E df.to_excel(writer,sheet_name='违约率变化',index=False): j) I9 l0 ^, n, t" C6 r
销售数量和销售金额的随机数范围是：0~MAX
' T& m2 T4 A4 B8 z. `! Z& }3 e
; w3 S! L/ S' K/ @" l/ }( h) t  S/ y. y2 t9 ?0 m$ d& z

' Y# g& i% A3 V+ |! g" B/ W! H* ~. @/ M% H5 g8 W
————————————————1 ~  R  z$ c3 P) D* i7 I" |
版权声明：本文为CSDN博主「Hk_Mayfly」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
* R- ^, s/ e: o$ Q6 l6 z: h- }5 ]: D原文链接：https://blog.csdn.net/qq_39542714/article/details/108592087( F1 t5 c: b' t' j. T' z

& ^, g9 V* L5 K1 v# z' e& w) X# W6 O, _
: G0 o4 T# K9 S, \& `* ?! U6 p, i# u- L

风控邀请函.docx

2021-5-24 15:37 上传

点击文件名下载附件
下载积分: 体力 -2 点

50.67 KB, 下载次数: 0, 下载积分: 体力 -2 点

售价: 1 点体力 [记录] [购买]

欢迎光临数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5