- 在线时间
- 10 小时
- 最后登录
- 2021-5-28
- 注册时间
- 2021-4-27
- 听众数
- 1
- 收听数
- 0
- 能力
- 0 分
- 体力
- 196 点
- 威望
- 0 点
- 阅读权限
- 20
- 积分
- 80
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 46
- 主题
- 46
- 精华
- 0
- 分享
- 0
- 好友
- 0
升级   78.95% 该用户从未签到
- 自我介绍
- 小白初试,不断提升
|
本文用于实证分析的数据来源于Lending Club平台上2019年的交易数据,共有518107条观测。首先对用户的个人基本信息以及相关借贷信息进行描述性统计分析,定性分析影响信用违约风险的主要因素。接着运用多种机器学习方法,建立信用风险识别模型。针对数据分布严重不均衡的问题,创新性地采用RB-SMOTE算法进行处理使数据达到均衡状态。随后分别使用随机森林、Adaboost以及LightGBM三种机器学习模型来评估借贷者的信用风险。通过将三种模型进行对比分析,结果表明基于RB-SMOTE的LightGBM模型的预测精度最高,同时时间成本最低,在海量数据处理方面优势凸显。然后,为了证实本文提出的模型具有较强的泛化能力,且能够应用于国内网贷平台,进一步利用国内拍拍贷的相关数据,对比分析中美网贷在监管模式、资金托管模式、风控管理体系、数据共享程度这四个方面的差异,进而通过搭建风险识别模型,得出基于RB-SMOTE的LightGBM模型的风险预警效果均优于其他模型,验证了本文的结论,并补充了前文的研究内容。本文通过构建基于RB-SMOTE的LightGBM模型并将其应用至网贷行业的信用风险评估中,得到以下结论。第一,相较于随机森林模型和AdaBoost这两种集成学习算法,基于RB-SMOTE的LightGBM模型优化效果显著,并且对于中美网贷平台均适用。第二,具体分析模型运行结果,基于RB-SMOTE的LightGBM算法能够显著提升分类器的AUC值、F1值以及K-S值等各项指标。以Lending Club平台为例,运用本文模型使得AUC值从0.814提升至0.954,F1值从0.709提升至0.822,K-S值从0.755上升至0.841,优化效果显著。第三,特征筛选方法有别于传统方法,具有一定的启发意义。在进行特征筛选以实现降维目的的过程中,本文巧妙运用LightGBM算法筛选出重要性相对较高的变量,并没有直接选用传统风控模型认定的重要变量。该方法运行速度快且可解释性强,满足大数据风控业务的要求。第四,我国网贷平台数据披露不足。通过对比基于国内外数据的实证分析结果,发现运用国内平台的数据进行建模时,其风险识别效果远不及运用国外数据建模的效果,这主要是由两国网贷平台数据披露程度差异较大所致。最后,本文基于数据风控的角度,对我国网贷行业发展及监管提出以下四点建议:第一,推行数据共享机制,打造合作共赢新局面;第二,数据开源,集思广益,打造更为精准有效的风控体系;第三,扩充样本数据维度,构建用户画像以提供精准服务;第四,完善数据披露的相关法律法规,遏制信息泄露。
|
zan
|