数学建模社区-数学中国

标题: 风控建模】互金 风控模型岗 基本要求及面试问题总结 [打印本页]

作者: 杨利霞    时间: 2019-6-6 16:12
标题: 风控建模】互金 风控模型岗 基本要求及面试问题总结
风控建模】互金 风控模型岗 基本要求及面试问题总结  O1 x6 b) d/ i) c& N
一 准备工作' E9 G  X# V) y' ~/ N
0 o1 {  Q# j# x7 n* P7 C6 `
  根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:
5 F5 ?% Y1 w! e5 X" r3 u5 e
* \, T4 {. Y& R0 c7 U9 a  科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;
3 Y5 r9 }, Q1 d, R& p6 z* }3 {7 n  z2 ^4 E# V6 c) r$ n+ _, t. d# E! \
  非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:
& d- Z& S! ]0 i* d" w* `# M8 I- k) ^/ o5 u+ y
前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。
7 C  y3 w" n1 D+ g2 v3 _0 |; d5 K3 ]0 V
后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。& I8 Y; Y$ x7 E1 c5 J

4 u0 v) R6 d' K& f左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。
* t4 e0 e9 `) B2 t( Y7 c6 j. Z+ \. O6 f* O5 F
右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。
, F' @& ]4 `; {/ F7 Y/ e. f* s7 ~
/ D( _+ q3 t2 z1 k* e- X! H核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。0 D- V8 q. S- O. m5 k# s# t
% [+ N/ w1 L4 r  c- n
  所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。' v. z5 x+ j8 J+ `+ R

5 L1 l* v) f. c" _8 P, A2 Q  l% C0 R1 h# n" i
画个VISIO:
: M, c# i# z9 a9 N) ?
; O& c/ W7 @# a) z" g! ^  所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
, P  e7 \, C4 q" r  S
7 R( S, v* E4 q, X( j  那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。
* Y. P; X* T5 z  s' ~1 h* O( u
3 t8 ]& I) ?8 i$ q# V0 e, z1、行业经验% G+ k2 [3 `; @& D5 x7 Z2 n
, u; j) B' J5 f3 \6 X2 a! L9 s6 Q6 Y
互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。
' `6 i$ O" ^3 `" @: [& [; w! F风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。" l, X4 A* n; j+ e6 c: A
2、知识基础, ?7 M1 G6 U/ v8 N/ ^5 a
7 f6 W: a. @) l* r- i+ C1 X
(以下详细内容请看笔者其他相关文章)9 q- \6 E7 k! x1 H5 C5 M
4 z0 m$ W- K, X: i* Z/ }6 C7 m; z: R( E; E
数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。
/ s: G3 P$ |% e% g统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。
4 `6 L' p$ u/ ~* Y% L数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。5 N2 L5 R3 F0 y- n) ]
常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。2 P5 E; ^& d0 k! R) g; a4 p
3、代码能力+ f- c+ ]6 w* k+ E9 X& P

2 `' z" k' v( l4 P" Epython | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。' I, K! H+ G; g# k9 [* X8 f, x
(选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)) P1 O& {* V+ a* U
) v( p( y$ k' `4 h) u: k( ?
二 面试问题
: ^: y( ~2 |8 L+ e
3 |- Q2 s7 W/ [1、风控建模7 S: ]5 ^, ?( r2 l2 m
8 G6 ?. U5 R1 [1 B
谈谈你对风控模型的理解?
; [9 X& K: ~# f; P. {1 I
6 v; O4 X* o1 I5 S2 I5 t) S模型如何设计?2 I1 R0 o( M1 t7 G
可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。
+ c' g$ p3 `4 s, d5 ~/ _" K1 X. J  L/ o# C' H( ?
对客群进行细分建模的本质是什么?  g" r. ~' K3 ~0 ~6 W4 o
其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。4 G( X/ V- h8 V# Q
9 Y0 v# O# T( Q* y# J
拒绝推断应该怎么做,作用是什么?效果怎么样?9 c5 [8 E6 N% t$ p5 [) G
(多查资料,博学审问慎思明辨)
0 e- c, o9 N" p* l' F9 f, D7 J3 {" x6 D8 o2 M. {9 n2 f+ L
简要说明下标准评分卡开发流程" h! u; E1 O  I  X+ _
(多查资料,博学审问慎思明辨)
8 t8 E+ G0 v/ ~& E, o+ q
* K8 G. T% T7 G# S/ D2、特征工程8 n, K' E8 E4 }/ M

5 J" I, O7 t. [' ~- u如何对数据做质量检验?
1 v# G" j3 l  ~- O) i) c$ _; Q在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:3 z  Z/ T! K6 G, f: S$ o- P( u
1、数据分布。
$ R9 _4 E! i9 e2、数据集中度检测。+ O) D" t; G2 _
3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。
; J. l; I/ k2 s& s0 u特征工程流程7 w: R) L. ?" Z1 i$ w; M
关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
' G$ m3 }4 E# Q8 P7 |2 b$ F筛选变量的常用方法" u: o  i+ q9 g3 \' d
筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。9 `& W  x$ Z. s# x1 M4 b
好的特征需要具备哪些优势?: m! H# y- m& F- |) @2 q7 u
1、稳定性高
0 S! E: N+ E: N" b( r/ u& X2、区分度高
5 [9 L+ I& S, e2 q! K5 F3、差异性大9 }: L( h& j4 W2 J9 r
4、符合业务逻辑7 i& ?* Z- Q% @- G/ T
如何衍生特征?
9 l8 W; T3 ]. z) w9 Y5 n; J变量的衍生并不复杂,通常我们会从三种角度出发:
0 w1 f9 Z1 U1 I) a/ S1、数学运算。求和、比例、频率、平均等。
9 s2 y& W$ k  `" J2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。: f8 v, U% Y* L2 K1 F. S+ T
3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。& l- G+ p# z9 d
衍生出来的特征要符合实际业务含义,并且要保持稳定。
+ G$ F3 y0 x# h  E7 W7 o; G- E3、机器学习算法% O1 l( H" S$ Q

' m$ n7 s+ i+ h8 F简单介绍你熟悉的几种算法及其在应用场景中的差别!& u" |! _  D( `9 l& H
一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。1 D% K. `6 l, z* Y, s) j
简单评价几种常用算法的优缺点:: F7 R' K/ F. U0 G' {* q5 p
1、逻辑回归
# d8 m& `/ t/ G/ _( D优点:简单、稳定、可解释、技术成熟、易于监测和部署) z3 X: n( V, y3 m( \) O
缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高# ~$ R# o- k& H) W
2、决策树
6 U4 N' ]) G: {6 c$ H4 l* `4 V- c优点:对数据质量要求不高,易解释
1 f8 K# \! g; Z, a) Y: N缺点:准确度不高8 {; j. a+ {+ e+ L
3、其他元模型
% h6 I/ l% [! Y, A* j& Y; }- U, f8 n4、组合模型3 N- L& R0 y9 ?% r  x
优点:准确度高,稳定性强,泛化能力强,不易过拟合
* E; \) l" [$ B* K+ y5 w0 P5 t缺点:不易解释,部署困难,计算量大
2 e- r$ E) \" W+ \4、模型评估
- o" Z7 `: k" Q" d
+ S$ I1 ?, j. ]9 m7 `模型评估的常用方法?: c8 P: D; ~; q5 d' f& Y* a
从三方面回答:! }1 r3 I% _( P2 ~8 X
1、区分度:主要有KS和GINI指标,理解KS的定义及用法
- ~- m4 S, ?& p3 \% j; D/ M$ x2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法1 b* c) z) [% r. e" B& ]
3、稳定性:主要有PSI指标,理解PSI的定义及用法
# |5 U% ~5 o! ^2 p8 m4 q1 ^auc和ks的关系?' n* \9 e& D1 x1 ?. o
有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。* o1 f$ _# F# R6 F8 a
5、模型部署
# h  e3 @% I$ ]: o( ?4 N/ O+ K3 G
模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。) m3 i/ q; B& u) H1 z; i6 B8 J. W% D
6、模型监测
  G1 y4 a: b' K' ~- T& F
0 V7 D; f+ P" z* Y3 E上述一些运营数据和风控指标的关注( H* |6 N+ E' K' F
三 写在后边
4 o1 q7 k: t* E7 J* X" H0 k' B( A5 u
0 b: C7 m8 O5 w. ]% z  在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。
4 O( o7 ]; {& L& g
1 V, y7 [& T. T0 {  总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。- M; k' W; ~/ Q4 G2 {. r0 }- I# v& R1 B
3 X) i( C" T0 x- b- r: W
  关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。
9 s# O+ {0 ~! K" R+ z——北大经济学博士 香帅老师/ s" e  \! O$ L9 a6 ], z
  风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。# r- o- i6 z, C
——数据驱动风险分析之父 阿什·古普塔
! _5 v8 K0 u& [  别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。' Z; {" H9 M) n/ f, B+ x% N

' a8 S+ M/ t; V/ `# _  总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。
& R. c! I/ O6 O% t4 a2 t: K- O( H6 c% C/ F& e  U. ^
9 t- ?# l. m' w4 r1 E( k# G' o
* T/ @! F* S* h" K' R% `
. ]' j9 O! P. V# e' q! j0 p1 m4 c

" g1 u  G0 h" M6 [1 t# O$ g* ?$ \
& a8 J+ _/ U: L. k




欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5