数学建模社区-数学中国

标题: 风控建模】互金 风控模型岗 基本要求及面试问题总结 [打印本页]

作者: 杨利霞    时间: 2019-6-6 16:12
标题: 风控建模】互金 风控模型岗 基本要求及面试问题总结
风控建模】互金 风控模型岗 基本要求及面试问题总结
& Q% I& `# Q) G! v) N2 z一 准备工作
% \: J) Z5 s) F/ N3 H4 Y; G( {( s/ J
  根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:* [% o( {! z  D7 P- u
* A1 T+ j1 e5 c$ e+ g5 S  E- l6 S
  科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;  g, I: J7 N0 k5 p) Q8 q
4 E, I$ r7 T1 s- r
  非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:2 j# F! X, t, ~
' E# V5 p& N* E
前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。
/ @4 e" U) w, s3 u8 [3 f2 n
  f  X: ]1 U3 |后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。" n. [, o% N4 P  K
. d, ^, ]' x( {% X( Y3 M9 r3 S
左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。( [3 u6 o( S& _) o: K+ [
3 t1 C+ z# f' n2 F2 L
右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。* ]' p: o7 j7 G4 ?  y- E$ f3 o$ ^
- f2 w: D& ~* g
核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。
) c5 L# S4 _% l& M( D  B: p4 ]5 s3 H1 r
  所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。
% E6 e! B- s; f
1 d6 l8 ], F& z; z8 C6 r& g3 M$ \
( F7 w. |- W% n( h* a画个VISIO:
2 O( R2 @$ I; G! P% O/ h  H* e  T' R1 {" y, v2 m
  所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)3 [9 X8 L& L  [7 x4 J
' E# R1 ^1 K% c4 o) ?
  那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。
5 R' D2 {& D$ g% b
8 s3 ]% W2 d- _7 ^1、行业经验
0 S$ {% o5 }0 t
7 E6 }' J7 y0 K; O& t互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。
) H4 G0 x7 S3 X! C风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。" q! T' \" p$ y5 w
2、知识基础- C4 w, n! Q4 p2 a! j( F- l
# x9 E1 k6 Y6 I! e. j$ J& p1 T7 D* W
(以下详细内容请看笔者其他相关文章)1 E# e# R- T1 b( d' f3 i
/ d. c, i% ^0 ^
数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。
4 M' f( A6 ~* a) s6 q! d统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。' x% j( C; J. c
数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。5 E, h* [2 t& ]6 s* V( o& R; H
常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。
/ \: g# O' _0 B3、代码能力
+ `1 W3 @8 P$ q; z" k7 K2 y, h7 X9 L, n+ G4 _" c" |
python | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。# F& P9 H6 g* W  D' v, @0 o
(选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)
0 T( P* r" O; C& g  L3 V: r- e" ]9 Q
二 面试问题
( x, e+ c( ?# B: `# C" v% `+ ~9 }% o
1、风控建模
1 K% M  {( f* c+ O) |4 h3 z8 B
7 Z! }9 J/ f; ~. b) D谈谈你对风控模型的理解?
* n8 l$ F+ M* c. p$ `9 [
/ X' i7 p$ _) h) p6 J& s模型如何设计?
# b0 L7 v6 ]3 g: i7 y# r可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。) V, A. K: r5 o9 B6 _6 _2 S

4 v% _5 S" z8 Q3 C1 I  d9 ~* l+ M对客群进行细分建模的本质是什么?
% e# h+ l+ m" t其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。0 X' I* x+ h" U
. W% ]( ~2 ?: h3 ~+ M& H' }
拒绝推断应该怎么做,作用是什么?效果怎么样?! T3 B5 l  W% c, u, L4 D  b
(多查资料,博学审问慎思明辨)
1 t3 u6 r* {& m6 t" Y$ g/ o7 L9 s% i. G  y
简要说明下标准评分卡开发流程
* t/ \3 o& y! f- y1 J(多查资料,博学审问慎思明辨)/ c3 y! V8 C2 ~5 I
8 K4 p7 o; Q+ ~' r) S
2、特征工程* m2 I& B4 I# P& j! t
5 U1 }! y& q7 j6 |) h3 V
如何对数据做质量检验?6 T3 B5 i8 u6 s% n6 j6 e
在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:5 t( |; @4 Y5 P4 |9 k
1、数据分布。
% `8 p! h' Q! ^5 X% N+ a! t. l$ y2、数据集中度检测。
) {" m# s$ b. p3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。: E9 @3 n) G0 `
特征工程流程$ L. P4 Q9 A5 _0 i
关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
9 ]5 z2 W( [4 h筛选变量的常用方法
3 c& h8 a# C; N& Y2 i, n! n筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。8 b5 H* H3 ]2 L- ?3 z: J
好的特征需要具备哪些优势?) F) u! u) B2 K% o! _5 }
1、稳定性高
" b1 c6 V" N- O9 E3 Z( M2 ?! ^& Y0 F2、区分度高' }% K; N& L  `# \
3、差异性大
: O5 S, Q. A3 @1 {$ \4、符合业务逻辑& J' d5 f. z2 B9 r8 M: j
如何衍生特征?
' T- \6 L; d  `; t- A9 p变量的衍生并不复杂,通常我们会从三种角度出发:
$ h2 t* M/ W* M- y4 ^1 c" d1、数学运算。求和、比例、频率、平均等。0 E+ |' Z9 ]$ o
2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。" W8 \4 N; S: F* i8 |+ Q
3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。
8 O# r1 ~6 p' K& g衍生出来的特征要符合实际业务含义,并且要保持稳定。
1 A, o- n! Y8 F; F3、机器学习算法
* A  E" n/ N3 j+ s5 U* q+ x1 M* k: r& p
简单介绍你熟悉的几种算法及其在应用场景中的差别!
& H& e$ u. [/ w! s) c  f一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。
0 @( B! Q$ B% z简单评价几种常用算法的优缺点:
* r8 f" u$ r$ j( M5 t, H: g1、逻辑回归
8 `7 I( s# g" z5 q$ A* y0 M4 o优点:简单、稳定、可解释、技术成熟、易于监测和部署
  t! s" y: _; d3 j# Y. g# ]0 v0 |1 Q缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高
9 r8 J$ u" A4 J3 `2 Y2、决策树9 k2 b$ h0 n5 I8 t
优点:对数据质量要求不高,易解释2 d, f2 t" ?: M* ]: N3 z( _
缺点:准确度不高5 D" I# z, i' Y+ Q5 r7 R- R
3、其他元模型
" z# F2 ~+ Z$ ^7 |& b4、组合模型: I4 G$ K! D4 V
优点:准确度高,稳定性强,泛化能力强,不易过拟合3 O5 z0 y9 \7 j. S
缺点:不易解释,部署困难,计算量大3 r) f+ r  J8 J# ~
4、模型评估" m4 r' H1 Q& `

( C7 D8 ?. y3 k模型评估的常用方法?: o" }# i, B% d7 {9 M4 H  p
从三方面回答:
0 \, l; f) w. E0 {$ l) [1、区分度:主要有KS和GINI指标,理解KS的定义及用法
# f: R/ n) `( H( }2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
7 c- L- a: h/ w$ L3、稳定性:主要有PSI指标,理解PSI的定义及用法
3 ~% h) P) }: B2 t  Iauc和ks的关系?
& h3 X. K* \" f" O8 o) H* j- `有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。
& Z  n' S; o, i+ _$ I4 c5、模型部署
' s% Y+ C( H8 \/ u$ j# k& m% Q. |; W
模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。
' W2 V6 L2 G3 x2 E1 X6、模型监测
" G; @( ^: D6 o+ T  @% \2 t- A# p( K% _6 @6 _2 [  f
上述一些运营数据和风控指标的关注) R* R7 w3 _" [" n% g  j$ K4 r& Y9 \. k
三 写在后边" A6 ?- y0 _# u! U( m3 v, m
* {* ~4 D+ G. r: }
  在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。$ i# R5 |" n. t; ?5 l
$ x, ~, Z/ F# a' S% n% f7 ^
  总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。
+ S5 D3 b! ~4 q1 i) S" B# C6 e4 `' U0 H
  关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。' r: K/ y& W$ s
——北大经济学博士 香帅老师
; L- k  U6 ~. I# C# L  风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。
7 i* U) u, X3 ?' L. Z$ F' n1 E# F- s/ G——数据驱动风险分析之父 阿什·古普塔9 W$ Y0 S8 m0 J4 G  R% Q
  别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。
7 n3 `( l5 V4 S& d5 X. j+ e: b& `" M) x: V* d9 |; P* B
  总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。
: s$ h1 j7 X1 |8 q2 m% x' |' U: Z9 Y2 N
8 I+ L2 N! u5 w/ \3 B' ?  \2 f

% W. G. \5 c/ }3 z; h' x
- K8 a8 m) \- {+ b" [% D6 |; a! s& [

9 Q: T/ Q/ j" m4 W




欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5