数学建模社区-数学中国
标题:
风控建模】互金 风控模型岗 基本要求及面试问题总结
[打印本页]
作者:
杨利霞
时间:
2019-6-6 16:12
标题:
风控建模】互金 风控模型岗 基本要求及面试问题总结
风控建模】互金 风控模型岗 基本要求及面试问题总结
3 ?3 X$ q! T+ `' J: |1 K$ ?
一 准备工作
k2 t4 ^# t+ P
+ l7 P5 @: k& v- T: }) _
根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:
3 g9 v7 `8 J3 I" J
/ U0 k$ [# H4 Y9 l. f8 E" w+ ]2 e' {
科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;
9 K: g I6 S' |9 N4 j0 ^# }
/ E- J& `& f, M
非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:
& g8 t H: |3 L+ Q+ q
! P7 A& I- s. z9 u1 s) U4 n
前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。
& ?# F7 O4 ]9 n, k1 `2 b& C0 I
7 d5 u9 ]) U4 X! W( y
后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。
+ Z2 v, f; v! A+ H
- F" @; o, _0 m* R N' C& k
左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。
2 A5 q+ s* j% C# E" R7 [; r
" n3 p" K3 l/ |9 U& o; ^( X4 n
右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。
) y V& G$ a* j3 u5 N
+ Y: S9 M9 q" `7 d# T# {; Q
核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。
/ W) i7 `' a$ q1 r, d
1 D2 ^- M- {6 ]$ t
所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。
' c' ?8 @4 F, J/ M0 F
. l- O* H9 }0 y5 @
7 m, v$ D v- X' X7 B9 U. |( B7 G
画个VISIO:
! |* c! Z$ b9 \' m; n5 S' d
: C* c" f3 i* V4 u' Y b
所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
^$ D7 I |+ O2 b9 ~
# u1 X$ `% ~& ?2 K/ w- Q. U
那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。
. A8 w# @+ L, X( ]+ S/ `) t) U
' o( d$ O+ Z, k2 Q/ {! v& l, v
1、行业经验
1 V2 ]1 W' k5 |. _1 K; l% Q
: y7 c/ }) j+ X3 O
互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。
/ |3 x3 e# X3 m
风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。
. ~# O8 D, j! y$ \
2、知识基础
/ [3 X. K0 a! Q# y! {6 {
( g3 h2 n6 g! p1 Z
(以下详细内容请看笔者其他相关文章)
% W8 v& P) i" o3 ?" D2 R! J
% ^; v% s% \! s5 W/ |
数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。
$ h: }/ r2 J/ L; P0 [+ ^8 V: o
统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。
' p$ q) P4 ?/ `/ l
数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。
2 O+ [' o$ N0 x# z1 g, E
常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。
) o0 Y% _0 R9 G1 E* s/ Z
3、代码能力
$ {! B* n1 t" L' |4 V
, ^$ E8 ^& Q. d( U2 ?8 c0 @. h
python | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。
; a3 A) @+ M1 g: B
(选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)
: @9 ^/ _9 c7 g* |* K* z" r2 p
8 }: l* s+ j4 a9 A4 N2 n
二 面试问题
- v: y0 L$ q: U% ~& u$ F
, R4 I* G2 m0 ]
1、风控建模
$ G" z6 n0 `% ^9 c. M
. D* H! J% V- j3 L' a6 @
谈谈你对风控模型的理解?
5 A2 a8 W J7 r1 [
( ~, t" B) `0 \% z5 ~/ y' ?
模型如何设计?
% G; f+ o. A# b4 W
可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。
2 {; d( J" c( c7 U" m
+ z! C1 } c/ c! s* H/ ]
对客群进行细分建模的本质是什么?
' M* s$ }- g& [$ N; P! X$ h( M5 A
其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。
5 V) h4 x/ a, Z* z0 S
' w# Y- Z' @% J9 S$ N4 h
拒绝推断应该怎么做,作用是什么?效果怎么样?
2 U) \+ p6 w+ X* F/ [2 s# {
(多查资料,博学审问慎思明辨)
0 a7 @" N* Z/ g" `% n
% q1 b. _8 s. q+ w4 m4 C- t
简要说明下标准评分卡开发流程
3 q& _9 B5 a- @" \ F3 Y
(多查资料,博学审问慎思明辨)
2 q& y% b! z( `) F6 [- E& @* C L j
6 B. q3 t& S- H; z
2、特征工程
& b3 m; T) C; q$ Q# \0 Q
" [5 L; O# ^# L2 {0 b4 C* H# S
如何对数据做质量检验?
+ c% j* y5 V) |7 E! J
在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:
. K: r5 x. X# c1 z( R+ P3 p: W
1、数据分布。
3 ?6 c: p5 m6 q, \% L9 @) y* n' u. B, \
2、数据集中度检测。
, b+ s5 i5 @7 Q0 O! C
3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。
# k, P1 V! u- d3 p( T1 l4 r$ y+ y) B
特征工程流程
; m" P7 S) _- x- u" D
关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
, s, e. D% F$ Z) R
筛选变量的常用方法
4 w) f# W* ]! g0 C- _% J) q6 E* @
筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。
, @# P: ]& d& [# ]$ I, J6 L3 x
好的特征需要具备哪些优势?
+ X; |0 a- u+ K3 S: V& ~
1、稳定性高
7 _( Y' \' y/ N& E/ D8 C+ v
2、区分度高
- }+ s+ y! u/ G/ n
3、差异性大
7 ^; D6 C7 w1 H6 w% O9 M' V @, K( f
4、符合业务逻辑
& ^8 {% V4 V: W' x: A8 _& Y
如何衍生特征?
- O2 r' v5 k( ^
变量的衍生并不复杂,通常我们会从三种角度出发:
% o |) h! }, h. r
1、数学运算。求和、比例、频率、平均等。
3 v9 p1 `6 U& U* p- D
2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。
3 _4 f7 |" [% G
3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。
! |# [$ G- z3 Z1 m, V# G2 @2 a
衍生出来的特征要符合实际业务含义,并且要保持稳定。
0 k. e1 v' _0 v% s& c3 x" a3 }) c, i
3、机器学习算法
* R4 J8 l9 P6 C- C+ l
4 Q: R; o0 B3 L. O9 x( @
简单介绍你熟悉的几种算法及其在应用场景中的差别!
( _% U9 w. ^" X( \4 i( ^8 N$ j
一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。
4 ]( W% p/ C: x k! J
简单评价几种常用算法的优缺点:
* T3 R' I# Q/ ]7 W3 t% j9 U
1、逻辑回归
2 L A- {1 f' _: y N' o
优点:简单、稳定、可解释、技术成熟、易于监测和部署
" G. S. A0 J- g& X1 F
缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高
3 r- v5 b+ V0 c; H5 u, a( m& i8 ^
2、决策树
* f: v! f' H' |! d* _7 _0 h
优点:对数据质量要求不高,易解释
& ?/ X0 D7 q2 c. V u' l: `
缺点:准确度不高
5 k w" d) `& p6 H1 V6 D
3、其他元模型
4 {( V9 G2 O& b- K, u) C3 X1 [
4、组合模型
+ l& i) F4 _ V% h# k" {* Z5 i) t
优点:准确度高,稳定性强,泛化能力强,不易过拟合
1 W4 T' o8 r' y* S# _3 z( O* Q
缺点:不易解释,部署困难,计算量大
7 L5 [" A+ U4 B, | T/ _
4、模型评估
- X g- m, L7 H6 ^
: [& q _* ]2 p. T/ y
模型评估的常用方法?
5 v( ~$ \3 f0 d, |/ d7 ~' x
从三方面回答:
8 p% r1 O5 P- E* @6 p
1、区分度:主要有KS和GINI指标,理解KS的定义及用法
- D5 f4 w2 y, e0 ?' L
2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
' C7 D( I6 X% `
3、稳定性:主要有PSI指标,理解PSI的定义及用法
4 u) I( o% `( k5 x; L2 K* n. n
auc和ks的关系?
/ j1 o9 a- J0 v2 t7 G K2 @
有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。
' X. e4 K( X- ~" n2 R
5、模型部署
: Z$ I/ z7 A4 Q
- g3 q# h/ A8 h& q/ e3 v, O5 q0 g
模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。
[$ K# N& }& C s- \8 P2 K
6、模型监测
9 M# w0 s, L$ z9 G9 d
2 \9 N4 } b0 c! z6 b# \
上述一些运营数据和风控指标的关注
2 J- Q" V" _1 j9 ~' i
三 写在后边
3 N/ J( @- p6 J8 R# q) ~* C
7 x% N$ x l9 S. {1 E
在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。
3 |7 Y8 v9 d# C
) m3 d, ?( O( \ I. f
总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。
0 T% D" ^4 K# m
9 x: V0 s1 l/ S/ K! e# M: N1 j0 C2 R
关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。
y/ T2 n2 ^9 g
——北大经济学博士 香帅老师
4 w. o% l0 D7 G
风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。
4 \1 E5 F* w. t v& d' a2 n1 g
——数据驱动风险分析之父 阿什·古普塔
$ j* M1 r" p4 X# _! o5 n
别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。
5 r; R* r0 j$ d8 u9 h" R
3 V, l- K. Q5 C9 `! D" h6 H
总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。
4 f# q# ^! A' o0 i& L
0 d0 O5 j8 k7 S* w3 |
2 L* ]. ^; |0 S3 E# Y" X0 T
3 {% j' w# L2 M' {
9 Q* j+ W r& B
, L" z, ^& I- u* `
5 G# |/ C% _+ E8 L/ F
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5