- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563302 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174213
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
风控建模】互金 风控模型岗 基本要求及面试问题总结) F4 w$ \8 \% y, U
一 准备工作
* y4 b4 y, ~- j0 o0 j, p, P& j
) o) Z! u1 g/ [" [# Y+ } 根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:4 a. |: ?" W1 Q) K0 }
6 n0 b6 T% ]) g) T0 I! O 科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;
% \/ ~7 F, D: @5 z y0 a2 S; t: |+ q. U' U
非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:& p; ^, l, [& o% g- h1 Y
- O1 P }( T. |+ T前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。
+ i) V9 S. X/ H/ | _7 x+ B/ M# c! T3 c, y
后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。1 m' d l9 o6 K, j$ P
; j- s3 J4 _' N
左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。
9 d, }) @% w$ f" B# X- j, o
( s; g, C: L$ c右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。
* P, z+ t- B" p% w
: T" Y# P6 f/ y( E1 V! c0 u. s核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。$ Y2 T; b; o, @! [( \* y
9 Y& ? c' ?, N$ E 所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。
/ V! _+ Y! y2 Z; A5 X7 k! y9 M/ u- @6 u% p+ }% C
! x/ K' x8 e: ]! _& @! a D; ]# T
画个VISIO:![]()
" O: P! x1 [" h1 F# I" D+ j- f3 i; Z( E
所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
& S0 n% r6 x- P3 [% ]' z
& X. q4 P+ W9 i9 f 那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。
5 B% v1 x4 @ D. o" t1 v) G8 D9 N$ I Y) S
1、行业经验
0 b( o; i$ Q$ ?
& a/ ]+ h2 x) u2 r: x, h/ m$ ]互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。1 x& u0 [* H1 {& ~
风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。9 n! H$ G3 Y$ S+ ]) J
2、知识基础
$ M2 R" G% m/ y" ~2 X- w$ V- g. Z9 q& ^
(以下详细内容请看笔者其他相关文章)
9 P( i% J& N7 M) |3 h
5 v9 g$ n/ U6 C2 A数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。
7 ?( \0 A2 U" n: i; Z# K统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。% K5 g2 k |4 A8 Y2 d ]
数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。
, ?4 o! _; j. r# x$ X" H3 K. e: ~5 `" x常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。
' T: P5 H2 I: T* \0 E. O, S w3、代码能力 e/ \6 P' Z- m9 h! A, E# R3 u
4 Y3 S8 T5 X; t4 M5 |7 {9 q% I
python | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。
: g5 l0 ^* p: W+ X, I(选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)
, ]! ^7 |# p; F j" J6 Y3 C8 a0 h! B5 w/ x$ q5 C) i
二 面试问题
3 _' r$ v& D! J. ~2 ^) U. m$ L) l+ x& [/ G% l2 O6 ]
1、风控建模
, M$ d& n" j9 ?! ]7 Q
1 G2 `! \/ Y. [* l k) J0 y3 `0 q谈谈你对风控模型的理解?
; e: y4 B5 r, R
3 g: a1 y9 R: X6 E/ b模型如何设计?1 a# T6 b( \( D: v) w, W
可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。
4 O$ R+ K3 a, d: U6 k- h0 k$ A' h, }4 Y/ q% |3 X3 a9 x
对客群进行细分建模的本质是什么?
: T$ R; M- z: ]( ~0 n其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。
' P1 w- _: m4 l* m. ^( K/ d) c+ Y( f" ^4 {+ D
拒绝推断应该怎么做,作用是什么?效果怎么样?* g! w; F4 f, y' _8 D% v
(多查资料,博学审问慎思明辨)4 H: ]4 ]$ T- ?# Z- s$ x& B! E
$ F) J2 L; X5 @8 _7 v; }3 T简要说明下标准评分卡开发流程
~7 L4 }1 M7 W6 p) Q1 h2 Y) H9 D2 `5 s" I(多查资料,博学审问慎思明辨): C$ J# p5 g" x2 c3 M: w
6 @' l( p% a+ P8 t2、特征工程( {4 J8 k, X! u; Z0 `& K
* t% K. D. U1 K$ u
如何对数据做质量检验?$ r" D/ @5 \5 j7 e* e0 [0 Z
在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:
3 W9 {+ F9 N' }6 j' P" ^/ t1、数据分布。" ?) K) h3 k; Z6 Q2 M. n L
2、数据集中度检测。
1 g, F' s" b/ ~" I7 V. r3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。
) H# d% ]* e, T9 V特征工程流程( n' B8 n% ~# p0 O
关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。6 G g D2 ]% \+ d
筛选变量的常用方法5 t# k. q* @/ `. @% t: \
筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。2 Y/ e! n1 C. Z: z' ?
好的特征需要具备哪些优势?" M% n- j7 O( r; [9 X# {" t
1、稳定性高
% h, {/ `. v( G: B2、区分度高
* c' ?8 _4 E U5 n' E$ q9 `3、差异性大
- ^" U- e. n6 M$ y6 U4、符合业务逻辑
6 l6 }& g/ j5 j- L% `% @3 B0 i如何衍生特征?
4 ?9 r a. I* @% X变量的衍生并不复杂,通常我们会从三种角度出发:
0 q5 ^% j' u3 q, ^1、数学运算。求和、比例、频率、平均等。! @! N3 z( [8 c8 L' S4 O
2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。9 D w# x2 t" D0 D9 m' o
3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。
2 Z/ v+ R- z- l4 L# M8 S# Q衍生出来的特征要符合实际业务含义,并且要保持稳定。
2 `& a. d$ O# i3 ^/ v/ j. ]3、机器学习算法; W: P: g; a( d+ d! @- h" z
/ t N9 j K' k
简单介绍你熟悉的几种算法及其在应用场景中的差别!9 s8 A' W/ J% I; a
一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。
! q) x( s1 I- k; R4 ]# M6 q: u5 x: J" h简单评价几种常用算法的优缺点:
4 F4 f. C h9 `; _1、逻辑回归
2 ^# P L' K! ]/ ]( o F3 e x" A优点:简单、稳定、可解释、技术成熟、易于监测和部署
! g1 `& ?* `: ]* I' [缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高
+ z; m6 @1 s) Y8 `) c3 A2、决策树
$ U2 A$ g/ E& S( Y优点:对数据质量要求不高,易解释& ]0 ?) H l" @3 J
缺点:准确度不高
( o5 a& e8 E9 a! D4 s& K$ T' ?3、其他元模型
1 {! D: X9 G, ^4 A4、组合模型
% G* x! v7 F/ T$ e优点:准确度高,稳定性强,泛化能力强,不易过拟合$ V6 B% o! [3 ^6 D
缺点:不易解释,部署困难,计算量大
$ i' _* W- b: p3 v6 w4、模型评估
% X9 H9 z9 S$ e& e
- N) J: n3 I2 @模型评估的常用方法?
. y# b, L1 s& z& Z8 D从三方面回答:% p3 Y' O/ U$ R Q
1、区分度:主要有KS和GINI指标,理解KS的定义及用法
. ]& K# c) v! ?7 G4 Y2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
6 z5 C6 H9 O) ]+ `3、稳定性:主要有PSI指标,理解PSI的定义及用法1 j" P/ m8 D4 h+ j
auc和ks的关系?
3 Z! _& u# t% V; [有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。% M9 r T# f2 V! R% `: c8 L) W
5、模型部署
7 c5 ?" O r* B+ d5 J; T( G! Q
" B* J' b2 t4 x p" J* k8 B& B模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。
" a/ j- p# J( Z" s( ~, D6、模型监测: W) F( Y$ s% W% U Z' C4 |) S
2 q; C3 { a9 }# v1 B上述一些运营数据和风控指标的关注
2 O, H g8 T9 Z4 h& C5 P三 写在后边! P, V# h" @* e7 l( c2 f
% t# k5 ?# r0 ~; x
在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。
# j$ q+ d7 [/ i: c) V) S% {" C. t! ]# P l0 _- o
总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。
3 k X: M) ~7 B% K- B% b) I/ o( Q9 j* j+ A" v3 [3 u
关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。
( d S+ J9 b: I4 s' k' ]( ]1 s——北大经济学博士 香帅老师/ j( ]% f* q+ E1 e1 q
风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。* X& L- E+ Q# k6 W( l
——数据驱动风险分析之父 阿什·古普塔
5 ^; A3 I. \9 x$ f! b$ \) V 别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。
# J! Y+ k' w* p) \1 |' r* f1 p/ _6 T) Z8 t
总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。4 Z' ~' @! O4 T6 X) x! K: q
% o! U) O) G; s/ z. Z
; e/ E# W; m- ^2 A
" p/ U/ v. _$ b" ?, z T
8 s3 i) [. @' u
9 T& i( J7 {1 ~$ r* @8 X6 p' g6 u( V! ~4 l2 w; g; T3 _) K- J0 f6 D
|
zan
|