- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 564690 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174630
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
风控建模】互金 风控模型岗 基本要求及面试问题总结, v4 i, M7 q/ k; g$ A4 t1 R
一 准备工作/ I1 v7 b+ ?# n8 X
( D3 z, j2 m& |( m6 p& G$ R
根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:
4 O! I. ?: a; k3 C. N# J
. l: ~/ |$ C0 u$ ~2 G) j0 I7 K. O& } 科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;
, Q/ n, T5 L# D% Q
8 R4 y, F) ?- G. ]) I& d 非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:
0 Y+ t7 T/ g+ Y4 v+ ?) Q4 T) C$ d- A A; z, Z6 E
前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。' M7 Y x: n1 h9 f3 G( y" ~4 X
6 @( f, l$ p& q
后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。. N; k- S1 U2 C% ^' U! o$ a
q8 ?3 }5 l7 E9 F左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。
; D# Y2 A; A; P* E# m/ \ x O, ^/ v, Z' K0 O* ?
右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。1 ^ W! l- V1 D3 W: R/ D
( `5 Y3 N+ c3 ?7 H" r& H0 l核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。
3 ~7 m/ T7 q: ?
/ a; T% v8 j: H3 W9 @( J 所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。
* E( M4 P! ^2 S; D- Y" o5 e8 @5 h/ G
" }. E/ S3 G( I( M6 {5 _
画个VISIO: 3 U* `& ^: e% W s. m
/ F% K A7 s; ^ h 所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
, E7 R9 ~6 u2 ]3 n+ D4 i
1 K) ?3 E, I- g9 ` 那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。
; s8 a, `7 i7 o9 B$ h6 ^5 U& z0 x# q$ U F/ `8 {
1、行业经验
/ u2 j2 E8 j* }% ]/ P* d* s, o( j' c
互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。3 q9 ]* h* A5 V0 s
风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。
0 Q% H% P! Z0 l# |4 n- w2、知识基础0 P& N B( Q' t6 R) O
. U" |0 w0 t- u(以下详细内容请看笔者其他相关文章)
' h C& D7 B4 F6 ?3 G
- [! N, p9 X2 u' G数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。
( y0 d8 H% {2 s- K2 l- a统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。3 X4 O' w, f) p, P# q
数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。6 g4 N0 X) Q0 T3 J" C& P
常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。) l u1 m2 X, g- t Q5 b9 s# \
3、代码能力, P: L. X6 D6 h7 }& P
0 @# a2 i# d- e4 E' \5 u) ^python | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。
* F8 O+ a! ?& U$ k(选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)
[2 {% N# I5 h+ q& Y0 f3 C1 j) C3 P) J
二 面试问题
+ H% R! o, z m+ R* X* o' I- @4 k+ O1 P" y# s* U# u0 }$ m
1、风控建模
" |" t% b5 K5 i6 l; i9 {& r/ m, E- {) B8 @
谈谈你对风控模型的理解?
$ M! T [- y, z% N
4 z2 b8 X5 i$ t9 L/ i3 a \+ r模型如何设计?
+ J; R6 j) n) M- d. i; a9 J$ l" m可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。
9 K( J) \( z" a9 m" E
" u) X- f c: w: x, [, d3 P对客群进行细分建模的本质是什么?
: r) o# L& [' V1 L8 h: u0 Q其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。6 y6 E: i% Q3 t; ]
$ H. _; l" f. V! _( ]拒绝推断应该怎么做,作用是什么?效果怎么样?3 {& U- {4 u5 I, ]2 ~) `! Z
(多查资料,博学审问慎思明辨)
8 ^$ T+ K3 [5 a# y+ r* N* G0 @
简要说明下标准评分卡开发流程# S2 V% d* t0 |9 C2 F$ i4 i
(多查资料,博学审问慎思明辨)
8 h/ y) v+ E \1 z- C8 e" M! R1 S: P0 S- W0 P8 u
2、特征工程" {3 g+ h: S6 t; o# \
$ ]( Z" L' c: _$ ]0 v$ C9 i: j如何对数据做质量检验?
" c, u4 B% x( X在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:
6 z* ?% K! A' \5 t- W" ]1、数据分布。8 q* A+ C ?. y8 o# M5 a
2、数据集中度检测。
4 V: ~$ z: {9 S; b3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。
; Q7 n; e- `" {特征工程流程6 d/ F9 z- |+ S* J9 u
关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
0 J* Q; [: a* ]: z) c筛选变量的常用方法+ Z7 N- t+ o- A8 B: f0 u i( O
筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。+ x: V) V0 \% `7 I) h+ T
好的特征需要具备哪些优势?
: T; w; @+ g9 [+ ?5 D1、稳定性高
8 P( m7 J% _9 F. ^+ W2、区分度高9 S" D% X. ^5 v% y; B
3、差异性大
% I" |/ z! J7 N0 S; y4、符合业务逻辑
: R1 ^5 j6 s* l( Y) z0 e2 i% q, t如何衍生特征?/ B4 Q: O* w+ i% a8 D Q0 U
变量的衍生并不复杂,通常我们会从三种角度出发:
4 B0 T7 [( C, e) o6 X1、数学运算。求和、比例、频率、平均等。1 E$ r- k9 A8 q2 h8 _' n3 B3 V$ K
2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。
5 j& F% s' \& f1 r5 }/ E. S3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。5 E' d, f+ y0 M5 v% S6 f- m0 D) y
衍生出来的特征要符合实际业务含义,并且要保持稳定。! ` z, h' g. i$ k& I; k+ _
3、机器学习算法) T. H6 Y& W! o5 B; G
8 y( |" w$ y Z
简单介绍你熟悉的几种算法及其在应用场景中的差别!
l# z- z/ L1 Y1 `0 L" H* W一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。, X4 ^7 W+ \' Z5 k1 E' {
简单评价几种常用算法的优缺点:+ f _8 m+ ] c8 J5 w
1、逻辑回归
+ Q9 b. T+ d3 t; ^0 _5 h# g4 _/ `优点:简单、稳定、可解释、技术成熟、易于监测和部署0 ~4 v0 R1 M. s4 f2 T( J7 V( P
缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高& A0 K. O, h) F
2、决策树3 B% ?( Z/ G1 D+ C% ?; M) H
优点:对数据质量要求不高,易解释% z6 P7 n4 ~ }. F: e# C
缺点:准确度不高, J1 B4 \/ w. w6 u' U0 |2 `
3、其他元模型
" P! f5 S: ~) A/ c/ k0 p4、组合模型0 R2 E9 J y; w* ?, L1 l8 J" M
优点:准确度高,稳定性强,泛化能力强,不易过拟合* A9 @' l$ a9 J5 }
缺点:不易解释,部署困难,计算量大
8 z$ h% J* @3 x9 V0 ?! ~4、模型评估
0 N# l: l& ?4 t
8 C2 k6 x; F. v4 V' p5 P) R# |模型评估的常用方法?- H% C% d/ i: f' U
从三方面回答:
& u x" f7 A& C; I6 c: ], o% j1、区分度:主要有KS和GINI指标,理解KS的定义及用法
3 C, ?! I7 j* D9 j; ]/ i. y5 a2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
! \& I2 \% E; h$ u1 `" j3、稳定性:主要有PSI指标,理解PSI的定义及用法
, U! a0 z3 ~5 Z$ b4 n5 jauc和ks的关系?6 U8 z+ t" y8 R. ^! }
有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。+ o# F5 I3 ]/ ^" R& j
5、模型部署) ^. l& ^/ r" h/ `
, j1 q/ I7 Q6 K模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。
5 a6 r$ G! G& z8 i6、模型监测: g- Q+ f r) g5 b" O2 L9 [1 ~# F
7 \0 K3 n/ ~& C3 s- D3 @
上述一些运营数据和风控指标的关注
8 w9 N$ M3 e1 A4 l. A1 U3 C三 写在后边3 |8 o6 P2 e: g8 x" ]
4 B7 z! R, ?) \6 f( ^' s! S 在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。
. W8 e0 v; F, Y' O6 }) }2 b6 R' b- [( p+ \" z3 N2 y" }
总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。. `2 g, `& ^+ H' ^* n* g0 @
) Q) a7 z# e. q" O
关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。' }( p; V! i% z1 n ?3 v
——北大经济学博士 香帅老师
Q0 i# A* @, ^4 O t4 M 风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。
5 o- ]2 g: E2 E9 g- h5 @, v——数据驱动风险分析之父 阿什·古普塔5 [; v/ J" |9 R! Y) T# z
别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。# b% G8 s5 i+ }' t( q O
5 T. |: o$ j ]1 g! B6 ]7 x
总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。
0 j9 X9 W1 Z! P8 _ C, t
. \5 S6 U* M# A1 v' _ I5 e# g8 T H! i
$ \( \# v$ {% ^2 ~/ w$ D+ O$ ^& S9 ^5 {& i: ]. j
8 A. [4 r2 g2 u. {" c6 `1 v
0 x4 Q# B/ y# a" x- s4 ^" Q3 P |
zan
|