- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 563325 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174220
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
风控建模】互金 风控模型岗 基本要求及面试问题总结
$ q& |+ T2 Y, B( r2 t. w; G0 |一 准备工作; }! s( A/ D$ w: I0 f0 _
+ Z0 y0 W! d$ R: Q9 f 根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:# \( Z& o$ M, z+ B1 ?7 |6 J9 l
; ^( r" C. a: x, A I+ c/ S4 ` 科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;
) Y/ V9 i/ j( D# |$ u0 Q# a' F$ U1 u2 ~& |& {, M; B& E
非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:: E7 d/ m0 s2 k( }* f
- k, z5 c, u# r前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。- O/ u2 r4 |: j$ i5 f
% i, G# Z3 ~8 r$ L后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。
p5 O; h( } }2 L2 k* g9 U
4 w# G* |( }; A4 q% T( r; g左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。: n8 N9 r# h" i, _4 e6 l
: }, O. h" t1 c. D$ z! ~9 ?右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。9 C2 h0 S/ [9 i" `* e& C
- T# T% i* s# |, Q! ` p1 }
核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。; f1 C7 ^ t5 q& x( q+ c% _7 T
% G4 C' u# K: ]3 m% B/ ]
所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。
8 S3 ]' S. E' {- L) P: s, g/ O1 |3 _! a, C9 M+ [
) z# g2 s, z5 B( a" V- g画个VISIO:![]()
; |( A$ ]( J; @% Q1 u @, @7 @
Q: O4 f4 A7 Q2 M8 F: B7 B9 q0 U, O 所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
) d$ k( M+ Z/ B: \1 o# q+ n2 C4 k' s" q$ N: a2 S, T
那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。/ `% O0 b5 x; M
7 h; @8 _2 ~0 A. E1 K0 w% N1、行业经验$ Z7 x! _( h8 L1 p- X4 \: H
1 P+ d% f# V% y. s9 }0 K `7 E0 ~互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。2 y( A9 ?% m' F O( F, @
风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。
: F1 \2 _# k/ k- T2、知识基础
6 U7 O1 y1 R3 K, Y+ _3 K& _+ Z2 H( _4 k: v7 H- A; C3 r7 K
(以下详细内容请看笔者其他相关文章). L9 q& I* i8 K8 s
1 I v5 e, U7 ~9 Q% _ E数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。8 f( f5 x, |9 ? ^4 E) Q
统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。
' U0 `8 b' N5 A+ u1 O数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。6 c' v( Y* h$ c. ~% h
常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。4 Q: t& f4 N/ A: O# U! O
3、代码能力1 s. j9 V+ v1 Z
6 H* n$ | P: U. k/ f& p' v' z! _4 b
python | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。
9 t' t' o! d- v1 \(选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)
) q! j8 J% G8 }# o
* V: x/ w1 V" n9 H7 [7 K二 面试问题
7 J$ T' Y1 Q' y& A. p0 h. d* G! v# C% f) \' H+ C5 v7 S( B q9 `
1、风控建模
% |2 V! h% f# F9 A l+ j0 Q8 f$ n
谈谈你对风控模型的理解?7 j# o; X* q* x9 T; T3 R3 h: q
- B; ^5 V0 g. J9 A模型如何设计?
8 |9 k5 U, l- C: \可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。
! o7 T1 H0 T" B) c. n+ b: d- ]# l+ V g: s. X3 T
对客群进行细分建模的本质是什么?
9 Z, x5 D/ a m3 y# R% n其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。
, [. e, }, l6 Y
( f6 w9 w8 Y1 i5 r. b" ]4 B; ]拒绝推断应该怎么做,作用是什么?效果怎么样?
* k2 G. |. |' L$ N# p& u(多查资料,博学审问慎思明辨)9 A2 g. J& s% E0 b: q5 J
" }1 f6 v) ]/ ?' H; Z; d简要说明下标准评分卡开发流程& M) `) e$ T1 v- b t# Y
(多查资料,博学审问慎思明辨)' O7 E) U5 }, V! U, h
) s2 A+ F8 n& o9 M9 Y, D& q2、特征工程4 o6 A! f' v4 h: Q' s
8 @/ u8 W# ~+ r, r- F: p# X如何对数据做质量检验?
% a4 g% h& n% ^9 Y0 `. v在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:
( Y8 X4 {9 I; i& j! C1、数据分布。+ H6 K+ F, |& Z
2、数据集中度检测。
: i! C& z0 t M" W3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。
% t9 P# U9 Q+ s- {- a" E特征工程流程, u( ?4 K! M* G, \1 m, l3 [) t
关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。* R0 v, J% _, F0 r1 q. M
筛选变量的常用方法( D+ e$ V" E5 m
筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。( O' N# l/ ] P: a4 d" e
好的特征需要具备哪些优势?* Z$ f" n- q. C: T7 k( b1 K7 G. M( g) {
1、稳定性高9 n/ W8 o( L( `# L0 v
2、区分度高
3 T' K! s! t) U5 v: @+ |: h3、差异性大
, n1 Q9 M7 r% u& z2 @; c4、符合业务逻辑! e# E/ C$ x g( D" i
如何衍生特征?
- q! G( H1 a. W( K变量的衍生并不复杂,通常我们会从三种角度出发:
' s. s, c6 y w# F$ f1 g" t1、数学运算。求和、比例、频率、平均等。
- h& h) u. ^8 X7 t) m2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。
' M4 i* e! r# _; M% k+ j) Z3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。; s7 P+ O! u% {1 Z t/ s
衍生出来的特征要符合实际业务含义,并且要保持稳定。; j) P0 d5 i1 q' \ }
3、机器学习算法 Q* S; |7 ^; l) z# D
- M W) G. W7 H! Q简单介绍你熟悉的几种算法及其在应用场景中的差别!- r( s' ]' Q: G9 F, X9 {7 x
一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。- G$ N( T) m. [9 I+ r
简单评价几种常用算法的优缺点:
5 R4 f( `# Y5 q1 x2 d# q1、逻辑回归
# I: D# @+ k" j' c' D优点:简单、稳定、可解释、技术成熟、易于监测和部署' B" Q( _: g; y$ N; y
缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高7 c1 x. H) F5 a6 X: ^
2、决策树
5 y, {6 y/ h. S# t, Y8 N优点:对数据质量要求不高,易解释
; \* R! e% k+ \& I缺点:准确度不高, {3 M" D& l+ O: A% U" g
3、其他元模型
: S2 @. h, N$ s+ l N4 |4、组合模型
, o: C$ X' `/ w. }优点:准确度高,稳定性强,泛化能力强,不易过拟合/ z5 \) N% T* G; s9 y
缺点:不易解释,部署困难,计算量大
( H: M: Q O' M) R: B8 o4、模型评估# E, \+ K# r: o
$ h' V4 Z. c% A8 H9 E" l
模型评估的常用方法?
) }2 E$ S* J$ A% @从三方面回答:
0 `9 V! G5 H- X/ I1、区分度:主要有KS和GINI指标,理解KS的定义及用法4 C. f' Q# t% z! M g
2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法4 m3 Z" J1 N# S0 @
3、稳定性:主要有PSI指标,理解PSI的定义及用法/ @4 i* H2 s* e
auc和ks的关系?
* W/ E8 F8 M" r5 q有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。& Q/ A- H& o; W; f, `/ c
5、模型部署
9 z) K; D$ \+ g3 I/ j/ s( E
3 @! j6 J# I) o. l4 u n/ z模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。7 U1 n' {" O. G9 s$ b& K3 W
6、模型监测& s1 d" E, O2 c+ P
& F' n( R( t( o+ ^, `
上述一些运营数据和风控指标的关注0 [2 l I3 d0 l g4 T% M
三 写在后边5 D- ^" H, L- I6 z l
/ R1 v' c( g% F3 Q 在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。, K- b# ^, w6 M# r a, `
0 R% k; K) I8 u. x |" m3 e' e. m 总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。
$ ^- \2 \/ e) o* @9 p, A8 V/ J+ D2 r5 G6 \9 g- l. q
关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。/ `2 F; r1 v3 r' f( Z* L6 M* b
——北大经济学博士 香帅老师: c- q. b1 `. P: L3 P$ G6 u
风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。) y4 c% H4 B0 x) g
——数据驱动风险分析之父 阿什·古普塔$ I$ `& m( r0 s6 g
别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。
0 E; K" U) K7 h3 g. D- o* G0 L& e3 c! F& ?6 b$ L3 m& e
总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。
: b2 D* O8 x/ |3 S; _0 g) u( T: q
& l* N& G1 @0 ?) r1 p! u5 l2 \: t' O8 U
' W) }# U6 ^- O" c& `1 N' {& E6 E9 a7 W/ V0 I
/ s$ T3 ^- k' o7 K d3 n- S- w- e; d3 j- `3 r
|
zan
|