- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 564663 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174622
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
风控建模】互金 风控模型岗 基本要求及面试问题总结
4 e. U$ r, ]# j( H一 准备工作
6 y! M/ ]6 `5 O* r: o9 ~9 m2 Q& l2 r- S
根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:4 y% M0 ]1 `0 j3 y, {3 M
: m) s; V+ m: g- d3 U" M5 u 科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;
4 ]" P; t6 j. f7 z& b& ]6 c4 b; |) F7 Z Z9 k
非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:
& |7 d; |: P( S% _ Q0 j/ R6 J9 L: W8 Q
前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。$ J7 ]( O. N7 c
3 n/ D' k) q- i% Q- S6 R% H后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。# Z; j- ]- L* W: b8 G7 a
# x- m( b* q2 m* M2 A
左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。
% j6 l, y+ X. u0 g7 a2 I2 B( y9 c1 H- k/ H; L# K9 n
右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。
5 s0 l) C" \) c4 i2 M; o# D# f2 y2 P/ d9 [
核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。8 z* r$ m+ N- ^" U7 F" N
. c1 K- ]$ d6 B) f9 B0 h
所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。
6 M" e ?3 V# D/ B9 e. S. s% g& ~( j1 l6 K
0 w& K9 a0 [. `
画个VISIO: 6 F7 O' O" ?% j0 P5 X1 @
* C$ g% R8 `: [' c% ?+ n/ C; X, H 所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
/ I: ]0 \3 z% g
: s+ E5 Y0 F; |6 m7 X 那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。
" f, J% p* A) v! m( T; F0 {2 W8 w+ M& w* _4 ~! ` n/ x. r1 e i
1、行业经验7 X8 T2 W- @0 b" ?: |+ r+ N
6 Y* J( U( U7 w6 R% [) L! j
互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。" W* V! u7 g$ O3 J
风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。
, T2 N f, Y- R7 s/ x& B8 }; E2、知识基础. J- P, J: G' ?2 X" |0 N
" M o# {8 X% c(以下详细内容请看笔者其他相关文章)- z6 v6 ]: Z6 L: T2 O, ~
" g! q7 K2 a- x- l数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。
% i) f4 f/ h; D8 X! [统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。
; i" V. p& K/ _/ o, d* P% w$ q" Y数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。
4 @, c/ C" g' `' O$ f常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。
7 b0 i9 K5 r3 d/ q6 z6 A3、代码能力
0 j. H8 ?5 B9 `# \' M4 m. B- }' r- A) q
python | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。
+ K+ _! v9 N1 d/ ?(选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)
0 _) I9 v6 G- }9 C) r+ Y- W2 @
& [/ _ G1 h3 [2 E9 R二 面试问题
* U" v: i$ t# `, x3 M$ A* k* D! } n9 r9 ~6 d' o
1、风控建模
7 B6 _: a7 I. H/ i0 q" M6 f
; B- y$ `# L! o! K谈谈你对风控模型的理解?' P# j2 m% y* v
* ]9 K, U6 s; N# U9 i' `! l模型如何设计?6 f$ n; v. h$ e' T4 ?+ ?. {$ Z
可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。
: t6 s1 l, o0 ~2 A
/ J# Y8 f! D, S. h$ F对客群进行细分建模的本质是什么?% a3 y' n! }' i8 ~
其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。
9 j4 ^* ~! O3 V* J9 v2 ~ C
4 r9 Q# z. T9 O) q& @拒绝推断应该怎么做,作用是什么?效果怎么样?/ i, B& R" V7 p
(多查资料,博学审问慎思明辨)& {( O* p1 N" \' `
" m$ P( O7 f) R$ @+ I+ _ \" J) _简要说明下标准评分卡开发流程0 ]" ]) u7 H# X4 f0 P
(多查资料,博学审问慎思明辨); k- n5 h+ w; T* [
* d: [* y0 A8 C1 Y8 r! I! v* u. E2、特征工程
# e; K1 |3 n& d( b" z- p4 W. t, k. |/ G
如何对数据做质量检验?
2 |6 D6 v8 M' K3 z/ j- P6 z在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:9 V/ b. ~3 w) Q# b2 X; n
1、数据分布。
% y& S; r: v' t. `2、数据集中度检测。1 W7 e) G7 Z$ [# W4 Q6 z
3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。- c% f" Q4 O0 M) U8 Y9 G( a
特征工程流程' D' [/ W2 v2 Y& v2 l
关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。" T# t8 }. j) m( V$ U) H
筛选变量的常用方法
n7 l7 F' Y% m! H% s筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。8 l9 o+ M4 Z! X! J A
好的特征需要具备哪些优势?
+ J6 {# ~5 O2 g; m9 q0 b1、稳定性高2 ]* q3 Q7 k3 N" |; ^
2、区分度高
# ~# I4 W1 }) Y' _- A0 h9 y3、差异性大
! Y0 O5 w, @ p( l! t: t9 _. @4、符合业务逻辑' O: ~. S, K) I+ ?* k0 n+ a
如何衍生特征?# w9 a3 k6 G5 z: X0 @2 I; n7 F
变量的衍生并不复杂,通常我们会从三种角度出发:
$ G- w: [- A$ }* w5 P4 `7 C9 h1、数学运算。求和、比例、频率、平均等。$ d5 C- p* E. O* R* J5 g: Z
2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。( d) j& s$ E& \0 V9 Y1 O6 r
3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。
" @) ^% p b6 o! c衍生出来的特征要符合实际业务含义,并且要保持稳定。
$ N2 }: |( C$ K3、机器学习算法
# c" N- e5 k v- I! j |2 H
6 u; H( U6 y: W* r* o& w简单介绍你熟悉的几种算法及其在应用场景中的差别!
7 D. ^. S5 K. c一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。1 X8 k6 L Q( u/ r. ?
简单评价几种常用算法的优缺点:
( Q$ g! M/ Z9 B9 V2 n/ J h. \1、逻辑回归9 ~. y/ u6 @1 y5 | K% d' b
优点:简单、稳定、可解释、技术成熟、易于监测和部署* [' n- ^0 d% C6 d6 M; q
缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高
k. X6 k# K7 m; ^# S2、决策树2 |4 `$ S5 ~/ m4 H
优点:对数据质量要求不高,易解释
( c8 I; l" l, _! A8 s: T( Q+ v缺点:准确度不高
" g& W4 R1 x* J3、其他元模型
5 ?% V E5 x% B9 |' x# e4、组合模型
" w' V+ d6 ?4 U( q% Z优点:准确度高,稳定性强,泛化能力强,不易过拟合9 H2 I7 }; z& E0 x% `/ ]5 U( O% g) l
缺点:不易解释,部署困难,计算量大
1 H# T4 C# R- W x- [4、模型评估9 y: K+ Z* I4 \
4 l z% g" }$ @4 t9 t3 r' e
模型评估的常用方法?
. t( G" ]+ Y% i W2 ^2 G7 u从三方面回答:
* l' o3 S, z2 X6 z0 S" c# L1、区分度:主要有KS和GINI指标,理解KS的定义及用法
- q8 Q9 n; B* M/ B# n; `2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
- Q. |( m2 L% T8 \4 d/ w/ m6 @3、稳定性:主要有PSI指标,理解PSI的定义及用法8 b' ]3 j7 ?/ e" @* n' w H
auc和ks的关系?
6 n4 }! T( z+ c; p( N有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。3 _: W5 U/ A1 ]( H
5、模型部署
/ f/ k# E, a9 T. n9 d1 P0 x) j1 ]$ f" h0 V! `( r4 `
模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。
& S4 U+ b, d1 d3 W; Z# e6 |! Q6、模型监测
$ ^$ b5 p9 O( S' ]5 M2 q& K1 c: x3 G9 k4 x I2 P
上述一些运营数据和风控指标的关注- M, F8 p! l& ]1 }1 e3 T
三 写在后边$ R/ d# [5 O: C1 c R. W
: r r' m" ?8 Y8 t. b% r0 o 在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。$ L5 h- z, v* n7 n: I7 w7 J( ^
8 M4 ]# \. Y& Q5 i 总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。
( c5 C& S" e& U3 t* ^6 Y+ \7 V* x$ E+ `/ d0 ^3 c9 I- ^
关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。
% z% d, R- p* b——北大经济学博士 香帅老师
. i2 m8 ^7 V3 h1 x! y7 Z 风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。) Y0 Z; m9 ~9 i* [. A
——数据驱动风险分析之父 阿什·古普塔+ t( m/ D( [0 W$ n
别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。
6 ]6 V5 l2 m& Z+ o0 h( m& ~; u6 ?1 ~% Q% J) ?5 x Q
总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。6 h0 c$ R. x, s- I/ s3 v$ Y
/ F% w Y( \+ f) U* q$ N' _/ n+ x$ o+ g
6 n% l- x7 m7 \9 I7 ~ O
. O! R3 n* ]: Z o) G% j; S
7 t6 n; H1 | V! i
# m# J& K' z+ S' G$ |. C, r |
zan
|