QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3670|回复: 0
打印 上一主题 下一主题

[建模教程] 风控建模】互金 风控模型岗 基本要求及面试问题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2019-6-6 16:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    风控建模】互金 风控模型岗 基本要求及面试问题总结/ v2 E: z/ ^6 p3 r3 _7 Q2 q
    一 准备工作
    8 t+ o" C' p, D8 G1 O% Y! u, h# D3 x: T7 ^( V7 ]$ f
      根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:
    / f( r) `( o: L( N+ J4 b7 t! e# W" u! ?) q0 L
      科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;
    ( n1 z$ \8 b8 V1 h; O5 S; e- {3 s8 N9 Q+ B! @" N9 W+ F
      非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:' [0 Y6 g2 |9 I0 ~$ z

    " _, R7 G: I4 y9 J' p前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。' M2 L% O# ~5 [6 Z: M* U" ^5 I

    + X( ^( F# J+ R8 [* A9 R' ]# z' ]后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。' i! L6 H: e' ^" K; F; Q

    + p; o" G3 O( x7 S' m! ?" H左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。
    ! X3 a; f2 ~/ O7 e' Q) @9 r+ S9 {# }9 s1 y+ c
    右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。
    ( ?8 t; s/ L- G5 Z1 e! H. X5 G
    2 {' Q9 W8 }3 {" M1 E0 @/ G/ z核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。
      q( ~; ?9 ?- R
    " X, {5 }' `$ A  所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。; m, T& w2 c9 N5 R7 {) B+ h

    1 n, B* v, n5 N* |
    4 p- _2 ]- l1 t; V+ Y3 o& V1 T& W, W画个VISIO:
    & g3 h+ D" q, ~+ f/ n7 A  ?* R" c. m
      所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
    & V% P6 e8 N* h1 r. Q% n% t. d0 f2 z; y
      那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。
    ; K- e7 V1 Z; l$ X# Z  p2 j! P7 _! e' D; ~" {
    1、行业经验& n* Y3 o( X0 K9 p. Z9 t

    6 S- g9 {& \% i5 c9 N互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。# ^  K9 I' ]1 z( I# `9 O4 W
    风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。
    $ t0 B7 K( B* q, x1 W- ?2、知识基础
    ( p1 v1 E1 e2 H. R/ H0 i8 t" w; ?9 }
    (以下详细内容请看笔者其他相关文章)+ p& i4 B5 S/ l7 d7 h5 k0 ^
    / _: O' z) h$ M  W4 D$ M. U) x
    数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。, \; w: a8 q6 {6 l. o& \; h$ v
    统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。
    , L$ M/ S) S/ u; }( D6 }数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。
    " F2 K6 m" ~# V' V' X/ F" h) q( P常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。
    " l( w" m/ b* z% G3、代码能力7 b; I( `( b5 Z  b# ~7 s+ C% Z

    ' b; k- s. Q  v* d8 M8 A, ~2 Upython | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。+ H/ i" K# M& u( V0 M
    (选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤): o4 _5 b) F' w
    + R( d/ E1 y; f5 ~5 `; _$ [
    二 面试问题
    , K; g& ]& z0 [4 R! d
    9 ~) _+ [. @: L4 j1、风控建模" k2 P' j$ W: e) ]
    1 S4 c0 T9 m1 ]
    谈谈你对风控模型的理解?& U; H- O# I! X% V' h$ [

    * b* C1 x! E# w9 I模型如何设计?& J0 n( K& e4 k: E+ e  p' f- A
    可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。
    ( r+ N* s: Y9 R* F5 i
    7 R# W2 b: F4 Z0 X对客群进行细分建模的本质是什么?
    , ~6 v* l+ }' [% v, r其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。
    4 a' ^. X, o" F$ b8 A6 c* r  B' C+ p3 |. {/ e$ t- Q; v
    拒绝推断应该怎么做,作用是什么?效果怎么样?
    + }. F  Q3 w, q! o, C# T(多查资料,博学审问慎思明辨)
    2 e5 s) a2 F5 q. X, ?, Q
    ( G6 M" [" Y% C简要说明下标准评分卡开发流程
    ( |0 t% c1 F6 n! w0 T2 M( y$ M(多查资料,博学审问慎思明辨)
    + m2 Y' Z# ]/ m1 `0 \* L
    0 {4 r/ K! o) g6 t8 t2、特征工程
    , Z5 L5 d9 a  W# M6 r. b6 K& M* t- g
    如何对数据做质量检验?
    " m! q- \2 s" O9 C- m在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:
    " ?0 @- Y8 }! a1、数据分布。
    " o2 W) {, G* A, V+ d( N! ~2、数据集中度检测。
    3 t2 x9 |* U* T3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。
    2 n$ \% X  A* M( g特征工程流程6 U9 B; x/ P- c) m
    关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
    6 K( D+ ~! k4 R: w' g; P$ r2 H/ X筛选变量的常用方法, d3 `0 H. d! Y+ }: U/ i. Z9 n
    筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。
    # B5 T, ~! E  y7 W- ]( C好的特征需要具备哪些优势?
    7 Z1 D3 A, H- P* H  X! q2 p  ]1 x1、稳定性高8 O" H! Y# A+ r) S7 u. ^7 {: j( F1 R
    2、区分度高6 k: M& k# W. P, c% ~& W
    3、差异性大
    , g. A  ~) v" G9 M$ c( L4、符合业务逻辑0 _9 r7 j7 t( x' I8 W* Z
    如何衍生特征?
    5 A& u0 L; `# m6 _1 h$ ?' Y2 O; E5 }变量的衍生并不复杂,通常我们会从三种角度出发:
    ( E; p4 f: a9 q* |' F1、数学运算。求和、比例、频率、平均等。
    1 [3 a5 e# a$ |% I' [0 s2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。0 r3 C, B) U/ H6 T' G5 ^: v1 ~, e
    3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。& A6 z4 q; b3 ^8 @
    衍生出来的特征要符合实际业务含义,并且要保持稳定。% M, X* I9 ]' n. |
    3、机器学习算法
    $ s2 N* A) o7 B6 K7 p9 L, }' O, @; j( @
    简单介绍你熟悉的几种算法及其在应用场景中的差别!
    . a. O/ F5 X2 z  u1 \1 X8 ^; G* L一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。
    ) b9 \( q- ^7 d) g" p' Z( q简单评价几种常用算法的优缺点:. \5 e& M* ?9 P/ o. I% O8 S
    1、逻辑回归' J9 u! D2 V% N" }0 }2 c: U& {
    优点:简单、稳定、可解释、技术成熟、易于监测和部署* j+ T% m) P5 d' |
    缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高  A) R; b, `6 r% ?0 c  l
    2、决策树
    * R6 O' U4 `% i9 m+ T$ L优点:对数据质量要求不高,易解释9 ?) A. _6 A( G, e
    缺点:准确度不高/ p% x* ]7 S0 q% {6 D0 o3 v
    3、其他元模型7 \. ~8 l7 m+ v( N5 X0 m
    4、组合模型' k* y; h+ v0 R: Z% \
    优点:准确度高,稳定性强,泛化能力强,不易过拟合
    # o9 m8 ^. d7 d8 _缺点:不易解释,部署困难,计算量大8 d$ n- ]% S8 G$ `8 }) s1 f; K
    4、模型评估
    , z  H7 L) ]5 ?4 n" Z4 B) }! Y5 Q% m! u8 g
    模型评估的常用方法?
    ! c3 T4 S3 z% D& M* c从三方面回答:
    ; u2 O$ x3 _8 s4 v3 Z1、区分度:主要有KS和GINI指标,理解KS的定义及用法+ f" N3 ^& ]! s2 S" I! e
    2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
    # x  Y4 E' O+ [3 i; u+ B3 l3、稳定性:主要有PSI指标,理解PSI的定义及用法- Q& T# a% o# M, ]  x
    auc和ks的关系?9 p3 E+ o; d4 s3 R- N
    有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。4 C0 ^5 \: g2 J. t7 t8 }5 u
    5、模型部署
    0 L& e$ L' F' f% v9 E4 @8 }0 d! q
    6 R1 W& ?2 T; i4 Z  k, z: ?1 Q模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。/ D9 c5 _( B7 J$ W1 U. P
    6、模型监测; x9 |9 p% @2 c2 b

    0 j; @0 L$ l# g: D" E7 L% P* F! W上述一些运营数据和风控指标的关注
    - z& B  \1 V& X1 \( l6 _# s9 {* M三 写在后边
    $ N* o3 V( N$ _* t6 J( C
    1 t3 u8 C. p6 {; ?1 f  在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。# a* a5 d5 C  d- n, q7 f# A; }, x

    / e2 {" U5 K( a; Q7 r! t) m  总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。
    + w8 ~7 J* u4 ~9 ]0 L. j# O6 U# e9 ^& M5 F
      关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。1 G# q0 V" h+ h+ z" l7 w, r, W& \
    ——北大经济学博士 香帅老师
    6 q4 L1 p8 L6 L% ]  风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。1 N. l# y2 a7 |! j0 V: m) L/ X
    ——数据驱动风险分析之父 阿什·古普塔
    3 y, d& A0 @+ q  别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。/ v3 G+ m! c9 Q
    / J2 r, S5 j: v( w* R" ^; g
      总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。5 w+ L/ d0 H+ ]4 d

    ( |$ W0 P7 }0 w% q, m
    3 q6 ?) v6 p; f: |0 P% d& I9 |% o" L+ [

    # o9 E( L0 t+ G1 |% Y' _  N4 g1 t' w0 _4 ^6 T$ u
    6 A0 H/ A$ Q5 Y
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-11 14:42 , Processed in 0.425485 second(s), 51 queries .

    回顶部