QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3672|回复: 0
打印 上一主题 下一主题

[建模教程] 风控建模】互金 风控模型岗 基本要求及面试问题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2019-6-6 16:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    风控建模】互金 风控模型岗 基本要求及面试问题总结
    5 W+ T7 ]8 @: m& [& s& T! m一 准备工作/ \; z* s' G5 N

    2 P: r$ j; _1 g( {- B/ n$ r* [  根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:% C$ c" A3 U7 I- I7 N" h- |
    $ Y, ^' e/ }. l% x3 a; q# Q# \
      科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;
    # g* k& k) T- [3 s  t
    - z% [8 s7 b  w/ q; Z" K4 }  非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:5 F7 X# v" g4 w% S# y6 @6 i4 A

    8 M7 z) D6 W  s+ J* U前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。; ^  [$ F5 i4 V, X4 x  k+ }+ ^

    ( X) ~; p# _4 ~) g3 F! H后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。
    * r7 i5 Q# K& V, G" J6 M( U
    3 g+ k, G7 ~* v) o左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。
    # r2 i! D: C; H9 _! l* [! I$ y; }! w: y  [8 u4 M: I+ ~
    右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。" J8 T! |/ l$ [/ {
    - w% T  U) W7 [6 r, P! a/ d& o3 T
    核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。
    + o3 q6 h* Y7 Y+ S7 J& j) g/ [- D" V. Q' a" b  Q; J
      所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。$ Y( f6 B, n. F% P3 p- L) V+ z$ q
      X0 F: u, p+ @) R6 ^8 O" n9 |

    * D( J- H- e6 p画个VISIO:
    ! O" C+ v3 T# w" `: y2 l4 }7 L
      f1 B- T4 b8 R/ O% Q* E1 n3 k4 w  所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞); C& {/ m) b$ J) G- c

    + H# Z/ Q4 V) W; y9 b  那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。
    $ t/ j4 U  y0 c: N9 \( D: @
    . I2 w* t) [- e4 C* S( }$ V; u% S1、行业经验, Y" T# f. V0 }' ?$ p" l  O

    * k+ Z3 t  @8 p" a互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。' |* B0 }( g5 z  @5 \7 |# R
    风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。
    & {8 ~# M4 N5 ?$ v/ o  k2、知识基础
    $ z" Y# g0 U" m/ V1 I) G- g/ f+ I1 w% o
    (以下详细内容请看笔者其他相关文章)
    2 L2 w% H6 R& }2 V" B3 H  F- n. d! Z$ X/ `9 ?% q
    数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。0 p+ b+ A, r2 S5 B7 w; R) E; p# ^
    统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。. A5 B: x( D; D2 R  W+ v7 x
    数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。% h" z% O! [) Y" R
    常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。, X: A' g3 j4 \2 K
    3、代码能力+ b8 D( @, g7 r3 A; K5 @! A

    9 k' V" Q( v& d! @+ E) cpython | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。- o$ W; J& P, M  C* \
    (选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)
    $ Y* T; M* j% y" B! J+ X' d/ E- @: I! k& J* L
    二 面试问题8 S% `, ]8 n3 U4 [1 @+ T9 V- k$ P

    " W, @9 |2 F4 J* t' m3 o1、风控建模
    ) p( B5 D. Z1 W; z. R8 J( Z1 N) }; [7 n& K) S5 N; @) ~
    谈谈你对风控模型的理解?4 F0 o2 ^4 L1 a' i6 J
    $ o9 b- v" [1 W* F7 t
    模型如何设计?! b5 f5 \3 }1 K! E0 a8 j
    可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。) ]1 d$ w$ t% x7 y% D
    / o/ ^: R/ X) M5 O  o& Z0 [5 ?
    对客群进行细分建模的本质是什么?' C8 [* |$ D, P' M  s$ K# d
    其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。3 I' M& ^4 o/ f  c* [" T2 a

    * r0 N! T0 s* m& I; d% H拒绝推断应该怎么做,作用是什么?效果怎么样?3 k7 R# |, [7 ]1 E0 c9 s& \( n
    (多查资料,博学审问慎思明辨)
    3 M8 m0 T# ~# ]. w3 R- f' b1 i/ e. n/ W4 n. W' }' ?1 W' O/ L
    简要说明下标准评分卡开发流程6 c/ r: V5 x& Y4 S& d. H( X
    (多查资料,博学审问慎思明辨)
    1 y; B+ X9 i9 q2 M# w: P1 w
    ( S# g# q% s) j/ F- |0 o2、特征工程
    & a$ j3 T+ j! A% l* N' ~: e* ~8 t+ o$ a$ m& i, }2 |4 P, a' O
    如何对数据做质量检验?# e6 ^. ~; k$ v) J8 }7 T
    在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:" W* m/ J2 u" H" M. W
    1、数据分布。
    ! G1 c3 X+ H& i$ x' M) a2、数据集中度检测。: T+ I5 `- K1 o' Y' d1 a
    3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。
    : p% f$ v- w: B: z特征工程流程
    9 R! M0 W7 }6 q' m' W9 z0 D关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。; y# e/ R; S. p) D" ]/ T$ T
    筛选变量的常用方法+ t5 a4 W% h7 i0 C9 ^# J
    筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。/ I* \* g) L- ]; T3 y
    好的特征需要具备哪些优势?
    - X* f9 t4 u( g3 H) S. w1、稳定性高/ o) D, a2 y# n% s2 X! {* U
    2、区分度高
    $ v4 ~7 T# {0 t- i, ]# f4 p9 H3、差异性大
    7 t$ i! O7 T* @8 D4、符合业务逻辑
    " c! x; N" @/ h" ~* \1 Q如何衍生特征?
    9 j- @4 [) x+ R3 H' @' s变量的衍生并不复杂,通常我们会从三种角度出发:3 K' {, M8 z( x! ]0 ~0 ?- [
    1、数学运算。求和、比例、频率、平均等。
    ! |% L. M. t# ]7 d+ i+ s" z; b2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。
    ' h" M  A0 Q* s9 f" [3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。
    , Z$ o' X; G) v- f衍生出来的特征要符合实际业务含义,并且要保持稳定。9 y7 H7 r( L4 ?& w  A  F; G
    3、机器学习算法
    ' W6 L  E( w) r+ r" n- i; f) [8 [& W* S1 U6 ?, T% D% B" Q4 @
    简单介绍你熟悉的几种算法及其在应用场景中的差别!
    1 @. ]  P1 s) f! T2 r* [一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。
    7 `' b* {# F. q* S' v5 b8 K简单评价几种常用算法的优缺点:
    - F) p4 q! E* [1 v4 Y6 q1、逻辑回归6 @% V/ I, F% ~: U0 ]* k8 |
    优点:简单、稳定、可解释、技术成熟、易于监测和部署
    / b4 Q3 W- J0 j- U" y缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高
    6 O5 A+ r/ y, h( ~9 r2、决策树. c* {" g5 o: d$ N
    优点:对数据质量要求不高,易解释8 g0 E% R3 w- k0 q& Z
    缺点:准确度不高6 C* j  E' k; S1 K+ w& @% p
    3、其他元模型
    / X6 ^0 R- \4 G1 J4 q4 K1 p4、组合模型
    , B7 S9 R- O2 X0 L" K9 L优点:准确度高,稳定性强,泛化能力强,不易过拟合+ j3 [& ^: }# L" W5 r& L
    缺点:不易解释,部署困难,计算量大
    . x* o# L! I7 a! [- W4、模型评估* F/ U" f  J, A3 [5 C' c' ?% [3 p
    3 H; r0 F- M. e4 s1 ^! g
    模型评估的常用方法?9 U. r: s4 r: M4 B$ M2 p
    从三方面回答:- k+ U+ W; V7 K( V
    1、区分度:主要有KS和GINI指标,理解KS的定义及用法2 Y* R4 `, h9 A( b7 g
    2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
    # X- B9 X# S" n# s. t3、稳定性:主要有PSI指标,理解PSI的定义及用法- S* E  `- k  N4 N
    auc和ks的关系?
    - c7 j: h/ U" [# ]0 i) Y有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。
    / G4 r6 X# F3 a9 A  U7 E) O5、模型部署+ e. v' C( u4 D8 F" p
    9 S! V9 b! v" n9 S0 c
    模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。
    2 a0 h  g" U' p) T6、模型监测
    " K% b/ [  E+ B) l8 ]6 V" [4 @' o; i% W8 E( n
    上述一些运营数据和风控指标的关注" e2 B. ~+ E, |& T' ?
    三 写在后边
    4 M- P$ G/ t0 v8 o! a" H8 l4 F. z( T+ K4 ?; q0 w: d+ p  S8 K( R2 ]& k3 n, h& u
      在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。
    0 y4 k& P! U8 u2 ~7 a6 T' j9 P7 E6 \4 E- _# q. g6 H( m  y7 {
      总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。
    ) O& d; |& h7 \, ?% e! I
    " }% Y  P5 p5 c  关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。
    8 k9 I7 P/ J* ^0 P8 @, j——北大经济学博士 香帅老师
    ; J0 A/ {* x1 A# X$ S  风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。  `) q* K. H: M2 e$ f7 G5 y
    ——数据驱动风险分析之父 阿什·古普塔+ U% s% y7 I8 O0 N+ i, H2 A
      别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。
    7 K. @; A" b. c+ V# j8 \  g3 Y1 b7 B: Z8 u3 u" |( W; P$ V/ L; k/ M
      总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。9 @  |% |8 u7 n& z  |: S
    ! O/ v  `8 w1 a
    . Y& H5 x* }, X( X1 N
    " D% t7 w+ ^# u' [
    8 ?7 F$ e1 D4 B! y4 s

    + S* i; [3 C; r7 {+ U5 a
    3 }8 c  a4 e0 |4 {! J% o7 C
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-13 09:14 , Processed in 0.405483 second(s), 51 queries .

    回顶部