QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3636|回复: 0
打印 上一主题 下一主题

[建模教程] 风控建模】互金 风控模型岗 基本要求及面试问题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2019-6-6 16:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    风控建模】互金 风控模型岗 基本要求及面试问题总结
    % G" r1 A! }& q9 V& g5 m( |) @, E一 准备工作; s% w$ P+ X) \% V1 g

    - Z* Z: N7 X  \. s  根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:
    2 `+ _/ c! y) I4 l
    : c6 g/ D# l8 s- u5 Y, p  科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;
    ( I. V9 [1 a2 ?3 v% e/ @. Y) B2 O1 O& K. }6 q* ~% N4 W2 u9 m
      非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:- Y. S- [# H" S8 N, {; o

    ; B9 D6 ~$ Z1 t; \前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。7 s& f) a" u( B- Y6 r' Q
    1 x2 h" l" Y: {6 Z% l$ C
    后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。7 Q/ w( W, {$ }7 _, ]  b& H1 @) @
    / N4 B2 _9 X$ E; Q) w+ ]- x5 b
    左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。/ V/ H/ U: ?' [1 W0 c

    - N& z5 Q( @2 A% o' o右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。
    . v+ P+ p( n; m! E8 G& |; t; j% s% `  L' K
    核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。1 q+ s5 a/ u4 R1 b, N

    # W  B, ~/ u7 o0 X3 f: J# y  所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。, V! m  P4 R. w" X

    / j) N/ P# H; `" o9 ?- j. ~: U
    0 N( l# B/ f7 O$ e9 Z画个VISIO:) P& F+ X+ m% l& C* y: O5 j

    1 f! I$ |0 k* @2 r% V4 y  K6 ~+ f  所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
    # J0 l+ t9 h" a0 {. {( r% O) K4 x  d4 H. B
      那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。, g, _. O/ m8 z) Y  J

    ! S* E+ X  M8 j1、行业经验: z. i2 d; Q; B% @

    - y6 F6 a2 t2 [* ]9 T& i# S! b: o1 ^互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。
    . ?# W* w1 S8 V! C) h8 z3 Q风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。
    , s1 I  G9 R# J) t2、知识基础
    8 Y+ m  n7 l  }) ^, m
    7 ]4 ^% D7 W6 @7 u1 \( l(以下详细内容请看笔者其他相关文章)! q+ y% f, ?$ Q/ H

    , D: j7 Q6 t! V* n" O7 ~9 B8 n数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。
    ( Q6 y0 h1 n2 V/ d( J5 }8 E统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。
    0 K% r) z, Q- F数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。# [% S6 |" c$ f8 E; k$ T
    常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。& H* d' j2 s6 L# Y& B3 o
    3、代码能力
    $ ~$ m6 o! b5 S+ I2 {& I, j3 j; V& A6 E9 o
    python | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。3 D% a  p. L: x9 c% f" W
    (选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤); t9 J: O! G9 {% n" m
    + O5 z5 H$ C. D4 D7 `$ X
    二 面试问题
    - u  M4 x$ G& @0 @' U! z
    3 \/ Y7 h/ r' m+ G; x6 Q2 j; I3 U. S1、风控建模
    + U8 p# P6 Q; ?* k1 ^
    8 f. n( P0 z$ J4 }3 Z. P: `- y& R谈谈你对风控模型的理解?8 Y) N& T/ w3 n$ z0 K. l
    1 p8 ~2 p, {" j: @/ G3 ^1 {& t
    模型如何设计?
    ( z- k) ^! J& ~; u: j可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。
    ! }$ ^  x1 Y6 J# G+ L2 w% B" j4 o$ t( L7 d7 Y, @1 X) \$ y+ S
    对客群进行细分建模的本质是什么?, }* {8 ]) w9 q. k
    其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。7 G9 e$ f# k; v. J* G2 W

    7 l* [5 r3 ?2 s+ o! o拒绝推断应该怎么做,作用是什么?效果怎么样?& Y5 j) W+ J# g' f) R9 A
    (多查资料,博学审问慎思明辨)) L0 d4 X% N/ c8 Z8 a, N( m

    % p: i3 I3 P- B  l- ~( I简要说明下标准评分卡开发流程' {# N2 x- h$ i- ^4 Q. ^
    (多查资料,博学审问慎思明辨): d+ Z7 |, A2 G) v, O( M5 x
      I, j2 g& D( w( z0 W
    2、特征工程2 z! ?2 L# F3 G! v. m  E
    ' C. B1 Q. @7 L- q7 b' N$ b
    如何对数据做质量检验?1 r" S6 o2 d6 n' J/ E' K
    在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:. C5 W1 Q9 f4 i- n+ G' P! ^
    1、数据分布。
    . }8 Y1 T3 e' F: V# d  v; c: j2、数据集中度检测。
    3 X3 p, X" R* H- a5 Y( U: [3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。
    ! a6 ~$ U8 C# o1 s特征工程流程
    % C+ c0 F* s" S8 X9 A! \! w6 U7 E% _8 v关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。  z4 p2 l, g7 `2 b/ D2 d( U7 }) H
    筛选变量的常用方法+ B  X' c" l) q4 @7 X8 O4 _/ G1 }0 q8 l
    筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。( {/ E# z7 e7 G# \3 O. B3 g
    好的特征需要具备哪些优势?5 O' L; d# l6 a6 n2 m5 s# H
    1、稳定性高6 j5 E( Y/ \) X
    2、区分度高
    7 K; z$ {& d- ?" K4 Q9 v9 `3、差异性大
    % h' p# u  B0 E& K4、符合业务逻辑# }1 g# Y! ^$ O+ `
    如何衍生特征?
    % a3 f4 I/ P# O$ s变量的衍生并不复杂,通常我们会从三种角度出发:- d' D% V2 o6 M
    1、数学运算。求和、比例、频率、平均等。
      `3 E  f3 _; E' G& p6 X6 @: X2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。
    + J% O- q7 j! q4 Y' V' [3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。
    & \# @: I1 e+ [衍生出来的特征要符合实际业务含义,并且要保持稳定。7 V2 B  j' k9 ?1 U; J. l
    3、机器学习算法/ I7 u( q' J4 r1 x8 _
    0 f+ o& o* K% d& A7 L: k+ K9 I
    简单介绍你熟悉的几种算法及其在应用场景中的差别!! O7 A1 C( {3 W" }4 R) g, ?
    一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。7 f5 ^* A& y) d4 z! V
    简单评价几种常用算法的优缺点:+ |: W: |  ]! b5 z( T& m
    1、逻辑回归
    * E9 q( q4 P% p# R, [; w: P优点:简单、稳定、可解释、技术成熟、易于监测和部署
    : R; T  b* y* h3 @) B) U% e缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高
    2 Q& Q+ q* R3 t* s5 \# }, }! _( H2、决策树
    ' d7 u9 V1 c4 J优点:对数据质量要求不高,易解释3 t8 v2 }# h# `, I% L: J' M4 C
    缺点:准确度不高
    2 ?" H5 B% i: Z$ i5 h. E9 E3、其他元模型2 v3 @* }5 ]" q  H! _4 V" R4 R
    4、组合模型
    6 F- {0 W2 h/ \7 J7 g! Z优点:准确度高,稳定性强,泛化能力强,不易过拟合
    ! K$ b! G. ~/ d; }" C* o' F7 [8 w! N4 _缺点:不易解释,部署困难,计算量大* _/ _. ]! B5 w' p' ?% K+ k3 y7 |
    4、模型评估* j$ v/ r8 W# p6 c* `

    & Y5 y5 k+ ?2 }# q! O模型评估的常用方法?+ p& T$ z3 D/ Z; \0 A
    从三方面回答:
      R7 Z3 E0 S+ t1、区分度:主要有KS和GINI指标,理解KS的定义及用法
    3 q/ E0 b. c! L8 L2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
    + {7 p( j2 P3 v5 i5 M1 W4 p3、稳定性:主要有PSI指标,理解PSI的定义及用法
    ' k# K" f, |1 l# E% C4 i7 v& A" O, Bauc和ks的关系?4 x/ I# m; u" f- X
    有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。6 `' |$ C3 [" Y/ b6 ]3 u2 n
    5、模型部署4 D% y5 y) J6 D4 k
    ; T5 G9 i+ K6 v4 |
    模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。7 s7 r) w) `- D  D$ j( j. @
    6、模型监测
    % T: S5 V3 j/ t6 L+ I9 u  H1 G. ^( ?( u; A, I
    上述一些运营数据和风控指标的关注
    $ E6 l; e7 u3 h5 u% D9 j- t# ?$ b三 写在后边5 E5 e8 T/ f" t
    2 r+ d4 a: n  L2 }- y% K; {, V
      在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。1 E; m1 o4 O5 G6 [1 Y) S3 w% ]

    % [4 Z$ p. b: p$ R  总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。
    / g1 z- Z1 K8 S/ I% c7 B) s( F: E' i" E$ U; \0 `% [) B
      关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。! x( n+ `8 ?: O0 M( U
    ——北大经济学博士 香帅老师) v: [9 v  J% E% J% e1 d! d/ _
      风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。
    0 R3 z7 X; g9 \——数据驱动风险分析之父 阿什·古普塔
    9 V- M* J7 i: l  别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。7 W3 ~7 w2 e0 H: k4 p, y
      A$ `: d% _3 p4 `) K
      总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。& ?; q2 Y8 m4 ~* |! W: {' u( s

    ; m* j% c2 |- i! v2 q: K' U4 i6 V) b3 Y2 W% S6 d; ^1 U! N
    4 ~8 w& C0 e# n: S' L9 J! F

    4 v( D3 s6 e3 [( h( N
    - p& z! m! D* N( R4 B; r2 g- G. y' h0 y0 U* l; D' K
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-12 13:17 , Processed in 0.598886 second(s), 51 queries .

    回顶部