QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3649|回复: 0
打印 上一主题 下一主题

[建模教程] 风控建模】互金 风控模型岗 基本要求及面试问题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2019-6-6 16:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    风控建模】互金 风控模型岗 基本要求及面试问题总结
    6 j/ L, s; D. p3 t% R$ I4 l一 准备工作
    5 i7 G% D6 c# b& `( H: g2 x
    ; M( w) x1 g9 J  i' l  根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:
      N/ y" l  e: M, c+ C3 U9 I; J
    * p* [. C1 D) o, Q$ e9 R  科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;
    4 G) h$ s+ v: ?* B8 K# {" Y
    # W( K0 }+ B& ~1 w  非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:
    . ^0 f  s, P  ?6 x  I/ \& D1 U. a6 \/ b) j4 H
    前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。" ?1 n  I5 K7 }9 m- M5 C" G; X8 n8 z
    3 ^0 x- s, g* p
    后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。) _$ r' Q  ?6 G8 _" f6 A6 b

    # D, h; d! w$ h( p4 W8 B# b5 m' V& D左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。
    - `% N( @4 I$ `) r- G$ F1 N
    / a( J: h! U& g5 {  y右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。
    ( V+ Q" Q" T4 e8 v/ [) i! m1 g) |! c7 ?8 r) ?5 M5 s1 R
    核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。: ^- ?: B1 X8 ^2 k

    $ B5 [% o$ e' g; E1 R, C8 E  所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。  n' o7 r- V9 M
    4 g2 ~8 F5 f; ^4 U! a& M

    7 K& z6 O) \9 o4 V画个VISIO:
    # _, U0 U& t. }# R$ m6 c% |
    ' j& k. c4 B( S1 e9 x) ]2 Z, n$ v  所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
    4 P, s3 N: G; y$ U. g* c0 F2 Q8 b+ ?4 @( c- [: h9 `% A) ]* x; l
      那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。
    7 B# G3 S( N( t  [) w6 W# ~* p* ]' m
    : l3 u3 O! A0 S$ e1、行业经验
    3 d% i. A& s2 d. D0 W
    9 o+ x: {1 X& `6 y互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。
    $ N; _% V: l8 x; p% |" o4 |. W& K风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。. x2 M5 g7 Y( r, }+ p" v; z0 X1 i
    2、知识基础; |$ m; f# |- h. m, P3 Y4 I
    + s' n# R% S$ S& B+ i! f$ A
    (以下详细内容请看笔者其他相关文章)9 p7 z8 [0 c) c; ~# X+ ^  J

    $ Y: _. V3 Q6 F% O/ A1 |# T' }数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。
    , A4 @( ^) [# e- \: v统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。0 Z  J% o1 A" b% e
    数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。. F4 W9 ~' ^2 F+ s; l' X. _
    常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。) R. G/ }* M* J$ Z# ?
    3、代码能力5 S# D5 z% H( V* V: X& c6 |8 R9 o! ]

    % y2 `! ^/ p0 W' ^: Upython | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。
    % G+ e0 e2 D0 d4 M6 ?: ]4 ~(选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)
    % @1 o/ u: W: Q* @0 z+ B2 r7 U% N8 P) P: P4 M" Z
    二 面试问题
    1 i* Y  _5 g6 t4 B1 }$ n- m, k( h
    & y: v8 ?5 c5 x% q2 x* c1、风控建模
    8 {4 Y( ]4 c! i; \  B6 q
    : i- U  r6 a) @1 X! H9 V% D7 m/ C; X谈谈你对风控模型的理解?5 H& _; Y7 G. M0 S

    ! t% Z& ~: q. u+ U8 Y6 Q模型如何设计?
    ! C* ?- R6 F6 k& J可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。5 i! m* H# O2 j- A

    3 D4 m  O$ A3 E/ g对客群进行细分建模的本质是什么?
    0 n$ M% U! J4 Q5 g其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。7 O5 A2 [- h) s. y; y5 p; s
    9 G9 S8 G; @: x7 ~9 p
    拒绝推断应该怎么做,作用是什么?效果怎么样?6 R7 l7 I5 ]% q3 y$ E2 p
    (多查资料,博学审问慎思明辨)
    3 y$ k' M. O" L) B6 u, Q  S( q% k) m
    简要说明下标准评分卡开发流程2 I& k$ N& D5 m
    (多查资料,博学审问慎思明辨)
    , D4 E- n4 E8 O8 @2 x
    / S/ I  I, z8 @4 q9 |- X" Y. Q" \$ \, |2、特征工程
    0 |9 H7 J/ q. o; @% N1 G5 X/ h; H9 i! ]; ]+ e" F. ~
    如何对数据做质量检验?
    . w2 R/ L2 f' _- g. a; l在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:
    4 w6 |3 s7 ?$ ^, C1、数据分布。2 Q. G3 u! P+ y% o  x' k
    2、数据集中度检测。
    ) H" W: a* ^8 _) S3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。# s/ y/ a3 t) u0 X- Y1 M
    特征工程流程9 _& y  Q: o2 N' i1 z/ X
    关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
    & y3 {: ]4 p* ~+ I6 A, r% B' G筛选变量的常用方法. L$ ]2 r7 i* `- M# o0 m- f
    筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。
    , v5 W% i% v6 m0 ~/ x好的特征需要具备哪些优势?
    % [0 c; l7 Z! u1、稳定性高
    7 K6 t9 U" T. m3 d2、区分度高
    8 D7 p  W' w- ?& W6 P7 n2 d* w. h3、差异性大
    ; G& N& d' c5 {0 |. F+ J  A6 h# x4、符合业务逻辑
    % j8 R- u& J* h# }4 b如何衍生特征?
    0 \8 h" t% J. t" X7 ~0 \  O1 n变量的衍生并不复杂,通常我们会从三种角度出发:% i3 t$ \* J% s; i9 R* F
    1、数学运算。求和、比例、频率、平均等。; B+ Q7 O" M* h$ |
    2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。! X( A. O2 s( E: {: q" t
    3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。
    5 w, @0 d9 E% O衍生出来的特征要符合实际业务含义,并且要保持稳定。
    ( w% @) G+ N( _/ H5 R3、机器学习算法' D/ L+ I2 |: Y
    1 Q% `  t/ F. {
    简单介绍你熟悉的几种算法及其在应用场景中的差别!, _3 a! s' ~9 L& g. M1 D, g) m
    一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。" s8 Z/ |4 k# C+ {+ T& R
    简单评价几种常用算法的优缺点:6 K5 A5 z' p( U( _: i+ K
    1、逻辑回归
    ' c* Q/ R5 N* u% S3 K优点:简单、稳定、可解释、技术成熟、易于监测和部署0 n: I, \1 l) @
    缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高
    5 X) C( E! B; ?- e2 Z: C  h2 k2、决策树+ h1 b* I5 G5 K5 g1 b+ ]
    优点:对数据质量要求不高,易解释
    ) h9 M) W$ h& {$ x2 a& X/ |: ?2 D' Q缺点:准确度不高
    0 z* Z9 R8 L& j+ p; a+ U- w3、其他元模型
    : t7 k: h! l9 M, p! R4、组合模型1 j& C- ?1 q$ \7 ~
    优点:准确度高,稳定性强,泛化能力强,不易过拟合5 A+ [+ u) B0 F' }- `
    缺点:不易解释,部署困难,计算量大
    3 R# V7 I' B* K2 v' z0 }* @4、模型评估/ |- ~! i/ G5 X9 o
    " }8 R0 T" _6 g4 {& e% J
    模型评估的常用方法?
    & c, W8 ]- Q0 f& A8 \0 p+ H  J6 d从三方面回答:
    & h8 }0 x+ y/ g8 s1、区分度:主要有KS和GINI指标,理解KS的定义及用法
    3 |: v/ F; U" q  n- |  g2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法( C/ q5 C- ?% `& u3 q8 U. s6 d
    3、稳定性:主要有PSI指标,理解PSI的定义及用法
    # Z- D% V) ^4 H5 H: Jauc和ks的关系?6 m3 H+ \( M8 e5 D  Y$ r( \) |
    有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。1 W( ^3 p  [( j8 \+ w2 h$ n
    5、模型部署0 P' b1 m9 F& Z& X$ x7 R) [
    ; R4 }6 |5 X1 _# s( m
    模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。; I! m9 z0 q5 `' D+ Y
    6、模型监测
    0 D- d: O) p' L" q# N# {' c; @( z5 i
    上述一些运营数据和风控指标的关注( n9 I, ?# |7 |! w) e- I
    三 写在后边
    / N) T/ e$ N2 M% G5 [7 @4 [" ~8 [6 q& L2 z3 H  p3 ^% D3 L( J
      在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。$ ^: `. w: i' H# U, c
    $ _0 l/ v& w6 k7 b& h, O
      总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。" o( c5 G9 z$ J" q; v

    $ d2 t  l8 Y( m8 ~. q# Q  关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。! K3 N( [, d* ^" P9 \+ S: w$ V
    ——北大经济学博士 香帅老师
    : A+ t/ G3 j3 R6 R  ~. l  风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。* B; J$ p+ f8 b
    ——数据驱动风险分析之父 阿什·古普塔' T- i$ s$ R, z) K, p
      别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。1 j8 E& ~* k, n8 A6 [( @

      q, e9 e2 p9 ?0 O5 m% ?' u  总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。; i9 H( p& m% {5 D6 r. m) {% r1 D( B
    ) _4 y. h4 m5 C  N

    ' n! h2 x% ~, E  z: w/ U
    ! t4 Q) r  h3 b. J7 C! a$ d& f# z
    3 j; c" l( {+ N/ y
    2 a6 c! h* y! q, w4 J
    5 F" a& n) @. ?. f
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-21 13:30 , Processed in 0.376555 second(s), 51 queries .

    回顶部