QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3260|回复: 0
打印 上一主题 下一主题

[建模教程] 风控建模】互金 风控模型岗 基本要求及面试问题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2019-6-6 16:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    风控建模】互金 风控模型岗 基本要求及面试问题总结2 ^. o0 Z6 e" _; ^: }  a6 g
    一 准备工作
    6 d6 a0 }8 n  e7 \0 J* \
    5 f5 j8 r& U2 N0 K: M/ r  根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:8 i- G7 O( J9 S0 b# ~
    ! i9 M8 {# C0 ]6 u2 q
      科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;
    7 J) R' z' {% [; h" \4 d( s* a1 f9 b; V2 P- c1 g! i
      非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:6 f% M3 j& s! F% ~" o$ o
    9 t; Z( V: v* j. k3 Q1 k8 |9 J' Z/ |
    前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。
    ) I9 D8 h& _4 C% K" E) k2 ?* v0 b: H1 D0 C
    后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。
    - Z. Z5 l  ^4 l" j9 g
    6 h8 S! m' D  Q# u% h左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。1 }! T; T6 H3 K

      x+ S5 w0 _1 |右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。
    0 c* ]' Z3 ~# U& E# ~- F# Y3 o% S+ j2 m" c; {+ Z
    核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。+ T+ F' a0 E: V5 |& D5 d

      c3 w* B9 a# K7 E- A& P0 v  所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。
    ' [. j9 d. H) |
    # Y. W* W4 Y, o
    " `* o6 J( \8 o8 G5 T" I画个VISIO:
    4 n4 @+ P' l% {  W( n
    & K; I/ t8 g1 B9 d/ R1 i  所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
    ! j% y5 w: d: G& r( Z/ k
    7 \3 C  M, ^& \0 |: h4 Z8 m# S  那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。+ M/ Q' V9 C, T  e4 Y; z" P
    1 Y6 ~2 Q, [' G: d, s+ N
    1、行业经验* l4 s  m- e% G8 f7 J
    * P& r& ~  ^: R, T5 ]
    互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。4 g- r  _: x- H
    风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。; u3 {5 R- j3 n& C3 w9 U1 {
    2、知识基础
    , `4 K& x) m; }" k; y+ B; |
    # x  X/ j' t3 r: l(以下详细内容请看笔者其他相关文章)* T# U) e& G4 o

    , v: G$ ]$ ~# K8 b) k% Z: T$ ^" A, b数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。
    . L  g4 }. j4 [( H- ^! D' M统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。
    ) a7 R; Z9 \1 A" E数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。" |( e  C$ Z1 r
    常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。
    1 o4 z$ \3 D" o# D( M! a3、代码能力
    5 _% R% W* s& J$ Y7 B# Q8 X0 x3 l) X1 {( H
    python | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。
    & E1 T4 E" l, p(选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)! }4 n) e! g0 X$ g

    ; W" J" Z: I, I: I8 m+ ?, E* Z. G二 面试问题/ Z9 w. [  s- I  z9 R3 T
    $ B5 }. B( b- {
    1、风控建模
    ; y9 l: T9 o5 i, b& F. y+ V% m
    + U* x' l- X6 p9 a谈谈你对风控模型的理解?- c: u, C, N3 t- G5 T% s

    4 R' X. l+ P+ c% ~模型如何设计?
    ( X& |8 ?/ T6 v3 A$ q' W* x8 p# G可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。& W. u2 v4 j- f* W0 L5 a; B

    # e+ X. B* `$ s9 q对客群进行细分建模的本质是什么?
    . o$ r- r  X# w" f4 F其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。
    & w# h7 o8 _% J- ]$ G# A) q2 W" E4 o# k
    拒绝推断应该怎么做,作用是什么?效果怎么样?
    $ j9 K, h/ ^+ H) ~  q! Z(多查资料,博学审问慎思明辨)
    7 G  }8 r0 Z+ ^8 a9 G4 r6 Y) N7 W# \* c
    简要说明下标准评分卡开发流程
    8 e% s' S% K1 ^; b8 F(多查资料,博学审问慎思明辨)
    1 G- x2 x* M& W5 E9 E# @' ^& L+ c7 P1 o  Y( {& `4 p
    2、特征工程. g4 ~5 ~8 ~% @. @

    , o/ _. M9 C& M+ ?& t如何对数据做质量检验?
    ( }  k: @2 f5 b- }在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:
    8 ~7 ]" ?5 T/ `% h' j  J4 v9 B1、数据分布。* t' G3 D+ y) D# T5 F9 A9 S  I4 H- e
    2、数据集中度检测。$ E6 [6 k9 h* p: k& A0 T3 S/ N# A
    3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。8 \% ^! r3 ?9 k, M4 V. v
    特征工程流程
    & T# g+ @" a7 h; I; p% Q关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
    1 w3 `8 b5 M" s: a$ E筛选变量的常用方法
    % D7 |; a) _2 H+ c0 L9 \5 J/ E筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。
    6 c. N5 K/ p+ M( L好的特征需要具备哪些优势?" u& X1 O1 I' r' n9 @% e
    1、稳定性高0 T- y, U; J' U! V' Y% y
    2、区分度高
    % e3 G+ g5 d# F# |: D) c' Q6 X3、差异性大1 s1 J1 f4 \( `# n  Z6 ~3 K
    4、符合业务逻辑
    4 V( p1 J$ W) Q) Q% b! T7 v  ~7 N如何衍生特征?
    - E! V: H+ W  m: s+ W' R变量的衍生并不复杂,通常我们会从三种角度出发:
    . R; {7 a2 H0 I6 s3 X! d; ^1、数学运算。求和、比例、频率、平均等。
    - q/ @0 ]. t$ V6 m$ o2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。
    ' L" Z( U# p+ g& l* g3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。
    6 R9 p5 u1 O& E) d# o) |& a衍生出来的特征要符合实际业务含义,并且要保持稳定。
    5 W8 m; Y) z" _$ J5 f3、机器学习算法
    9 U$ q; x! E: H3 b4 h& b6 A; N
      Z7 }/ j+ E) Y简单介绍你熟悉的几种算法及其在应用场景中的差别!
    " t" ~! Q4 Q! j6 z. r. A2 M4 [一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。  O+ j: q9 Z3 |( @8 \7 z' t* G  b& d
    简单评价几种常用算法的优缺点:
    1 @9 r5 h. R" J5 |5 f1、逻辑回归5 @4 l8 G% m, J' B% X7 K) N
    优点:简单、稳定、可解释、技术成熟、易于监测和部署" E5 |" Q% b% E; m
    缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高2 H7 d3 `4 f5 L% K( c5 F
    2、决策树; Z5 u( @3 a% `: r7 B
    优点:对数据质量要求不高,易解释
    ' B0 K4 j8 \0 O9 k; p/ }缺点:准确度不高$ X' `8 k! D' u  S3 ?- K
    3、其他元模型
    ! O; g; G8 T( g% A+ }' m% I4、组合模型" G" R# c; M! N5 Q9 X
    优点:准确度高,稳定性强,泛化能力强,不易过拟合
    8 i9 [; y3 A3 v' h0 Y) U' L- i* F缺点:不易解释,部署困难,计算量大4 f. u7 p  \$ ]  E0 b/ W
    4、模型评估( P# y1 {) S! E; N

    8 K4 C0 M0 T% _5 q: ], e! U+ G8 s模型评估的常用方法?
    + d: f, H, F# @. n8 s5 B# J从三方面回答:
    : I' r" {3 G* u; k- H1、区分度:主要有KS和GINI指标,理解KS的定义及用法5 v+ Z. Q4 D. q5 a
    2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
    # V0 i: d9 p& J7 h) }- e8 Y8 N3、稳定性:主要有PSI指标,理解PSI的定义及用法7 F) U: N$ t( e6 Z, n" j( R% t
    auc和ks的关系?0 p0 R& b5 }1 Q' f! Q1 b% n$ i
    有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。
    ; @) Y: V5 U2 R% h3 H7 T5、模型部署% ]+ _8 y( ]$ H$ ]

    ! B* l8 X- N1 ?5 N/ `6 V1 }模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。. F# D# {4 b* q# ~* ^4 V
    6、模型监测9 K, q: m; O5 x" d; l' N$ h, |

    ) k0 `+ P- G( t上述一些运营数据和风控指标的关注
    % T8 x: t4 A; N/ A0 Z: H三 写在后边
    ' x: F8 X- m0 Z
    0 ?2 Z6 g# y9 ^1 L$ i  在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。0 [: u; Y5 n% d  B9 Z6 S

    * Y- h& y- f. N. x. C  总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。! I) z$ N/ g, m8 d$ E8 h

    & Y  p' x% m3 O& U, k  关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。
    8 Q* |/ J5 |' [( A2 N3 V——北大经济学博士 香帅老师1 y2 p0 y) Y% o( z, t
      风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。
      X& W+ S8 S  n  d& D" x——数据驱动风险分析之父 阿什·古普塔, R7 Q; K! ]  a: _; P+ g
      别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。2 M0 l$ \5 Z+ p: [3 p- f
    , o. X: `9 ~: F5 @8 H
      总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。& }6 g4 v2 `* C+ t5 Z& E# Y" R

    # _4 m5 d4 i! k
    5 W5 m3 T3 |; A6 ^* o) O) C  t
    0 A: L1 o8 Z2 c
    # N) y1 K3 @: S  ?" `
    ' J& X# ?4 x9 E6 u( O- d2 I& k6 N) E# {' F
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-6-10 05:23 , Processed in 0.437482 second(s), 50 queries .

    回顶部