QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3266|回复: 0
打印 上一主题 下一主题

[建模教程] 风控建模】互金 风控模型岗 基本要求及面试问题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2019-6-6 16:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    风控建模】互金 风控模型岗 基本要求及面试问题总结
    ) q8 g. p! Z4 x, x  p一 准备工作$ i! v% t3 P% V. `

    / B# k  u6 e2 L1 w  根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:2 f; y2 u- ?  ~* ]- [) V
    8 V9 C; b+ X  l, q. c
      科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;
    ( N9 d, X. H* O4 Q. m3 ^; |& K& |9 \; Y9 s, K% \
      非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:7 L  G( I- T. L/ {

    / S) @5 P4 y2 l8 \) C& Z' p+ v7 k前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。: g) }, C" [6 ^1 Y

    - t7 d0 P5 O8 g后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。
    . Y- c5 A$ T) L. g: z9 x9 \
    ) S! k) T) f: v左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。
    8 J* b4 y# D) T; H# F" v+ r$ ~7 N, ^4 Q6 S0 C6 b% N6 R
    右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。
      G: S0 o, l/ q4 D
    . Z8 s9 c4 L8 n) H4 {3 y2 v# B核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。( G% @# G4 Z! @& r2 D0 p4 A

    ) `4 \" C' L" B2 C  所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。2 o% r& \1 G% i+ F

    + y8 z  `, j  ]% N  c8 P% ]. m# U) A% s! ?# @. f. C6 n+ a& V5 d# S
    画个VISIO:7 P: e+ q* @7 L2 N

    5 T- a2 `$ U0 o1 ^$ V" J  所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
    # g6 [, l! S4 v8 h5 s3 z' _) ~# Z, \" k! W
      那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。% J2 F: O; ^. `; x- @

    / B% U" @  Y4 A1、行业经验
    - u6 K) r7 o/ c2 `& V' y8 M: m8 {: E# z9 _9 w! i1 H+ y
    互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。
    . T# r7 F$ n$ L+ B% y. M# A风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。& ?2 y# Q' Z$ J5 G; U" _! Q* W6 E
    2、知识基础
    / e  M1 T- Q4 q& y9 ^* `0 M: l& A4 m( u: O( m7 r8 C
    (以下详细内容请看笔者其他相关文章)
    * p' t4 Z3 Z) i; _  n- }
    $ l( s) p! k2 L# i2 M数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。( i& B5 X5 v# C5 P' F5 r% a" O
    统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。
    " r; d  m% E( G( [- C3 N- b$ G数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。
    & r) M4 z! }0 l. S( v* t常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。- C* x% Z9 G: q
    3、代码能力
    - g3 I2 X+ w8 o6 P3 \2 h5 `! G+ M, _" f# ?( |0 |
    python | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。1 L# O2 g- S2 J1 P6 S9 u3 o
    (选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)
    6 w0 I% [5 ~' q* Y1 l5 }% ~
    9 _7 k$ F. F# t3 y二 面试问题
    * X5 y3 x/ Q0 }1 B
    * C, S. H, K. _9 Z1、风控建模1 ^# B( p$ _" x! A# R

    4 I" X, e' b* O  ~" ^% H2 ^3 o谈谈你对风控模型的理解?
    $ p! y- G$ a* e; X) D4 \2 V0 I6 X
    9 o& U$ U, q. G; f% V模型如何设计?
    * P2 A3 P0 O- p% i可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。
    1 @4 w% u5 c1 {3 b! J, }8 r  v5 `9 H3 a9 d
    对客群进行细分建模的本质是什么?- Y$ ]8 ], j4 b  x
    其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。
    ! {; v. E4 k# @7 }9 ?7 W: p( N- F8 i6 _7 p
    拒绝推断应该怎么做,作用是什么?效果怎么样?$ U8 S( D- b; S0 H/ N, B5 U
    (多查资料,博学审问慎思明辨)
    7 e! M+ ~3 L) X& i$ X% L) d6 y
    . B3 C, @3 l& q" S8 l+ c简要说明下标准评分卡开发流程
    , h' D2 d6 U/ j4 g# {6 E(多查资料,博学审问慎思明辨)3 ?6 i0 D8 a' F6 s3 x7 E9 R
    , E3 r* U2 C' c( a9 Z
    2、特征工程& D/ X+ ]7 r7 J1 a2 k4 E, s8 [1 o
    3 s) \* J, _3 q
    如何对数据做质量检验?
    5 |- E# L& m; r& j在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:
    5 ~  z0 o! Z4 H6 F5 g$ [! G0 D1、数据分布。
    5 l' z7 B/ t3 ?& J: ]6 ?0 f2、数据集中度检测。
    # }. @; S/ b8 y$ B3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。
    : g& I! C; `! T( b特征工程流程  f$ T; n4 i( n
    关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。+ ^  [  h' e9 U3 H) a
    筛选变量的常用方法7 c5 v. j4 I3 A$ k
    筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。
    0 S( B1 {- u' L& _$ i1 M好的特征需要具备哪些优势?
    : o1 h. s" \; {/ o+ d! D1、稳定性高
    # G3 x. E( ]* p6 @5 ]. |! d3 i2、区分度高/ O/ w) G/ H0 i- J* x  p
    3、差异性大
    6 @* @7 s' b& C* [- F7 `/ L4、符合业务逻辑6 z: R( f) d% \/ i2 [- g* x
    如何衍生特征?' i2 }) x' I) {6 [
    变量的衍生并不复杂,通常我们会从三种角度出发:
    - d& w' a0 K. g9 O: ]0 Z' V7 y: J1、数学运算。求和、比例、频率、平均等。
    - K1 A! ~2 B" L5 w- ^2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。0 a$ o$ l  a" y; @8 z, g
    3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。
    7 E0 f. J" K( d8 X4 ~. q衍生出来的特征要符合实际业务含义,并且要保持稳定。
    4 Y0 E$ H9 u9 b/ x- H3、机器学习算法, F1 Q: }, }6 \6 i. O

    ! J. R# P) b& K7 }; [简单介绍你熟悉的几种算法及其在应用场景中的差别!
    6 P3 p6 I8 j0 G9 u  q  Y一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。* j9 k+ s5 V- d$ V! o
    简单评价几种常用算法的优缺点:9 s& j6 v$ T( ~$ R. |$ |0 [
    1、逻辑回归
    2 E( ^2 b1 t% s) L2 `6 l优点:简单、稳定、可解释、技术成熟、易于监测和部署3 K! b5 R" n3 ^2 |
    缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高
    7 T* \9 J* O4 j3 C8 c/ O2、决策树6 P2 j& }2 P( r& x2 g1 u% @
    优点:对数据质量要求不高,易解释
    3 h4 v$ n/ v5 `缺点:准确度不高
    + e4 U& k5 O; F7 B3、其他元模型
    8 w' X- V, R# Q" x4、组合模型
    & E4 W9 ]" y0 H  N优点:准确度高,稳定性强,泛化能力强,不易过拟合
    ( ], R1 h1 c5 d! X" F6 Y5 S缺点:不易解释,部署困难,计算量大
    # }7 q; @) ?3 O+ U/ j4、模型评估
      b% n1 e5 K8 G
    0 O1 M% ?& W( e5 Y+ y+ l模型评估的常用方法?
    / |2 P2 p' C2 O' N8 a从三方面回答:/ S; }% C7 c; R% M) ]
    1、区分度:主要有KS和GINI指标,理解KS的定义及用法2 j; P5 z8 m' W2 P
    2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
    ! K; x0 f: ?2 Z- r+ F6 ?# C6 S1 A9 S/ Z3、稳定性:主要有PSI指标,理解PSI的定义及用法! S5 ~& Z% \/ V
    auc和ks的关系?
    $ m6 r9 k, C1 X* K有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。
    5 T% _# g, B3 \: p0 _* u- W5、模型部署# e2 g' S! n$ j' _

    3 H+ ?+ W1 ?6 T* k模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。
    8 @1 E2 T9 |* [$ y$ Y+ X' r6、模型监测
    . d0 N* S2 _% I* J  K' n* h+ E7 {, ^; t
    上述一些运营数据和风控指标的关注7 `4 C6 z) f+ f: T' M0 {
    三 写在后边
    . X6 @& x9 H" f% c* u6 o) \! u3 J8 ]6 u4 t$ j
      在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。6 ]  A6 m$ Y7 |$ c* Y
    6 {7 X; D' g; K8 l4 D, w
      总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。
    1 O- H& C+ f$ R' ]& Q+ W; A3 B% `  a) C0 S1 F* a* b
      关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。$ v( s( i  I/ _& h0 L4 l8 h. d( q
    ——北大经济学博士 香帅老师
    % X5 }2 }) i3 I- n4 P  风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。
    5 U% S- H9 K6 y( ?& h8 @——数据驱动风险分析之父 阿什·古普塔
    9 W9 A6 E: \) C% e+ C: {6 Z5 a( b8 _  别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。
    " p+ S; {: P: C5 L- m) B* p
    : p% b: [7 h9 }+ r- I5 E; E# C  总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。
    . M5 k7 o- G5 X0 T+ H1 ~
    4 R6 z3 ~; K8 @( {0 H5 x- y  ~' |0 t. j) T. B
    $ r; S) I3 s: R7 X& {/ |
    2 |% y( r; b: B6 E, Y. j

    % @% O) Z8 B- t3 m6 }. P2 U
    - l. I' C$ S# d" Z  M2 s3 H
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-6-14 17:54 , Processed in 0.388845 second(s), 51 queries .

    回顶部