QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3644|回复: 0
打印 上一主题 下一主题

[建模教程] 风控建模】互金 风控模型岗 基本要求及面试问题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2019-6-6 16:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    风控建模】互金 风控模型岗 基本要求及面试问题总结
    + `/ O: j6 N4 c# M2 V一 准备工作
    2 i8 \  [# L; }8 }, W: R5 r
    ) j$ d+ M5 Y. m* e8 F! _  根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:
    / \7 ?/ K3 ^, ]* `0 |; n8 Q# Q/ b" x% g# h& g
      科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;8 f3 L( I" M( ?: Z% A' o2 T" H
    ! Q2 p! y3 H2 \; A" U7 U+ R9 h
      非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:
    $ L% e0 w; ?( |  B
    7 R) t2 A$ n0 _5 s: [前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。1 E5 @! L& Y. Z+ O

    ( F  ]. o0 \, c# x; z后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。
    8 _3 x& v; J* A3 ]. T- o6 }  d; b5 n9 \. ?7 I
    左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。. d4 U, }2 j7 A. C2 W. [1 f) l

    ' {  ]3 k. b/ J右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。5 [* I; ~& V6 s( N
    # X3 W! j* b% Y7 s9 |
    核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。
    # I. E' s8 G! M8 [  X4 G0 r& F0 _2 [, \
      所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。
    5 r0 J8 M) u3 V9 X, Z) E; }$ C; \  V

    ' y& V0 |/ e7 Y画个VISIO:
    3 w- ^+ a# w; j/ u1 i# ^0 g! \" H, K3 V" A
      所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
    4 J# W, _/ o/ ?3 H+ I% |  M3 I# Y) s0 {% P& a, A/ Z' j
      那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。/ q2 z6 H5 Q$ O9 }# o  n2 ^' u4 L

    8 ]! s( t: f# a  q) d1、行业经验9 v3 |* P/ Y5 Y7 u
    , Y& ]! u, i- r; ~
    互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。
    7 `$ w( L+ j: U* s6 m' d% I) |0 w' E风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。
    2 U6 w1 z, u2 K  d! L2、知识基础) ?' I' U- d& s4 I  N' b) t' A+ C

    " B3 |* h$ y( f) W(以下详细内容请看笔者其他相关文章)  t* Z* b% B) A
    & i% e8 l& Y( |4 K
    数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。" E4 [. Q% B* A) I" _
    统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。
    0 G/ u2 O; ?( b7 X- t' N7 ^, G) U" e数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。/ b+ d$ `, G2 b5 {: F* y; E4 R
    常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。
    ! v* _( ?* E8 p9 l% c7 R$ D  R% C9 A4 Y7 c3、代码能力3 j3 N; {0 l/ K( z; T

    ) h  H+ Z' m9 H1 |# K0 zpython | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。
    5 T# o, F, T! d1 M(选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)6 d, ?. ?1 ]3 L) r

    ) ]1 h& u- B0 T, l1 x二 面试问题5 H6 A" }8 z  T( D! |3 ~7 |. K
    1 r( o5 {; ^4 {: K$ N
    1、风控建模" N5 y  R: F: `( X+ b

    1 L3 V$ y! M! L1 J/ M; ~4 Z谈谈你对风控模型的理解?
    ; F( r( I+ K& k8 [( g
    : j9 o5 I" E$ `: _+ Z& k模型如何设计?
    0 D" k- C0 D8 \6 T' C可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。
    - @. T. k9 e/ i/ M5 x
    3 I+ [& c: ]: }# ?2 w' ~: J; E对客群进行细分建模的本质是什么?: a) {1 |( y1 Y9 r6 z6 A% O# s( ^
    其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。
    0 y( T: x; @/ |3 l% N# \
    , N! r$ P7 u7 Z1 c8 p拒绝推断应该怎么做,作用是什么?效果怎么样?
    / |0 q$ k( m% J! ~9 S, U(多查资料,博学审问慎思明辨)
    9 z1 ]; D' j; z2 D, E" @
    ! M! f; ~( t8 f% r, U简要说明下标准评分卡开发流程
    $ K+ z# [. {1 d/ g; {(多查资料,博学审问慎思明辨)
    ! e3 l6 a% k5 _
    0 N; e: x% O' v9 A/ t2、特征工程! c; J( r8 g! c- X# O! v% G! {
    + p. x5 {( J- w: c/ N$ g' x- z0 w9 W
    如何对数据做质量检验?2 z2 G) I* p5 ~" i7 i! B! B, M
    在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:
    ; \/ ^. O1 }! P' s, J7 O  N1、数据分布。
    9 o0 w, d- L* y, a2、数据集中度检测。" Q# b- t- @& a: A( s) N! b' N% t4 y
    3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。
    * [5 H. x$ A; z特征工程流程9 g) Z0 A+ ]  a4 v
    关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
    8 o9 h7 F7 C, A筛选变量的常用方法
    . q* ]) }1 q4 d7 V1 w& g筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。
    ! p! ]5 j& a/ Z3 L1 \: n) c好的特征需要具备哪些优势?
    9 m* N' p: L6 U' |/ Y0 Y+ g6 z1、稳定性高
    ' [  P8 v$ W4 K) [. l2、区分度高
    ( r/ }) t% F) u4 t# d2 Z6 m" Z( W3、差异性大
    ( N& V. {" w6 B. n! g4、符合业务逻辑
    % T2 g( n2 f( x( [7 I) O2 g, h6 a) A如何衍生特征?
    1 n0 M9 }' N( J2 N- ~变量的衍生并不复杂,通常我们会从三种角度出发:
    " c, _, a3 f2 \% a0 v1、数学运算。求和、比例、频率、平均等。
    3 |6 E8 t1 R$ ~2 B/ s2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。2 K6 m" E* A0 I, Z3 N# `& N
    3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。4 m! E& w, S$ X, y* D3 n3 w1 N
    衍生出来的特征要符合实际业务含义,并且要保持稳定。; O* Q$ V2 [! e4 ?
    3、机器学习算法7 f& s1 ]% V$ h5 m3 v* U
    , r3 t- Y/ A; n5 i- k* J
    简单介绍你熟悉的几种算法及其在应用场景中的差别!1 |3 F* W* |/ A- Q8 L6 Q
    一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。2 ?" r  m7 a- K& k* P
    简单评价几种常用算法的优缺点:
    & n/ x# b" _* [1、逻辑回归/ B/ d/ R# S* p  \
    优点:简单、稳定、可解释、技术成熟、易于监测和部署/ g4 n9 t$ C8 J8 C- o% @% d9 a) z
    缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高3 s- G+ i5 P( n6 e- t% F' u& m  s& U) ?
    2、决策树
    . I$ g/ Z- |; G- D7 ]. R. E4 Z优点:对数据质量要求不高,易解释- J2 `+ C2 f4 r
    缺点:准确度不高
    4 R+ p: I- s; \! s3、其他元模型
    & o1 J8 \1 }" X8 K6 K4、组合模型
    2 ]$ ?& C) Y* S& {6 }优点:准确度高,稳定性强,泛化能力强,不易过拟合
    1 s. P5 c7 }) L" T- z缺点:不易解释,部署困难,计算量大& k: T3 g4 J: w6 f- B& O* a
    4、模型评估$ ~5 B9 n. ]) ~" O3 a! Y
    ) p) R1 v/ R0 {! a3 O8 x$ x
    模型评估的常用方法?
    3 b# ?/ ]( h4 b9 |, Z7 D. w从三方面回答:
    " H+ f9 B) G# j1、区分度:主要有KS和GINI指标,理解KS的定义及用法* ?6 t) D  H) q% |
    2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
    2 t$ i" {( k, h! N6 J; |3、稳定性:主要有PSI指标,理解PSI的定义及用法
    , [8 ]% d$ N8 l9 {% C# Nauc和ks的关系?
    * G' n) {% X! J  z9 b有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。
    ' l; \4 q! |# F5、模型部署9 C$ R' n8 S4 @9 d+ }7 E" B
    9 a1 |8 E3 C9 J7 j
    模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。
    ; H6 b" R$ d! A, n* i5 s6、模型监测
    8 n+ O6 ^8 i  J$ x" |, F2 @; p7 q& U5 e- S$ J4 u# W# [& Z+ `, N
    上述一些运营数据和风控指标的关注
    * G( u( K* }/ v( T& u# V- f$ x! F8 _三 写在后边
    0 `8 u2 e, T( [1 r3 U# a
    2 w9 c; W" x) c7 G  在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。6 k8 m' p6 r/ P9 Q

    5 L. v* Y' Z3 `1 {7 F) J  总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。1 }& _( g* c# T2 p+ @
    ; m) C8 Y- g5 l6 n; x# }
      关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。
    7 E. u; |8 h( |6 Z8 l——北大经济学博士 香帅老师
    1 F0 A5 K7 F; Q. N  风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。" J2 L  g' w3 a! O+ d
    ——数据驱动风险分析之父 阿什·古普塔, m/ \  J: M1 a! U/ \* Y. W
      别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。
    6 H  D, _9 D$ z) k. i" ^1 x# B( R' x; m. \% M+ b
      总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。& h; Q+ H# X4 D- O6 @4 n8 t
    ) e. ~9 |# D; H+ s* C0 T" Q
    # p- ?0 j7 j7 U! @: R# z

    ( N8 n* I8 ]! Z3 l' T
    $ i. a' E+ h2 D) R3 P* R/ ?1 F% e7 \# ?+ o# a3 Y( w

    ) S) \$ |' K  H0 H, E" L9 T4 ?
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-15 16:00 , Processed in 0.555168 second(s), 51 queries .

    回顶部