QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3664|回复: 0
打印 上一主题 下一主题

[建模教程] 风控建模】互金 风控模型岗 基本要求及面试问题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2019-6-6 16:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    风控建模】互金 风控模型岗 基本要求及面试问题总结
    % J- B4 f8 ?% A$ K一 准备工作& _) ?/ N7 F: N7 u% d

    ! b: t# Q& y. J6 }  根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:/ ?( s7 A' ~7 F% P3 H" n. n

    & m$ G+ l0 [/ C; y# {  科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;% h2 S6 K5 z' Z, a. U

    / u2 \0 I$ i4 E' C  非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:5 N. q( H! i+ I% `$ x2 z% e9 }( b
    0 P9 B) p7 }% H3 P% w; r$ {
    前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。/ d6 m  Y) x8 [6 i6 c2 Z

    ) c; a! f( c- D5 @; X* u: b后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。
    # ?+ G. M# g- X/ w
    , N5 S* |  x1 ]3 q3 v左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。# Y' {" K' o& U  w  e& u. C

    4 S; a9 ~/ x6 [! Z3 {/ a8 o: [右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。
    & S% T' Z7 \5 Y& X' T- o$ |
    * y4 V! P8 I% d+ W7 v4 M/ V2 A核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。* w. \% n2 n* {; I. ]

    . `/ J- ^3 C9 w; h  所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。" K: U9 O2 l7 a; P" Z9 I5 J; c
    & u) T  m* _2 i. N: o

    & T- G/ m2 {( N. ~; U, p  A画个VISIO:
    7 M+ {+ v) |+ z- f, t9 D( ]& L9 W2 }; Y
      所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)# ]7 B8 d& F! _& D* }0 `9 X- _

    + d( h; g9 }% g( ^5 ^* {2 H  那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。- f. A7 j: s; P/ \

    " O; f* G+ a: k4 b" _. B1 x1、行业经验
    % [9 g  w7 m# ^! V0 d5 c4 \+ w( [9 S; T4 e3 e! i6 J2 K! c" ~
    互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。
    ( v( ], H% [2 O" g% @( W风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。
    9 N) R; U1 F" `; v- \* T; z" A2、知识基础
    / Y! b/ y  F6 e$ K4 L4 l4 q0 F
    8 E$ v- |& U8 t! A(以下详细内容请看笔者其他相关文章)
    1 w2 q" h/ B1 k) N" H; S& L1 o. ~! m: _5 }! A9 [% \
    数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。
    " {, J7 T- s/ F) m# c- @& C: [统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。
    3 g8 i" X0 U: h# m+ ]数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。: }0 l+ t. J% s3 A  a, b( V2 P2 r6 l
    常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。
    # H1 J8 N8 b! ^; C; E: [3、代码能力. g, U) p7 z& M* _2 {7 C
    " f' S' ^. {- X! R3 D
    python | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。, b5 ?4 D: Y6 }) ^4 y
    (选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)
    2 f, B5 }6 V: \0 E$ J2 i- V; G9 V6 o! ~5 z$ l. v. u
    二 面试问题. q3 {  H& |) S# @( }1 s
    , P6 v& J8 F# c' h6 x, L1 V, y
    1、风控建模
    1 _" ?, [, e8 O$ ]" M7 t
    8 Q0 P2 X( T4 F& |. u谈谈你对风控模型的理解?) P% \& V' s7 W# o# @5 q. ]) f

    8 ~* S$ Y# V1 F5 @+ U+ _模型如何设计?2 D5 s2 \: z$ I2 k! i: `- e, t5 Q$ X2 w) N
    可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。
    ! s# Z$ J& Y: E  O# F# Y3 I) R6 J
    对客群进行细分建模的本质是什么?
    ; W- |$ C" h- N1 {0 ~其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。
    , n. z  y3 ^) h) T( _9 h
    ) _* F( v! n) [$ f; R2 x. x拒绝推断应该怎么做,作用是什么?效果怎么样?% C% M- {4 M. o" B/ i+ `/ l
    (多查资料,博学审问慎思明辨)
    " G4 J3 C; O0 T- y4 u2 \
    - ?# C+ e: D3 ]% V简要说明下标准评分卡开发流程
    4 L/ f1 y/ K5 u  ^! u4 ](多查资料,博学审问慎思明辨)
    $ W; m' a$ O1 Q" q: m6 P9 Y; p6 @9 q- b* q0 q4 K+ d
    2、特征工程; h  X) {! e# g
    ' f# r" x7 b% Q' N- A
    如何对数据做质量检验?
    4 C, H- d( m# G1 V6 Y! E. m9 D在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:9 `/ Y, f) y3 @& q
    1、数据分布。
    ' j" ], l. G" @3 E: c  r( D- H, d2、数据集中度检测。! P8 [: X+ ~  x$ r9 C: E9 C
    3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。. j9 O, _6 w' w! H  I. b+ }/ c1 F" l8 j
    特征工程流程" }6 S! j2 A( C8 v
    关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。1 i+ B" b  G* h
    筛选变量的常用方法
    5 ~# ^/ G* Y& O4 H" w筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。; [# v2 J- x6 v4 u
    好的特征需要具备哪些优势?
    1 d% ?$ }+ b0 U4 s1、稳定性高
    , Y& Y( \, E6 a  r3 I2、区分度高
    6 ]' {4 V, a  e2 ]% @; a+ Y3、差异性大3 Y# W, R, _: C' c& v; ?
    4、符合业务逻辑
    1 p. w1 e7 f, M+ n) X; U- Q' p如何衍生特征?
    ! |9 _% T" K% ]; u1 P7 H0 D变量的衍生并不复杂,通常我们会从三种角度出发:
    - _! Q5 Q2 ?5 o' V/ }* q% c1、数学运算。求和、比例、频率、平均等。
    . Z5 W" q, W7 h# r! i2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。# e" O0 O4 g2 ?3 w5 k6 I3 c& K# K
    3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。* L: Q$ ?/ S4 i: o. N
    衍生出来的特征要符合实际业务含义,并且要保持稳定。
    2 a0 C2 u6 Y/ V1 D3、机器学习算法
    6 K+ Y" z: J( |0 C( l' z3 H7 O' o: H, o% w2 D
    简单介绍你熟悉的几种算法及其在应用场景中的差别!0 w1 G( D/ V; B- u
    一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。
    & ?4 d% S2 m) [7 k- m, u简单评价几种常用算法的优缺点:: L7 r# L& @5 r& c+ X2 }
    1、逻辑回归$ l- e- Q1 K  n  z& ~' @1 w9 D2 G
    优点:简单、稳定、可解释、技术成熟、易于监测和部署! R% E) F5 T! Y, K4 X3 B
    缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高9 M; o/ k# O! O% v8 `6 F
    2、决策树" o2 }( ]: T2 B5 b
    优点:对数据质量要求不高,易解释
    ' q2 _% g8 B0 D, ?2 U' k缺点:准确度不高4 U2 N/ |7 }' P* t! ?: a1 a3 z
    3、其他元模型; c# p6 j. t: z5 ^- o$ W; Y8 R
    4、组合模型
    + }$ G  A. [. \优点:准确度高,稳定性强,泛化能力强,不易过拟合3 Y$ x: t# D* N* N; V
    缺点:不易解释,部署困难,计算量大
    # y4 _9 w& u( u8 N" e4、模型评估2 U% D4 j" u6 t0 O
    ; F3 G1 R5 S" a" E/ w) s0 F0 H
    模型评估的常用方法?
    7 T$ \7 q% q. k) y6 i; k, p从三方面回答:
    0 M  u% Q: A$ M9 r1、区分度:主要有KS和GINI指标,理解KS的定义及用法
    8 v  g/ w7 i' @2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法/ ]6 l0 V7 L3 Z; ~' A! r
    3、稳定性:主要有PSI指标,理解PSI的定义及用法
    ) t  q, s" H  A( X. a* `auc和ks的关系?
    " x5 l1 \6 @6 C6 N1 L有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。$ n! c' {; N" U3 b
    5、模型部署# K0 C5 L! @8 a& N  D; a2 j
    ( r) e: |' i2 B1 D' v
    模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。* w& M' Z& R; `9 m0 c: x
    6、模型监测+ r* T' d# A+ p& K" \

      m+ ]( O7 A5 z: \上述一些运营数据和风控指标的关注
    / t& d, x5 {5 U三 写在后边* g$ H$ m. V" S9 l" r3 Y# C6 k
    " k. u) s* s/ H/ |; B4 h5 s7 r+ C* m
      在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。! w8 U2 Y! S! }( h* V) |5 i+ W

    # y7 x( C& a8 W0 o! _8 w% V7 @% ]  总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。
    6 B; F9 r6 I$ |9 A* m" v& ?1 g0 M( a& U  O& g7 [- u
      关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。6 D. ^  ]  m( T* d) W9 r7 j
    ——北大经济学博士 香帅老师
    ! o9 S+ S4 K2 `; z) s* g  风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。
    2 W/ q: I2 B  u% A# D/ Y——数据驱动风险分析之父 阿什·古普塔
    2 T; F$ @8 ^  {  别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。0 R/ J8 ?) s, s( I
    ; P1 i4 T7 h- d$ _5 c. P, y
      总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。
    5 X$ e5 N! h) [
    $ y) n' r( j2 w  [& o: t
    7 U  w9 v) n: |6 I' U
    1 o; r- W5 S  m0 b( n+ b
    9 S3 x. k# g; \2 Z7 l/ Z2 w4 G- h+ e7 Z4 \; D. o' L
    3 s: F" A# ~) R5 S
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-11 05:30 , Processed in 0.270111 second(s), 50 queries .

    回顶部