QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3640|回复: 0
打印 上一主题 下一主题

[建模教程] 风控建模】互金 风控模型岗 基本要求及面试问题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2019-6-6 16:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    风控建模】互金 风控模型岗 基本要求及面试问题总结
    ! s9 m/ A3 l9 c9 p" b一 准备工作
    5 b# Q5 L* M) X: v8 j+ o. w7 ]. a" N' \$ M( @
      根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:* n/ p% m  u  V+ _2 N% M) o
    ( h: f  N& ^5 n0 G& i& d
      科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;6 k  C" i' k' y* H/ T+ u

    # g- s2 T5 z# f5 i+ t  非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:# I* }& w# A* c
    & J7 Z/ [# p1 ]' L. X
    前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。- ?( I5 f5 O  o/ e

    ' Z0 |3 I4 X3 f5 i+ y后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。% R2 w# j0 e# B& A2 A

    ( r8 g4 a$ W3 x8 Y左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。+ |5 p) ^) z. w; ]. e3 ^

    1 G$ u  [" @  N( \& @$ |! i) n右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。
    9 g7 R5 k9 L  g7 H, ^4 [
    : }5 K6 r' u2 V# P2 ]- ~核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。$ R. R' o7 b' W  F/ L' Z

    3 Q4 e9 K& G0 P- O  ~6 D8 V  所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。7 C) ~3 ~# Y+ r$ X0 k# o2 ]$ H2 e

    7 s( Y2 M  H/ U) X$ H' L: J5 r1 G% {: o
    画个VISIO:
    + s# @  Q  ]5 O1 ^
    . Q) |; F6 E3 [, ^" Q# I" x' R$ J  所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
    - Y6 S/ f/ Y+ ]8 [  K, T
    7 H8 Z* N2 O# K+ s) w  那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。
    0 R1 i. }, k! g: o  K/ |* Y5 ]1 X8 \2 I# m) w
    1、行业经验4 H1 t. Y5 c+ M
    * A) n/ H, y" r* N. D. a8 H- N
    互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。' E# g) ?: `/ |8 K. x) K
    风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。. o" X! h3 S6 o, l; T* t8 {
    2、知识基础
    3 s7 V$ ]! g) H5 u* K( T+ b" U' {3 j, J# d, b/ B3 T
    (以下详细内容请看笔者其他相关文章)7 ]5 x% T8 T4 r& l
    9 \6 j8 \: n4 U" }% F, S7 [
    数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。
    - G- i! e1 ~, p8 ~' C$ w- J1 a% U统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。7 c& F, X% h4 Q
    数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。
    ) B; g$ S. v! D) Q7 b$ ^常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。
    2 F# B$ A% _7 v0 `; r! X0 k2 O3、代码能力
    ! c7 y( K) G" K6 w5 _
    0 t! P6 g  Y: R1 _- [- J, t0 {python | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。
    " c  ~8 z  K9 r: K8 |(选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)
    / T" Q5 v* y( \
    # I! y/ J0 M( z( L5 `) H" u9 T二 面试问题
    6 M6 _9 Z5 ]4 d" i5 w" |- q9 ?
    8 \( X2 w/ ?- s2 g, J1、风控建模0 l5 e5 x) U! ~- W9 P- ~

    & M, [" M+ B' T0 e, n) q. Y  T! U谈谈你对风控模型的理解?4 Y% ~8 {2 W" `( d4 t9 q

    ) e+ j4 M  I: Q6 R( t) e模型如何设计?% d+ S- h$ y" M8 O' `$ E
    可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。
    # D  g- a+ W. v; r1 h
    : `) e8 K: [/ U对客群进行细分建模的本质是什么?
    8 o4 v8 b- k* J其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。( ~9 B, w" V6 o* ^% j' o$ K
    . t; H. S! Q$ N2 V1 P$ M
    拒绝推断应该怎么做,作用是什么?效果怎么样?
    2 N/ O) v1 i" x6 k7 x(多查资料,博学审问慎思明辨)
    $ @# G& T$ z, V
    : B1 y: x6 x! w7 O简要说明下标准评分卡开发流程) `8 s0 I9 h' o; \2 f3 I) U
    (多查资料,博学审问慎思明辨)
    * K/ h6 O+ u) s* A' X2 t
    1 `3 s/ v4 o5 {; P% W+ h2、特征工程7 G: K( d6 y" o, I/ j
    0 A/ I) K# s6 {; S. R. `  s% `
    如何对数据做质量检验?" u  a* L% M# D. I$ s& C
    在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:3 @8 |* G& W5 H, Q
    1、数据分布。
    8 C' ]4 u, @4 g& E9 x2 \2、数据集中度检测。
    4 V; ~' f5 W% O' j3 d; E7 R- Y3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。
    ) V* V/ ~- P( M- Q4 L特征工程流程0 F( ]& B9 O! C
    关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
    6 j5 ~( O: w  j. ]" v% o! a筛选变量的常用方法
    8 D5 }; Y- j) t筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。
    4 F9 _- C8 M1 @7 c2 L% x% A. D好的特征需要具备哪些优势?
    ; P0 |* t% j  r1、稳定性高
    / T2 x8 {4 s- P- w1 w* F- g5 k2、区分度高
    7 |% k* T# d8 O3 ?$ L3、差异性大
    4 O- X# R+ h+ s4、符合业务逻辑, B, c  L, V& o- M7 r! H
    如何衍生特征?
    ; n4 k3 b2 W$ n, T) _变量的衍生并不复杂,通常我们会从三种角度出发:$ s$ h/ a$ q/ ~* L2 W* C
    1、数学运算。求和、比例、频率、平均等。; d5 o; P, \+ f4 _( |
    2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。3 F* e7 b0 M" X; e( \+ v
    3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。
    : f/ L. a! G) K衍生出来的特征要符合实际业务含义,并且要保持稳定。
    ' f. W4 b1 X! S3、机器学习算法  G8 a2 \+ z6 c0 ^. W! C

      A9 S) P. p5 g) K2 U9 U简单介绍你熟悉的几种算法及其在应用场景中的差别!/ ]( }" J4 h2 N; j2 G2 ^
    一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。
    # g" M0 l7 m3 C$ \' B# Z4 H% Q简单评价几种常用算法的优缺点:
    . K. N; z1 F/ `/ }. x' m$ I3 A1、逻辑回归
    3 @4 _8 @: z9 w  w2 b优点:简单、稳定、可解释、技术成熟、易于监测和部署
    ' q$ `% C. V$ }, t+ z) y' g/ G缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高
    % W  C! J  i( _& z8 H" y/ ]) b: |2、决策树
    3 {/ M/ T4 l) e' g% w$ x: e" z优点:对数据质量要求不高,易解释
    " E( u) G( n# i) p8 d# F% P缺点:准确度不高
    7 h# n& ?7 `" C9 o$ u6 R9 |3、其他元模型
    7 h2 ^! H. o/ S) R1 @0 t4、组合模型2 |9 j, g: N' ^# z; t8 a$ k; i0 I
    优点:准确度高,稳定性强,泛化能力强,不易过拟合" O; \4 Y/ O$ a) }
    缺点:不易解释,部署困难,计算量大& E8 C" L& P' J5 T
    4、模型评估
    - ^. n7 H8 h9 o) ^5 v5 O8 J$ J- W/ e& n& ?
    模型评估的常用方法?
    0 p  w6 `2 M( x从三方面回答:
    / s0 ]" Z( I5 E& r1、区分度:主要有KS和GINI指标,理解KS的定义及用法
    ) A# i# h! s6 n( z1 L) c$ F2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法/ a/ e  }8 A1 K& G( v
    3、稳定性:主要有PSI指标,理解PSI的定义及用法0 p, c: E6 H9 @
    auc和ks的关系?
    8 Q2 M: ~+ u0 A7 M- H: m* L5 \有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。3 z, |$ F2 ~" \- h' X
    5、模型部署) ~- _& [0 G4 S) ?: i+ }# Q% c

    - R9 O8 U7 z( s模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。& n4 `$ u  Z5 \1 x
    6、模型监测; q# r( i2 s' P7 N9 k
    : j8 S! l4 N/ s. U) |9 P: ^6 z
    上述一些运营数据和风控指标的关注
    ( g) J8 N9 N1 K$ @1 L. U三 写在后边
    7 L/ F1 i# s) y( @" d" @+ W
    # P1 W' q# F8 @  在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。
    8 O9 o, j% F, H% y2 o; |& V( B2 L& O9 \$ O* E% w" b& w
      总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。
    - I7 D: Y* _: E& v6 N6 Y$ `  ~6 g+ c) d/ k' g% h, g
      关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。
    ) w" S7 u7 o, [: W——北大经济学博士 香帅老师
    1 r7 d9 Q- P$ e' u. E  风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。: M$ e( ]3 t! W4 _1 F
    ——数据驱动风险分析之父 阿什·古普塔
      A/ O* K( ^( j; K% y  别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。$ ]/ H! A* h: ~( w9 }6 r
    + A. m% G* C/ R9 `$ `2 k
      总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。
    6 V+ O8 f$ x" |' }$ i' f' e
    ' Q4 {! X, w0 x4 s# s8 K
    . s: m; R5 a$ h' D5 e, m$ @9 C+ i( p
    - t6 j9 C; _4 v: T( C! M" O$ J
    + m5 H4 [: I" w, s, X$ G. e) e$ F' z7 z; E6 g! X7 Y
    % P/ V3 ?' A2 X; [. A9 y# M% V1 r
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-13 23:26 , Processed in 0.434948 second(s), 50 queries .

    回顶部