QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3673|回复: 0
打印 上一主题 下一主题

[建模教程] 风控建模】互金 风控模型岗 基本要求及面试问题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2019-6-6 16:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    风控建模】互金 风控模型岗 基本要求及面试问题总结, v4 i, M7 q/ k; g$ A4 t1 R
    一 准备工作/ I1 v7 b+ ?# n8 X
    ( D3 z, j2 m& |( m6 p& G$ R
      根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:
    4 O! I. ?: a; k3 C. N# J
    . l: ~/ |$ C0 u$ ~2 G) j0 I7 K. O& }  科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;
    , Q/ n, T5 L# D% Q
    8 R4 y, F) ?- G. ]) I& d  非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:
    0 Y+ t7 T/ g+ Y4 v+ ?) Q4 T) C$ d- A  A; z, Z6 E
    前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。' M7 Y  x: n1 h9 f3 G( y" ~4 X
    6 @( f, l$ p& q
    后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。. N; k- S1 U2 C% ^' U! o$ a

      q8 ?3 }5 l7 E9 F左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。
    ; D# Y2 A; A; P* E# m/ \  x  O, ^/ v, Z' K0 O* ?
    右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。1 ^  W! l- V1 D3 W: R/ D

    ( `5 Y3 N+ c3 ?7 H" r& H0 l核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。
    3 ~7 m/ T7 q: ?
    / a; T% v8 j: H3 W9 @( J  所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。
    * E( M4 P! ^2 S; D- Y" o5 e8 @5 h/ G
    " }. E/ S3 G( I( M6 {5 _
    画个VISIO:3 U* `& ^: e% W  s. m

    / F% K  A7 s; ^  h  所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
    , E7 R9 ~6 u2 ]3 n+ D4 i
    1 K) ?3 E, I- g9 `  那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。
    ; s8 a, `7 i7 o9 B$ h6 ^5 U& z0 x# q$ U  F/ `8 {
    1、行业经验
    / u2 j2 E8 j* }% ]/ P* d* s, o( j' c
    互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。3 q9 ]* h* A5 V0 s
    风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。
    0 Q% H% P! Z0 l# |4 n- w2、知识基础0 P& N  B( Q' t6 R) O

    . U" |0 w0 t- u(以下详细内容请看笔者其他相关文章)
    ' h  C& D7 B4 F6 ?3 G
    - [! N, p9 X2 u' G数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。
    ( y0 d8 H% {2 s- K2 l- a统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。3 X4 O' w, f) p, P# q
    数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。6 g4 N0 X) Q0 T3 J" C& P
    常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。) l  u1 m2 X, g- t  Q5 b9 s# \
    3、代码能力, P: L. X6 D6 h7 }& P

    0 @# a2 i# d- e4 E' \5 u) ^python | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。
    * F8 O+ a! ?& U$ k(选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)
      [2 {% N# I5 h+ q& Y0 f3 C1 j) C3 P) J
    二 面试问题
    + H% R! o, z  m+ R* X* o' I- @4 k+ O1 P" y# s* U# u0 }$ m
    1、风控建模
    " |" t% b5 K5 i6 l; i9 {& r/ m, E- {) B8 @
    谈谈你对风控模型的理解?
    $ M! T  [- y, z% N
    4 z2 b8 X5 i$ t9 L/ i3 a  \+ r模型如何设计?
    + J; R6 j) n) M- d. i; a9 J$ l" m可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。
    9 K( J) \( z" a9 m" E
    " u) X- f  c: w: x, [, d3 P对客群进行细分建模的本质是什么?
    : r) o# L& [' V1 L8 h: u0 Q其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。6 y6 E: i% Q3 t; ]

    $ H. _; l" f. V! _( ]拒绝推断应该怎么做,作用是什么?效果怎么样?3 {& U- {4 u5 I, ]2 ~) `! Z
    (多查资料,博学审问慎思明辨)
    8 ^$ T+ K3 [5 a# y+ r* N* G0 @
    简要说明下标准评分卡开发流程# S2 V% d* t0 |9 C2 F$ i4 i
    (多查资料,博学审问慎思明辨)
    8 h/ y) v+ E  \1 z- C8 e" M! R1 S: P0 S- W0 P8 u
    2、特征工程" {3 g+ h: S6 t; o# \

    $ ]( Z" L' c: _$ ]0 v$ C9 i: j如何对数据做质量检验?
    " c, u4 B% x( X在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:
    6 z* ?% K! A' \5 t- W" ]1、数据分布。8 q* A+ C  ?. y8 o# M5 a
    2、数据集中度检测。
    4 V: ~$ z: {9 S; b3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。
    ; Q7 n; e- `" {特征工程流程6 d/ F9 z- |+ S* J9 u
    关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
    0 J* Q; [: a* ]: z) c筛选变量的常用方法+ Z7 N- t+ o- A8 B: f0 u  i( O
    筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。+ x: V) V0 \% `7 I) h+ T
    好的特征需要具备哪些优势?
    : T; w; @+ g9 [+ ?5 D1、稳定性高
    8 P( m7 J% _9 F. ^+ W2、区分度高9 S" D% X. ^5 v% y; B
    3、差异性大
    % I" |/ z! J7 N0 S; y4、符合业务逻辑
    : R1 ^5 j6 s* l( Y) z0 e2 i% q, t如何衍生特征?/ B4 Q: O* w+ i% a8 D  Q0 U
    变量的衍生并不复杂,通常我们会从三种角度出发:
    4 B0 T7 [( C, e) o6 X1、数学运算。求和、比例、频率、平均等。1 E$ r- k9 A8 q2 h8 _' n3 B3 V$ K
    2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。
    5 j& F% s' \& f1 r5 }/ E. S3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。5 E' d, f+ y0 M5 v% S6 f- m0 D) y
    衍生出来的特征要符合实际业务含义,并且要保持稳定。! `  z, h' g. i$ k& I; k+ _
    3、机器学习算法) T. H6 Y& W! o5 B; G
    8 y( |" w$ y  Z
    简单介绍你熟悉的几种算法及其在应用场景中的差别!
      l# z- z/ L1 Y1 `0 L" H* W一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。, X4 ^7 W+ \' Z5 k1 E' {
    简单评价几种常用算法的优缺点:+ f  _8 m+ ]  c8 J5 w
    1、逻辑回归
    + Q9 b. T+ d3 t; ^0 _5 h# g4 _/ `优点:简单、稳定、可解释、技术成熟、易于监测和部署0 ~4 v0 R1 M. s4 f2 T( J7 V( P
    缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高& A0 K. O, h) F
    2、决策树3 B% ?( Z/ G1 D+ C% ?; M) H
    优点:对数据质量要求不高,易解释% z6 P7 n4 ~  }. F: e# C
    缺点:准确度不高, J1 B4 \/ w. w6 u' U0 |2 `
    3、其他元模型
    " P! f5 S: ~) A/ c/ k0 p4、组合模型0 R2 E9 J  y; w* ?, L1 l8 J" M
    优点:准确度高,稳定性强,泛化能力强,不易过拟合* A9 @' l$ a9 J5 }
    缺点:不易解释,部署困难,计算量大
    8 z$ h% J* @3 x9 V0 ?! ~4、模型评估
    0 N# l: l& ?4 t
    8 C2 k6 x; F. v4 V' p5 P) R# |模型评估的常用方法?- H% C% d/ i: f' U
    从三方面回答:
    & u  x" f7 A& C; I6 c: ], o% j1、区分度:主要有KS和GINI指标,理解KS的定义及用法
    3 C, ?! I7 j* D9 j; ]/ i. y5 a2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
    ! \& I2 \% E; h$ u1 `" j3、稳定性:主要有PSI指标,理解PSI的定义及用法
    , U! a0 z3 ~5 Z$ b4 n5 jauc和ks的关系?6 U8 z+ t" y8 R. ^! }
    有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。+ o# F5 I3 ]/ ^" R& j
    5、模型部署) ^. l& ^/ r" h/ `

    , j1 q/ I7 Q6 K模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。
    5 a6 r$ G! G& z8 i6、模型监测: g- Q+ f  r) g5 b" O2 L9 [1 ~# F
    7 \0 K3 n/ ~& C3 s- D3 @
    上述一些运营数据和风控指标的关注
    8 w9 N$ M3 e1 A4 l. A1 U3 C三 写在后边3 |8 o6 P2 e: g8 x" ]

    4 B7 z! R, ?) \6 f( ^' s! S  在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。
    . W8 e0 v; F, Y' O6 }) }2 b6 R' b- [( p+ \" z3 N2 y" }
      总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。. `2 g, `& ^+ H' ^* n* g0 @
    ) Q) a7 z# e. q" O
      关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。' }( p; V! i% z1 n  ?3 v
    ——北大经济学博士 香帅老师
      Q0 i# A* @, ^4 O  t4 M  风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。
    5 o- ]2 g: E2 E9 g- h5 @, v——数据驱动风险分析之父 阿什·古普塔5 [; v/ J" |9 R! Y) T# z
      别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。# b% G8 s5 i+ }' t( q  O
    5 T. |: o$ j  ]1 g! B6 ]7 x
      总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。
    0 j9 X9 W1 Z! P8 _  C, t
    . \5 S6 U* M# A1 v' _  I5 e# g8 T  H! i

    $ \( \# v$ {% ^2 ~/ w$ D+ O$ ^& S9 ^5 {& i: ]. j
    8 A. [4 r2 g2 u. {" c6 `1 v

    0 x4 Q# B/ y# a" x- s4 ^" Q3 P
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-14 05:10 , Processed in 0.419145 second(s), 50 queries .

    回顶部