QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3665|回复: 0
打印 上一主题 下一主题

[建模教程] 风控建模】互金 风控模型岗 基本要求及面试问题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2019-6-6 16:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    风控建模】互金 风控模型岗 基本要求及面试问题总结) X! X* Z3 Z* T2 m
    一 准备工作7 u+ ^, v: B1 H

    " c* p4 _; ^0 Z  根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:7 O  d, V% R) x0 l7 N

    % f0 H) A; H& \3 b  科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;
    : G1 P2 V) m8 ~+ d% x. Q& o; H4 t9 f  I4 b$ z! p
      非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:( j5 x( d' P1 b
    ' B" N$ N. z3 w. y5 H. K
    前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。
    9 y( m' Y; ?7 }, X. j( L
    8 A  w0 ~% O6 z( j% }1 p( {后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。
    " f# ]2 u: _4 r$ b9 ~- k7 ~0 q8 U$ ^
    左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。
    7 f: H) L& F6 j- D9 _. [" t" q3 D3 A/ d# Y6 y1 J
    右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。
      I  ~) }% h- o) j3 k; {2 D
    9 h5 x& B  A9 `2 X1 Y( X7 N$ |核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。
    + b* r. x- \" i. x4 W! n
    * S" e  H1 B' ~+ N" W  所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。
    6 ^& x: J; ]4 ~" p2 n3 s9 G% M* I! \+ a- P

      [0 C; c9 \2 p2 ~2 j画个VISIO:9 B: u2 R3 }5 ^/ Q5 ?4 `
    - w% k- w* E) U! e, I- B: ?1 w
      所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
    7 L# {+ L& M! v3 e/ K  ?
    ; R0 I& b9 |6 o) h- Z" s  那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。' Q1 [( A! x8 o* Z  L  T+ I
    9 A. k6 F$ D, ?; v% ]$ G5 v
    1、行业经验
    2 s4 l+ U1 x6 o6 F: j# a1 ]0 v$ Q
    互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。1 y) X* s& J5 H% m# x! r, j: N
    风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。
    & v: F1 v' P+ ]6 w& y) e7 }2、知识基础
    3 A6 w0 G9 R+ I3 \
    9 M( l# O0 z' t" H' P(以下详细内容请看笔者其他相关文章)4 G1 s3 g+ L% W, a
    ) }1 i0 _9 T% V6 L  J/ V0 z0 n( W
    数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。
    5 g, P" K' \! M( \7 c9 S统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。
    3 ~, @2 @& i( C' l  A/ M8 z7 I' ?数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。
    , C: e) a# N- Q* j5 z2 k常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。" y+ W9 O: d. B1 s6 k
    3、代码能力
    ( I6 @! t8 T2 W
    8 I, V7 T, x' E2 }& b2 ipython | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。
    % \! Z" H1 O2 e, p5 I4 [2 `. u(选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)
    5 O- l; r& |% V2 z; n; N( j% d4 [& @& A% |# h
    二 面试问题# Z& o) `2 Y5 z% a) v- j8 D
    : |% \/ H4 E: L) i8 b7 E: I6 k
    1、风控建模- L7 U8 z  r0 c& z7 U
    2 D% M8 \  {2 L$ y* V
    谈谈你对风控模型的理解?5 ~$ a# e1 l6 ~* L4 e
    & S3 j3 n' V+ I) H" e
    模型如何设计?
    3 Y% Z. F2 w* t" V1 p0 r) q可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。
    ' t8 x2 f: `' u4 a
    / m2 Q. y/ e# b对客群进行细分建模的本质是什么?
    9 d7 _# {# v) L其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。
    - N; z% [" G% v2 r% x( n; O* ?
      `' U6 v0 a9 U  P拒绝推断应该怎么做,作用是什么?效果怎么样?4 O: O+ {+ P( J! b! X
    (多查资料,博学审问慎思明辨). F3 T6 h- w& {* F& Y: W+ H

    - h6 z/ ^# G* R% f; w简要说明下标准评分卡开发流程
    % i5 H* p  X9 y2 i3 B9 E0 \$ H6 U# d(多查资料,博学审问慎思明辨)
    1 z* G3 G6 ~% c3 I9 r; m+ L' y$ J6 @5 n% C2 Q
    2、特征工程# |. F  y" }  Z* p+ S

    7 H" Q6 C" G7 e) A  Y如何对数据做质量检验?
    1 l/ z+ J9 ?" E$ s% Q在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:
    5 t/ E, m( i5 `7 |2 O! \/ x" o8 [1、数据分布。+ n6 F9 t0 W  }1 q
    2、数据集中度检测。$ Y+ T) u' [+ {. G: d2 y& `
    3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。' w' p% d- e1 e, M! x. _
    特征工程流程' R+ Y8 f6 i$ `2 \) l+ w
    关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。! p  {# t. h, K; q7 G2 Y) V4 A  K
    筛选变量的常用方法; x& K" F. S0 u7 N/ T) I- w
    筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。5 u+ j5 g; \0 J8 p# [$ w
    好的特征需要具备哪些优势?
    * }! [5 C. ~5 B1、稳定性高* r7 ^% @! b3 \( S4 b$ u% d5 t
    2、区分度高' X4 ~2 D) P' ?0 X
    3、差异性大1 z5 `; E' v; Z
    4、符合业务逻辑8 d  U4 q9 d. J
    如何衍生特征?. j  P& K4 T2 y/ c0 |  b
    变量的衍生并不复杂,通常我们会从三种角度出发:
    6 S6 @% ^0 I$ q+ D, P; e. w1、数学运算。求和、比例、频率、平均等。
    % y" q- |) m) |2 R2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。
    5 P2 ^2 M; k3 |6 A' g! ~* s3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。
    / F3 W, H" ]5 R5 }6 T- E7 {衍生出来的特征要符合实际业务含义,并且要保持稳定。( H- C+ p) y4 Z/ v: }0 y9 m3 F5 ?
    3、机器学习算法
    ( E' l% o9 i: d- z( t! T  ]7 D0 ?7 T* E/ L# B* f7 K$ }# u. ~$ V/ X
    简单介绍你熟悉的几种算法及其在应用场景中的差别!# I1 x- D8 z# {' d
    一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。
    2 x% |' I2 v6 Z5 j, ~# y2 a& W简单评价几种常用算法的优缺点:
    $ _$ e, N' E5 r& X. S5 @( r1、逻辑回归! u  f/ q( F) q0 _! T
    优点:简单、稳定、可解释、技术成熟、易于监测和部署
    ; C$ S- I8 s: X' x& t缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高
    5 E+ J2 q: e" M1 R. K" [2、决策树0 `! h. C8 Y* t
    优点:对数据质量要求不高,易解释
    ' ?& T% _0 b9 z' z+ Z4 ^缺点:准确度不高6 z2 P; B) Y) D- f
    3、其他元模型
    2 P; v+ L. i2 s  K4、组合模型% n2 C6 t% x7 s1 }* X+ X
    优点:准确度高,稳定性强,泛化能力强,不易过拟合7 |7 d% O8 p2 m$ m: N. s) S/ b
    缺点:不易解释,部署困难,计算量大
    + r, b  s8 I- f4、模型评估
    1 |" t  u( o  h* p& N# ^5 f/ C) _8 ?; s$ |! s8 V6 |. V
    模型评估的常用方法?4 h! x9 S, N0 c. s- T* O* p
    从三方面回答:
    4 e( O3 R3 P3 D6 m. n4 B1 X1、区分度:主要有KS和GINI指标,理解KS的定义及用法
      H! m9 ~* }! U5 ~+ `$ R- e2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法3 t/ {* _0 l6 ]) W/ `. Q! K) p- u
    3、稳定性:主要有PSI指标,理解PSI的定义及用法. }8 o/ P3 ?6 V7 f; w+ A
    auc和ks的关系?
    ; V9 E* J- c( I% H有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。
    8 B- x! d& D, R6 J7 u& p: x5、模型部署2 {1 J; X2 L/ X% R4 I* y* E

    , [% V9 M% n7 t3 x/ U- e! N# p模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。5 D/ R$ F( B8 H1 ^* [
    6、模型监测$ x/ M* c8 E: l8 ~. ^8 _6 G) T: O

    ) Y8 g2 c0 H1 C( ^+ q  F5 J上述一些运营数据和风控指标的关注7 s& B0 u( e7 N5 z
    三 写在后边$ l$ F1 ?7 Y6 h6 f9 i9 q1 h
    / [' n9 J/ V" n- _2 h- U; {& ^  g! @
      在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。
    5 L$ ^7 n: x( X* [
    7 @7 q3 Y1 \$ e+ U  总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。3 a9 R- v& w# y' k5 ~9 F( X
    ! h' l1 F) ~+ S# G% t' G
      关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。+ {2 K5 J& W+ Y: k* u1 z. K2 K
    ——北大经济学博士 香帅老师4 K' E2 g/ \( H
      风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。* B, x) I6 O3 F6 P
    ——数据驱动风险分析之父 阿什·古普塔
      |; \9 z) @( f9 t1 l6 q  别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。% N) c7 ?. F+ A$ E6 t* ^0 S
    ( w; O4 r9 M7 [1 \/ O0 F
      总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。
    % u4 B8 X0 M1 f; j) i7 a; m) }  B: _0 ]% l1 W8 ^" B" T3 X' }

    ; k  r9 k5 q: H! H, P; S
    + y% }# J+ H9 u9 J, e7 ~
    + |7 X3 ~# Z+ W% a; i* k# f3 M5 p% j
    7 z3 r' L& ~2 k1 O9 X  t* q( ~+ k( [5 o4 M, y
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-11 06:49 , Processed in 0.336067 second(s), 50 queries .

    回顶部