QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3638|回复: 0
打印 上一主题 下一主题

[建模教程] 风控建模】互金 风控模型岗 基本要求及面试问题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2019-6-6 16:12 |只看该作者 |正序浏览
    |招呼Ta 关注Ta
    风控建模】互金 风控模型岗 基本要求及面试问题总结
    6 s" v$ I& t4 Z4 ]一 准备工作
      [+ P3 N0 Q; ^% k- o& N- J/ X1 z. \; B; n& O- {3 c. k) i
      根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:  K$ g6 f( o" C( V% V3 p
    5 j- S, N4 K* l! u* w
      科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;; ~+ d) r4 w8 r- g

    8 _; Q' k3 d8 y5 ~( n4 ~" q! B3 @  非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:
    ! c& q4 `7 Z1 |
    % i1 B. j7 ^( ]8 [8 ^3 P. d前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。
    9 p; R8 q. i! ^. J  P% I
    $ ]$ i+ G- V6 a' x& G2 P7 p. X后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。( P$ g: d, E" L% c% W( C: M

    8 |5 O$ D, o% m/ m" B" ]4 e) n  N& M左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。
    6 }3 z  x, s$ m: ^+ J5 C- ^1 X8 y
    # @% C6 }0 ^$ k" n- E右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。3 k, U) S) g  [8 G, h
    7 w/ H; Z0 C& p0 {
    核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。
    4 D# |+ B# g+ _3 [3 }
    5 P5 \3 R% P  c9 Q  所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。
    & R4 x0 G8 ~/ S3 Z3 C3 X; {
    % `& n% ^5 k- ?
    / J4 o3 m# e* v  `, x/ m- W2 K画个VISIO:
    ) ]8 E$ p) |' m0 O& x
    8 l, M# A9 P! a6 w6 H, ~6 C/ ~  所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
    $ H" A4 _( a2 |8 U" I. `9 R" B9 ?' \9 \
      那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。; Q/ c% p9 _+ B

    0 C) T9 ~! h, A1、行业经验
    , }; x7 x# I% d9 s' x+ I2 C3 T- O, F* [- l3 k
    互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。) m) r9 _) H, s. Z6 h1 ^# q
    风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。7 K* ?' Z: |7 \
    2、知识基础' S& y' }# d9 k7 T) Y
    1 f. `. [6 W5 j9 q, ?2 Y2 n
    (以下详细内容请看笔者其他相关文章)
    ' c  g9 f( a2 ~' V6 u/ E
    9 p6 n. D$ x  ]6 D# c7 U数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。
    * s1 X- D/ c2 h5 f: C统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。
    $ {! V, ?, A# a; D6 s数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。$ w) }& @' K: f7 ^! d  _& Q- ?
    常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。  {$ u4 T3 i7 n
    3、代码能力
    ( d" @3 a( N* h& ^/ }# B. u( L# W  q+ V; P
    python | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。
    4 ]- _2 k4 ?1 F9 L- Y6 z/ T; u(选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)
    7 g5 U' W  P9 y, g' Z* r$ c9 `6 @8 B5 @4 N
    二 面试问题( o$ D2 K# X3 \- E+ {: O

    - Q& k3 T) O( {1 Z2 F1、风控建模% J! g4 `. x1 D  d% d# N
    # B5 d8 ]5 c8 L/ \% o! i
    谈谈你对风控模型的理解?
    $ l% b/ |: s+ A- z. a. z" p( N; {
    5 ?# N, n# M( z/ W! y模型如何设计?
    5 G6 L2 s" [3 |. m9 C3 F" i3 I可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。2 G* P  f; d4 W. ~

    - N3 W# ?1 f, c' o: j2 [对客群进行细分建模的本质是什么?; J) `7 X* V- U$ d) ^: I3 G- e
    其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。
    4 N) Z. D& K+ ^; A8 F8 O; }* a9 S; i; m4 w6 e
    拒绝推断应该怎么做,作用是什么?效果怎么样?/ K6 }2 V* ~( m! s
    (多查资料,博学审问慎思明辨)/ R7 @2 ^8 g+ e' u; E2 u
    + M$ {9 k# H6 K
    简要说明下标准评分卡开发流程
    % h4 v: F' ~3 O) Y4 G) ~(多查资料,博学审问慎思明辨)/ ?' k, a4 D, K
      Q8 e% c" b! g, R
    2、特征工程  D2 H3 ^5 @% d6 R

    / }& T4 y$ S: U4 f) ?如何对数据做质量检验?
    0 p# R! r5 K5 W7 z, h5 S在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:1 n) h' @0 M0 R6 y
    1、数据分布。3 \4 o9 B) {6 T* ^# P2 F3 v8 _
    2、数据集中度检测。
    $ z% y. [5 P4 P# O* y" F3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。
    - U- ?" ]- c, f7 ?# B0 Q3 [% ]特征工程流程8 e/ w/ O( C9 [; }/ Y0 \
    关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。, @. H) a3 T% L9 ]8 F* r# S
    筛选变量的常用方法/ T' V( k( R; `; T1 ?5 e9 W" D/ W
    筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。$ V7 s5 B9 F' [3 T8 c( u; @3 J
    好的特征需要具备哪些优势?" M1 Q" U" X9 [3 U
    1、稳定性高/ u4 T5 k1 O$ p
    2、区分度高
    2 {0 K3 e9 t/ b8 ]8 _: n9 A# X" L3、差异性大( K- ~' J' D$ V2 c, A. }" e  Q
    4、符合业务逻辑/ ^: g! f0 W- p) m4 G3 X/ H
    如何衍生特征?
    " \/ T" \4 d$ m! c8 R8 D变量的衍生并不复杂,通常我们会从三种角度出发:
    & V1 r5 [; w6 O1、数学运算。求和、比例、频率、平均等。
    9 w; X  F& d* v9 w& V2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。$ h, H" g- t- C8 ~; f
    3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。# w6 z3 Y9 M6 h$ v, m! ~
    衍生出来的特征要符合实际业务含义,并且要保持稳定。; k+ a( F; K  Z  }. P& [( ?: L
    3、机器学习算法
    9 @) T" n- O8 j$ _
    / T( y) _0 z; @0 t5 o* L简单介绍你熟悉的几种算法及其在应用场景中的差别!
    1 P) ^/ k) X# u  n一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。
    / x2 X9 Q; t& `简单评价几种常用算法的优缺点:
    ( I1 N) m3 Q4 l5 w0 u1、逻辑回归) Z9 V2 |( D2 e+ i. @0 k
    优点:简单、稳定、可解释、技术成熟、易于监测和部署
    ( F# Q3 b: v1 D- w. S缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高0 {3 Y% _1 K( ^& ]& j) p# a* W
    2、决策树
    0 I# g3 U0 J1 J$ g1 H9 R' A; b优点:对数据质量要求不高,易解释  S( `  d$ q, @$ f
    缺点:准确度不高$ @# K! q& O  }( C
    3、其他元模型
    $ M: D9 `6 A- |( e( D! R7 l4、组合模型9 C5 N7 F' h8 K* a
    优点:准确度高,稳定性强,泛化能力强,不易过拟合4 u5 W9 E' J# G6 Y; a5 o, u
    缺点:不易解释,部署困难,计算量大# F+ l! E3 n" Z/ U, u
    4、模型评估6 i, ?) ?+ z7 j0 C+ w9 y3 m

    7 g3 @& u, [! L& x  k! p模型评估的常用方法?' p" J+ H, x6 F
    从三方面回答:" N! h2 G, G& x0 M
    1、区分度:主要有KS和GINI指标,理解KS的定义及用法8 O) x" |; a5 E( n7 F  ^* _! j
    2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法" \( ~; B* ?: N7 S2 e# d  k) W+ [
    3、稳定性:主要有PSI指标,理解PSI的定义及用法
    1 _5 C. T. p" d0 qauc和ks的关系?5 W+ T, L& p+ E# f
    有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。; t# W9 T* d6 j' s: H
    5、模型部署
    ) w: }- h% o3 N( B  n' B) M
    + r) ^, ?! I$ q模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。. }3 d( ^/ T# U& p0 t9 |  L
    6、模型监测
    5 {5 L, [7 C  [$ g7 T
    ( |3 V/ [5 ^5 l) Q5 N1 ^# X上述一些运营数据和风控指标的关注! O4 I- Q6 |, c
    三 写在后边" O# _! ?& u9 c& h( e0 y$ s
    ; N+ P7 Q3 ~+ Q; K1 ]7 T3 `
      在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。
    7 _3 W& ?% k/ o( k# \) T  i; f/ E9 \8 m& J' ^, T4 Q7 u
      总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。
    - X2 s$ O8 T; z( X3 Q
    - f/ s+ K; z3 q( U: `  关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。
    - l4 O; J/ z- s# n2 S——北大经济学博士 香帅老师) g: E& Q2 b( f8 _& y
      风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。
    % Y+ B. q+ ~- m——数据驱动风险分析之父 阿什·古普塔3 h  A7 O% W7 b, Z" _7 A$ _
      别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。. z& q' o: I# A8 F# `1 }, @
    ) j+ [. z) c. ~
      总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。5 d: v4 N( y9 u7 E4 C

    / \) s; _* [- O, [7 t
    & C- p, e* c! g+ m) ]4 \( H
    , P0 s( J$ j, C8 S% A" {# e1 l6 t  k- q: Y2 v

    + ]  Z, r& j9 }0 o# |: N7 {  s: F' F7 `- B
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-12 16:59 , Processed in 0.378267 second(s), 51 queries .

    回顶部