QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3639|回复: 0
打印 上一主题 下一主题

[建模教程] 风控建模】互金 风控模型岗 基本要求及面试问题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2019-6-6 16:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    风控建模】互金 风控模型岗 基本要求及面试问题总结
    ( K9 K7 e- S% v9 V一 准备工作! {9 b$ `1 u3 {, w
    % m) M' I  q8 {
      根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:7 }" e. G. j2 f3 h) H& W

    % ^( w5 w" u( o( P+ ^- e# }  科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;
    - P0 M7 T/ S' ]' O) r9 U, u, i9 t
    ; R- K1 R$ H1 v  非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:
    : S8 ]4 K+ @' I2 x4 T0 u7 d  ]# r9 B' e! x. Y# }
    前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。
    2 b9 H9 Q0 H6 v* \4 `) r
    8 o' X6 r) a. J1 m2 e后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。
    ) G: q- r7 ]6 q) Y  q4 r, X
    1 y  D2 ^8 ?' Q左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。* \/ {0 n. L  v; l  `% ]) J6 X) B
    5 b, x' |5 V: D2 x) ]+ z* Z
    右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。* f& [1 L- J. H$ L# l/ t  E% N
    1 d. u+ V! u3 q2 Q
    核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。
    $ _: |& ^" y% C. L9 o! F. r
    6 p) P3 C7 T) e! |. J1 R9 ^  所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。
    % a& \- R) k6 E' V# ~0 y- w7 \. \% y( q( w. ^+ p8 ]& M
    ( a1 V( T7 ^1 t, D: |
    画个VISIO:
    ! c" I6 J5 d+ C* H# z# a9 w+ ~. g# e6 i; R2 y8 y
      所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
    " A% c% a$ U: u) r. w$ i6 p8 ?5 t4 f1 C2 S& l* S5 P0 Q
      那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。
    4 o2 V. m1 c$ c& h* d1 u/ T
    $ ]8 \  q! G) p, J1、行业经验
    7 F3 l+ A  R+ p+ [9 Y+ q( L$ x, r6 D9 ]: }$ A) X- [6 ~+ _# g. }
    互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。9 W. i* K& b! v2 \
    风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。5 Q( p1 z# N1 V( r- O  u8 L, x
    2、知识基础% Z- g8 V3 B" S+ A  D7 j2 e
    ; w. d# K- t& O- X* |% K
    (以下详细内容请看笔者其他相关文章)
    & D8 Z" V  F. }  F, p( P/ S0 w! z  }; w& B5 L9 q' E) p
    数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。- h  e4 D) }  i% U) ]: T, J
    统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。" q% G1 E$ ?8 r) b' q! B
    数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。" @3 R  C3 R+ g8 }2 }3 T
    常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。
    ' q6 K. Y2 Z" w7 n$ }+ l3、代码能力" h, ~9 z' s' ]- H! s6 }

    % S: E& l1 ~( p& p$ Y4 Tpython | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。
    5 v4 L9 Y; }5 [9 }(选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)4 ^& u5 h1 V8 N, ^6 V; M/ z

    % n0 B( b7 ?3 p二 面试问题$ h$ p; q# q% L. t0 k, {6 D

      U4 Y- E( K6 n" e( A" h1、风控建模! p7 M: V  A5 r% I4 u
    $ p$ [: ?, s- F- s( T  c
    谈谈你对风控模型的理解?! m, l; U& e# ^6 j

    : B0 p  U5 z  O7 d# F  U8 E模型如何设计?7 z2 I; f5 u5 L3 X, b0 b4 y6 H
    可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。
    ( q( @' A  A. u1 j5 x, x
    ( P$ u4 j6 w* y  I7 x1 O对客群进行细分建模的本质是什么?; b, H1 ]/ S6 r8 }; j
    其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。4 n$ D& N2 Q; R
    & o! `& s  f- r
    拒绝推断应该怎么做,作用是什么?效果怎么样?$ O9 A3 @. R0 `- T
    (多查资料,博学审问慎思明辨)2 }6 T' F4 z/ E8 ^
    ! s# S6 C: v& l% j5 P. H
    简要说明下标准评分卡开发流程
    . w4 z4 ?1 K- w+ h' `! M9 s(多查资料,博学审问慎思明辨)4 O) M  b5 d1 Z- O) s+ y

    ; h/ u% z' r- Y. Z9 s2、特征工程
    , C- U' ]$ i+ o  ?, G% y
    ) D5 {5 e8 \- V; H5 x5 R5 v如何对数据做质量检验?& e5 ?! x3 t1 |9 o6 w
    在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:
    8 {4 u9 t, j/ w  A  @1、数据分布。
    ! u  g. E. L5 U( I" Z2、数据集中度检测。- ~% {5 _6 f4 v  u
    3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。
    1 r1 A- \, Y/ \4 ~2 u* w. P* P特征工程流程2 l7 g8 j# T9 \5 c
    关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。4 M9 M7 Z3 s; ^$ T$ D1 i( F$ W3 e) c
    筛选变量的常用方法
    2 s/ y% T' y5 ^筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。
    0 M  i: o# e1 L4 r5 \( h好的特征需要具备哪些优势?
    7 j& S" ], S& ]; I1、稳定性高
    1 ]' }3 d. F) H2、区分度高$ t2 _; e. J* k
    3、差异性大
    & g% M- i2 v  C$ U4、符合业务逻辑
    . Z$ T; i" N& e) Q4 i1 E如何衍生特征?
    9 q) f- |2 M/ W6 p: y变量的衍生并不复杂,通常我们会从三种角度出发:
    * {6 R2 p- B, f4 R$ `1、数学运算。求和、比例、频率、平均等。" u( x. h$ J0 o9 m0 U& O" P
    2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。) H! S- }" v/ H1 z6 a
    3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。* G# `8 t0 F9 f
    衍生出来的特征要符合实际业务含义,并且要保持稳定。! q* r1 f* G9 U- K; A' c/ r
    3、机器学习算法
    8 N. V6 J' G3 Q7 `1 E. d" B
    % K! j* X; ~+ Y& A( X% a) }简单介绍你熟悉的几种算法及其在应用场景中的差别!
    3 A6 ^3 H0 X7 T  F4 L# ^一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。9 _3 W( }7 M) Q8 p2 m
    简单评价几种常用算法的优缺点:
    ( W( `  {* J9 E! n" U( A1、逻辑回归0 X2 d  g+ H' Z; ~
    优点:简单、稳定、可解释、技术成熟、易于监测和部署
    ' T: T& X" u# v  [" O缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高& r2 p& \, a* \3 C4 c
    2、决策树- o, Z# N6 Z3 L) w% v; _2 r+ ]
    优点:对数据质量要求不高,易解释
    3 p6 ~. U  _  @缺点:准确度不高9 g$ E: I# d% _+ m: l3 @+ E% _
    3、其他元模型
    * J( T6 r9 N5 d! I% c( j, \4、组合模型
    , C. G. F, ?3 E) o; R优点:准确度高,稳定性强,泛化能力强,不易过拟合
    3 O4 u4 c/ j1 @9 a1 K缺点:不易解释,部署困难,计算量大  c; z5 n4 H" l) d! [
    4、模型评估& G7 |  t# ?' @
    $ o, F1 f1 [3 p$ I
    模型评估的常用方法?2 F$ y# j8 r5 Q
    从三方面回答:. g0 ~% O& a  U  m
    1、区分度:主要有KS和GINI指标,理解KS的定义及用法; p2 k, v, B3 o6 T- Z. t7 O. Y) H
    2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
    + u( q$ I8 Y( [$ `; E9 v3、稳定性:主要有PSI指标,理解PSI的定义及用法/ W" k, G/ M, X& C
    auc和ks的关系?' t7 q: Y" Q! ~
    有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。
    ' S' K; P  }' p0 t5 s: Q# G5 B) C5 a. P/ ^5、模型部署! t) V+ |& R- g9 y8 Z
    : i, b6 k# x$ _; F' W+ r. O! h8 |
    模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。/ u4 c7 L/ N. `, e  U: E
    6、模型监测
    6 s" ^& Q+ ?" a. I$ y1 L4 k* G# t6 B! R: m$ ~  h" O8 w
    上述一些运营数据和风控指标的关注
    ; P& X& P8 R" E+ V三 写在后边: j# x( Q8 ~5 h
    2 K. c* G! `; k' R7 d$ ?) T- }4 }
      在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。/ `+ M$ I/ |- w1 i7 X

    1 L6 K4 }% Y! E' E  总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。/ Y( S2 h9 l" g) I

    & P4 a3 e! ~$ Y/ N  关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。4 ^* D! \: }" X3 c
    ——北大经济学博士 香帅老师% w( u: M0 K, L* y, p  @
      风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。. u, V& q7 d- S  @8 c, C- g
    ——数据驱动风险分析之父 阿什·古普塔. O! a/ M  j( o! k* |( i
      别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。
      `$ F. f6 Q- Z1 _1 a+ C3 j/ S( d6 ?) J9 h" m
      总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。
    3 F0 h/ ]7 U+ s6 p& e. d4 F! V8 S5 e
    ) y0 @5 ~1 O: q' M
    ) M  `1 U( u% F6 q9 r( w

    # L, K5 w/ M! ^) K+ L# Q4 ]/ T
    3 E, u, R3 H* F  O/ p0 S' a" L7 w( }0 _. L
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-13 14:41 , Processed in 0.412749 second(s), 51 queries .

    回顶部