QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3671|回复: 0
打印 上一主题 下一主题

[建模教程] 风控建模】互金 风控模型岗 基本要求及面试问题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2019-6-6 16:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    风控建模】互金 风控模型岗 基本要求及面试问题总结- p6 @0 ]' ?" e/ V, F$ m
    一 准备工作: Y" }$ B& E1 v% C+ A

    $ G& j" T- Y0 t% S, H  根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:1 S- V8 H  Z$ o0 g* Y* \( k4 V
    : F$ [# t7 G1 v5 P
      科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;  _' U8 g4 Z9 C# c  ?

    # n0 b4 H5 V; i7 S' J; M2 C  C) [. [  非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:
    % k  F5 z/ E# l) Z9 u' G) L, T% b% J  h7 b* s$ m
    前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。5 E- q8 ^% Y  i* M

    8 B  I$ p, D9 p( r8 J- o3 }, A. f3 L后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。
    ; M+ e/ u; Y. |+ ^. g
    9 A( d5 @7 R+ @6 |8 W左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。% O0 p: X- Q9 Q3 V

    ' K6 o9 ~0 A! N( U, m2 j$ H右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。8 w$ X2 C5 {/ L) C8 e
    $ Z+ u' P- @5 a" d  @0 {0 F/ d
    核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。% ^& ?; _4 Z0 Q- H) c' p1 H* i& ?$ ?
    0 l9 q; B" v2 h1 S6 Z3 x
      所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。1 U  R' v1 G- v- i

    . O/ \" v& n7 }8 n9 f
    ! K+ E; }& i/ i6 R$ r0 |% [画个VISIO:, ^8 t* |6 P% V) k. P
    * x. Q% v  \1 e& e  j
      所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)5 _! F9 H1 u! d, _, B' A/ _
    ) m: z! Y- z/ F+ n7 K0 y6 ~$ \
      那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。# V) @* E" i/ j; u

    . H' _4 q" L+ f: g6 W# I2 X0 q1、行业经验, t' L9 T+ H$ ^" W6 L/ d: w: e
    # {# B# x- K* B' P2 b; l
    互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。; w9 Q9 j) g9 Z. l1 R
    风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。- ?* z0 \* C9 ]: _5 f3 F1 Z: v
    2、知识基础
    5 E- \+ \' W) c( S' P3 `- r# ~
    2 U7 Y2 _# `# @' |(以下详细内容请看笔者其他相关文章)
    & I( `! S. m6 @: R+ \* w7 _" G
    9 E+ F$ x' a2 I: x数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。
    * m' |- c5 p4 U统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。
    + v  \3 d( v/ V2 t1 X数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。
    - a( g+ t$ W! c; h% @$ p6 [常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。
    & y4 S# q  t! C8 @. n3、代码能力
    / ~* O# |4 C) E4 k+ r" m/ z' L+ E2 X5 ^/ ~. b( [# W
    python | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。: e+ r2 \# d- Q* H4 ~7 {- V4 j
    (选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)# x+ C" G( j3 n1 P1 _9 ]1 S
    ! r8 n6 r/ y/ y7 l% @
    二 面试问题
    1 q0 \3 Z. D8 {6 o( Z0 |
    : G1 p1 n$ h8 p/ C1、风控建模
    & t! k# C9 q3 t. @! ?9 l+ |
    6 T: T. i+ B5 e1 W谈谈你对风控模型的理解?8 f" b# ?2 b/ Y' Z& M% [+ S& H
    7 Q6 K$ b) ]7 o, Q- H
    模型如何设计?3 W, f$ Q, \& D. O, V
    可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。
    : b: c, x% C4 a  U1 h& i0 ^7 x8 C4 l" e2 `; p7 o% e/ ^
    对客群进行细分建模的本质是什么?
    . @  t! _. h) ^" M' Z其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。
    , N9 S, `7 t% |& }# o6 i* a5 p% I- X" c6 |
    拒绝推断应该怎么做,作用是什么?效果怎么样?6 f7 |% ]! ^$ d
    (多查资料,博学审问慎思明辨)" d, Z  s7 n( i/ F: R
    , t+ _/ O4 a$ {. |& q
    简要说明下标准评分卡开发流程
      I% o0 e) ]+ a  ^3 X(多查资料,博学审问慎思明辨)
    : x4 s( f# F& G/ b7 D& Z- ~9 Y7 n' F$ o, D. Y# O
    2、特征工程
    % a3 L- i+ b  p3 ^% Y$ A! [0 Q% R1 n( s; m2 O
    如何对数据做质量检验?
    4 x6 ~4 J- d2 X/ V& S% v: J9 W2 y' Z在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:3 k' a0 W$ t7 c0 q
    1、数据分布。0 C  e, \( g  `& ]+ [
    2、数据集中度检测。* z$ g6 [) O7 O+ ?8 q
    3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。2 g5 _% O0 j/ ?+ i$ z' s4 z
    特征工程流程) t0 E( O' f6 V. E# q3 U  F; W
    关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。- g2 f9 Z& J: h. W2 f, R
    筛选变量的常用方法
    4 n6 z& u4 y9 Y筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。  q1 ~, K; @2 o9 k$ h
    好的特征需要具备哪些优势?
    : x6 ^# |* c7 ]+ z  I7 o2 n1、稳定性高
    + B6 `0 r! G- h) B6 u* \& V2、区分度高
    9 a( Y" t9 B7 b* P& `9 M3、差异性大
    9 g- H+ ^3 C9 |+ ]5 @; a8 f& @0 l/ V4、符合业务逻辑
    : D+ m+ J$ ~, W; c7 I如何衍生特征?! e9 ?; m( r! C( ]7 w
    变量的衍生并不复杂,通常我们会从三种角度出发:
    2 r1 o' N, q7 V1、数学运算。求和、比例、频率、平均等。
    " C( v1 w3 {. I2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。! R- H7 D$ `* C: X4 @2 u
    3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。
    ) h+ o8 g' [  H/ `9 U+ ^, P) ^衍生出来的特征要符合实际业务含义,并且要保持稳定。
    % S+ T; o% ~' x7 P4 `& }3、机器学习算法8 b6 s0 P1 x  n: k0 D  Z

    ( S3 L# c; O' m9 E9 @/ N, P简单介绍你熟悉的几种算法及其在应用场景中的差别!3 ~5 W& q* [, R% M
    一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。
    8 P% Q, K- g: S简单评价几种常用算法的优缺点:0 B& Q, {* n8 F6 c( v5 T- m
    1、逻辑回归/ }$ @  p4 V7 W" a
    优点:简单、稳定、可解释、技术成熟、易于监测和部署0 t$ d1 |3 O, u/ o0 E) k- a; X5 c
    缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高+ h- j9 u" \0 M! ~
    2、决策树
    3 P. h; d3 o: B. q6 [9 M优点:对数据质量要求不高,易解释
    6 ]$ j0 ]. O6 N+ w; b, j缺点:准确度不高* V( U* D* a( X& Y; a/ e$ i. l
    3、其他元模型2 |8 H2 u9 u* h' K- N: E2 A& Y1 d( V
    4、组合模型
    . E0 T% `0 i. C8 `; C8 N0 c/ B优点:准确度高,稳定性强,泛化能力强,不易过拟合8 H# `! T! {, e* {: [7 p- `$ c
    缺点:不易解释,部署困难,计算量大
    - n7 G2 U5 F8 |$ t5 A7 L: @4、模型评估5 p* {5 X1 u6 e3 x) Q+ O

    , q- _5 r3 T9 ^* ~( ]" [模型评估的常用方法?# U& b4 d  Y  w; ?
    从三方面回答:, f3 ^+ r; p% c, v: [; m; i) `
    1、区分度:主要有KS和GINI指标,理解KS的定义及用法* @  v5 H) f1 ^+ t
    2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法% |$ M. T! I# g( ?4 _
    3、稳定性:主要有PSI指标,理解PSI的定义及用法2 V# j; l' J0 ^
    auc和ks的关系?. u! p: {) u, h( o3 r& h; R- J
    有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。
    6 k/ f6 H, Q- @% @5、模型部署$ n+ y0 C; U; x; v5 \
    8 N" G3 D& g3 }
    模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。
    ; u7 A. Q' E) R/ `: V9 S6、模型监测) D; z4 W% L7 p  ^1 L. o9 T+ Y

    8 t* o% f6 [7 a+ Z* C上述一些运营数据和风控指标的关注
    ' j% {/ T( C% t5 _$ W三 写在后边
    7 c7 q* ]) k+ D& O+ g, ~3 L. [+ s% D3 p, k+ k
      在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。% K. [" P( L$ F$ J8 ~7 J

    " X  V( Q; x  j  总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。
    7 y. S" a* j0 I1 ]8 Z! N& N- U3 ~! i% ~
      关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。. Q% u; b( y$ p
    ——北大经济学博士 香帅老师/ o# X1 X) K2 U; ]  E  O& Z% ~) |
      风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。* Y8 U+ v0 m: A, j5 J
    ——数据驱动风险分析之父 阿什·古普塔
    1 X$ P( K1 e5 d- S  别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。
    2 ~5 r5 E7 r% G* M+ K3 T% b& K9 t' a; \
      总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。
      g* G, S7 \+ P' O, m# {4 @1 n* ?6 p: j3 n. i

    9 ^9 }( Z9 s' w& Y# M2 n3 V
    & o% e- P) ~  X  |& n! \6 K
    6 Q$ j  C) \& F, c: C, c/ d
    , q) y+ }2 ?0 A. d% |# j4 f/ B, F, J6 S3 d0 Y( u. f
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-11 15:45 , Processed in 0.653081 second(s), 53 queries .

    回顶部