QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3259|回复: 0
打印 上一主题 下一主题

[建模教程] 风控建模】互金 风控模型岗 基本要求及面试问题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2019-6-6 16:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    风控建模】互金 风控模型岗 基本要求及面试问题总结
    ( a! n8 z0 a3 @* u) q* T一 准备工作7 }. B) \! c  R) e

    . h. X( u7 X( h- H7 _6 \  根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:* e# b6 }* M5 A
    7 w! s, |" R8 v( C2 A
      科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;
    ! Q7 s& _1 Z$ c  ~4 d0 ?  ~, v0 C/ E% w, `# m
      非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:
    , ^1 @! Z5 J1 T
    2 T3 u8 B# A1 f# B前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。/ D% q4 C; m( O2 |  i& ]8 M
    , k" v# |0 I' c& ?
    后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。7 Q0 B- A: R" Q8 ]7 u7 U% j. ]
    , w- x# ^2 h0 k
    左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。
    , R' j; P' \1 u7 L5 h- a9 M3 h1 f( v& t3 z) _
    右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。2 O7 `5 ]" A- F9 J, M1 O! r

    0 `- C1 p% ~3 M" }' u* `核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。
    $ O9 V( `! X2 h! l; _; A+ ]8 |: W
      所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。, W2 f* E% o; V+ D7 v4 W% b3 ^: a
    3 j4 `$ T! u; O9 c! A
    / v" P  @1 z9 C
    画个VISIO:
    % x' b% @0 b' Y5 `0 x) M0 ?7 P% t' q; _7 C" G9 [4 C
      所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)4 m/ A& g, X1 W  J+ O, O
    + u) r1 S# {' Z* W% o" b8 z" Y
      那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。
    5 X8 f9 b7 E; S* F$ M
    ! Q0 h/ |0 B1 W: K1、行业经验
    / n' H% Y+ i( c& m! J+ ]  F+ E' A: B+ _  z" `2 ~) L& S
    互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。
    % [9 J/ _3 U( o  d. i风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。
    9 U6 \. V9 o9 E  H* x2、知识基础
    5 b* }; c1 M5 u- v7 b' g% |& J7 q8 h( t- O) K
    (以下详细内容请看笔者其他相关文章)
    1 `8 G9 g6 Y' \3 Y( G/ U" a$ C5 D3 _; ]. S! j
    数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。. h6 o4 [6 N; V; B
    统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。0 j  M1 x! E: K  y* m: D
    数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。1 h) e7 R, b" n( ]1 m
    常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。8 j5 v) E& y6 i( S5 P) Z
    3、代码能力
    ) U: F1 p- ^( w) G; [7 t; @  X3 q. Z) C5 P) R5 V6 ^
    python | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。5 Q: P$ I+ O5 E. [8 U+ q+ {) G; b
    (选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)
    + K  L' w; e( G3 C4 b/ Q! t# R9 g) V6 U* j- d1 \
    二 面试问题& ~" v+ d% n3 C7 L

    ! l: s7 k! R/ ?  d/ `1、风控建模
    6 l/ J" t, t$ z6 U# @4 J* G2 ^3 w  A! ~
    谈谈你对风控模型的理解?
    9 W9 T# d% c4 \( t
    1 |9 s8 B& K% g' ]: q  J( `模型如何设计?
    8 J& l! m$ n  c1 m- B可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。
    7 s( F7 j0 r# U6 c
    ' V) r- Y- Y' r/ Y5 G对客群进行细分建模的本质是什么?
    * @+ z6 V' ~4 i其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。) X: {4 Q9 y1 h& R" h6 N, y0 ?2 W, i3 `3 U
    3 R6 e: f' m3 P+ H4 Q, H. M1 D2 n. u
    拒绝推断应该怎么做,作用是什么?效果怎么样?6 r) l9 F5 i, M+ }* C
    (多查资料,博学审问慎思明辨)
    & k0 L/ s! [% S& K& O' o% f) b; c0 u) w! h6 f: P; G6 D" H5 S
    简要说明下标准评分卡开发流程
    $ o: S+ O  z+ X(多查资料,博学审问慎思明辨): z. K! J4 u$ ~
    7 O. r3 n" J9 X2 v" c; X
    2、特征工程
    6 g$ u! X2 p% m% T1 R* l; w" x- l+ l, P  n
    如何对数据做质量检验?
    7 Q3 g7 f3 @6 G6 E  W1 \4 i& R, A* K在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:
    + M! P) y$ |2 u* ?# z1、数据分布。
    6 c+ F6 P6 [( a( M& I8 n- W2、数据集中度检测。$ X& z5 R$ g& t5 j. _) n
    3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。5 a) H- c/ b' F5 {
    特征工程流程1 s; _6 ~2 @( n8 S+ a  X
    关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。7 y3 t5 i& B+ I+ |# g
    筛选变量的常用方法1 y% [8 Q+ S7 A6 q8 Y
    筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。9 x3 Y( X1 c" D8 c# @6 J5 _" P$ s
    好的特征需要具备哪些优势?; B+ `) d( E6 X6 }
    1、稳定性高' g  Q1 L$ n# C. W+ Y6 Z
    2、区分度高3 N' z' s( U, ~3 j; ~% o
    3、差异性大
      V: b. [% n# T4、符合业务逻辑
    : J2 D, r, f) E+ t+ [: y如何衍生特征?
    / C4 t2 ^1 ~, j: x6 A; h9 J变量的衍生并不复杂,通常我们会从三种角度出发:
    5 ]8 Y( c, x' {1、数学运算。求和、比例、频率、平均等。
    ) L8 @8 u/ d# ~. p, r2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。
    " A$ i' c: L; H  F3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。  X3 ?! |9 F$ I' J
    衍生出来的特征要符合实际业务含义,并且要保持稳定。& E/ D. y8 S1 ]8 Y
    3、机器学习算法2 w- H, B5 l5 g% T; l

    , P4 R$ H3 N  b3 N简单介绍你熟悉的几种算法及其在应用场景中的差别!
    * M$ e0 l8 K1 Q) }一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。6 r' P1 ]3 T/ v% O4 ~
    简单评价几种常用算法的优缺点:
    " b6 X  }3 o" m5 t# A1、逻辑回归0 f8 |. G, ^" Z! i- R- H
    优点:简单、稳定、可解释、技术成熟、易于监测和部署+ f4 v8 O. ?9 w; \
    缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高
    # U9 R( o, J0 \+ r- r" K2、决策树! B$ N) _0 ^- [- a. ]! g6 S
    优点:对数据质量要求不高,易解释0 ^  ?  l+ W, |5 v- ?4 W
    缺点:准确度不高
    % x8 j* q0 z) n- {, n" c+ m- j/ i3、其他元模型/ a! S. i8 h% y* C' o
    4、组合模型- U5 |, N. S3 ]. V
    优点:准确度高,稳定性强,泛化能力强,不易过拟合6 l5 _, C4 ]: Q3 T% x
    缺点:不易解释,部署困难,计算量大
    : h5 e- J/ q+ F4 K5 ^4、模型评估2 O: k- K: G0 @7 r" Z/ {3 p

    , P# D9 G( N2 P0 R" j模型评估的常用方法?7 J: ?* Y# @0 }$ r3 e' @1 }
    从三方面回答:# x, t- n) c& K1 g
    1、区分度:主要有KS和GINI指标,理解KS的定义及用法
    - x' B+ L- g9 v2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
    " }, y6 K2 g4 Y3、稳定性:主要有PSI指标,理解PSI的定义及用法0 i; I# ^3 i  y# ]
    auc和ks的关系?& k8 n: z0 W9 M9 K
    有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。
    5 h0 E3 H& c& E3 ], Z5、模型部署
    & l. g; p, u, M# [% |( }( w4 V4 n
    模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。
    , E9 b- F' v5 e* r+ ~6、模型监测
    " A4 o: b! E  X2 Q0 s5 f' L( b% a+ i: \9 C6 O" \( y) `
    上述一些运营数据和风控指标的关注
    ' `1 B. R% A1 C; K" T三 写在后边4 X& F) p3 j' s7 c1 `

    , s# Y6 [! K% Q  在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。$ s6 p3 t" Q: U' H: [

    9 P. r; f8 K/ d' x# C+ g2 H  总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。! l0 b3 w8 z! h2 W3 @# B7 g- _

    9 i' a3 x  B9 ?  关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。7 J: J" g" F, Z/ e* Q) |
    ——北大经济学博士 香帅老师9 j1 j( q: ~1 r$ v% l. x' Y
      风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。
    : y% g$ f% |' I6 f+ J——数据驱动风险分析之父 阿什·古普塔
    ; K  J( e( L. b+ U( ?  别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。2 D- @. V) Y; N( ]% x3 t

    ; p! X: ], ~6 S, i, [- N9 l- R  总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。
    ( n3 Q# J  J% e1 d! J
    6 E+ f8 \; z8 n+ g* s5 a2 Y7 C) W6 a  K" E
    / z" \8 f) g. h/ |) K5 o
    ; ~7 ~' T7 }: u

    3 a3 U$ x8 R# D" D
    ! e( m# g: P5 ^0 f
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-6-9 16:23 , Processed in 0.379597 second(s), 50 queries .

    回顶部