QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3668|回复: 0
打印 上一主题 下一主题

[建模教程] 风控建模】互金 风控模型岗 基本要求及面试问题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2019-6-6 16:12 |只看该作者 |正序浏览
    |招呼Ta 关注Ta
    风控建模】互金 风控模型岗 基本要求及面试问题总结6 e$ C+ X" l/ [
    一 准备工作% z: _' `/ i0 F% h
    " @8 w6 I+ D! v9 u' D7 c% [8 `
      根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:
    . L8 r/ o/ M# _( c# N$ z( X
    0 j* ?) I9 w: k8 q  科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;* |/ b# Y' R) s( n
    ' s) k% }2 L$ }. j# t
      非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:1 s' D8 `; Y3 w! C7 a

    # ]/ R7 s, q; Z2 e& Q. {前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。  s6 n" g# A+ f; u$ |% w  z* E- K* d
    . H/ C. a5 u$ o6 D3 L' q
    后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。
    ) X9 T; G" A( N& ?! b3 ~
    # f4 M7 y" f2 B7 N- }! E5 o左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。* z" H8 G) A6 A# R' ?6 H

    ! g* B# ]# d; y4 @% z2 L右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。9 J4 U5 W; O# @4 F: a9 O! A
    : r4 W! ^' r% ?1 t+ y7 @
    核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。
    % R- w2 \0 l0 r  ]7 `
    ) x$ H# Y2 G% O* u& e6 g& V  所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。* ?. O' w4 }2 g( }; T2 Z
    6 o7 N+ `* b- A& L) J

    4 a3 L- ]- ^2 n& N' x1 k画个VISIO:
    4 G4 x1 O! t9 R* x* R: L2 R) I7 g% d5 U6 O
      所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
      d0 Z" l; O0 b: E$ v- j3 t, d' {6 m+ W3 O: a
      那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。
      i' m* |( j* K1 {
    1 Q3 M, |" b, R) ]1、行业经验
      M* A- c; B/ d: B. }. }7 D* N( V$ L  `+ v( q1 ]* [
    互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。8 @% G  r9 `2 S
    风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。
    : s; F  ~+ R  O, K& v, v* ~, l2、知识基础7 g4 c9 u0 h  |: _7 g6 D; I! O2 m; Q
    + l' h1 u6 W4 M) {2 J
    (以下详细内容请看笔者其他相关文章)
    ; X: ~& i" E' `9 U/ a. F; z+ l$ i! V  F) |
    数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。2 R4 {9 k7 B5 p
    统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。# M. _( I. ?% h6 C; W, o; ~  a
    数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。5 x- D" b8 w" j. p" M
    常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。
    4 u+ [) D2 _! |3 \; m3、代码能力) ^  {- I/ G* n" G/ F* ~* S. x; B
    ) b, ~) I1 |; ]1 q- f- y" W
    python | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。7 R- {9 I& f# _  y0 B" E
    (选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)
    8 A5 b& j% Z, R) e
    ) ?# \4 }! Z3 L; j. J0 [二 面试问题" `- Q* R( T/ @" e: Q% m4 `
    & o% j8 ]: g, J5 o* y& K' P2 u( F
    1、风控建模
    . x) C5 ~2 c3 C5 |( X5 v5 L8 r) @
    ( ]- D7 n, b1 [4 ?7 ~2 G谈谈你对风控模型的理解?& c9 p, ^3 z5 M" l" i3 M3 ?/ y9 r
    ' j- {. ]. q) X# X* w0 ?$ B. G: v
    模型如何设计?
    - n0 _/ G. z+ [$ c可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。' W2 [& [2 ~/ ~9 x# X+ P2 o9 [2 ]
    # f6 ?/ u( c( g; d" r
    对客群进行细分建模的本质是什么?
    9 ]+ P. E& f) h9 Q8 L7 W7 V0 e其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。
    ; `+ V1 W; l* f/ x, O1 L, e# C
    . E1 B. H  q# o" A' R拒绝推断应该怎么做,作用是什么?效果怎么样?
    : H- F& q2 o$ ^: W5 g' O; {(多查资料,博学审问慎思明辨)
    8 d9 N: x& B. b% q/ m
    2 c! u* q$ U* A0 Y6 J3 S+ i简要说明下标准评分卡开发流程
    + {7 d6 S7 T( f) `7 X% L(多查资料,博学审问慎思明辨)
    . i9 e) ?" c$ q3 Q) t
    8 @7 H# E6 I9 q2、特征工程
    / P" }! `/ I0 ?
      ~; v6 w$ U6 c& S3 P4 }如何对数据做质量检验?
    0 b& B9 C. b2 _5 ?在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:
    7 z- E; c/ m* h2 i# X9 U1、数据分布。# l2 r* r1 J6 \1 r
    2、数据集中度检测。
    " t/ c% @8 i. Z4 {3 h% F5 f+ ~% w3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。
    7 {/ i. d  o4 F! i特征工程流程
    4 B5 o- [2 M7 ~8 L关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。0 E0 V" _0 q8 R2 r
    筛选变量的常用方法2 o* H2 G8 C; Q: n& j# S9 e% C
    筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。0 y; ]# J9 _  P' _0 B
    好的特征需要具备哪些优势?
    6 K3 l4 k' d' h# E# ^! [. f( n/ [1、稳定性高
    8 C* g+ c: V& G; t2、区分度高: v  G9 G% w8 _! C' I
    3、差异性大1 l% M. y( w1 N' {+ G; p! c9 B' Y% u
    4、符合业务逻辑
    % F. O& [4 g/ Q4 y如何衍生特征?5 O4 H! Q9 R5 ~6 Z: K0 N
    变量的衍生并不复杂,通常我们会从三种角度出发:
    - ]) ^2 k7 ~1 a0 u1 F2 {# R% B2 J  [1、数学运算。求和、比例、频率、平均等。
    # T# U! v* [: Z0 s2 H( ^8 p2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。" T0 V. @5 [8 H& o9 t6 s/ d8 P6 M
    3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。0 Q) s3 ]" c6 @4 u
    衍生出来的特征要符合实际业务含义,并且要保持稳定。+ E6 X5 u0 t' w0 N% l$ P# ^
    3、机器学习算法; G' o: w" l) }, S
    + D, G1 {9 _' H. R" l6 J
    简单介绍你熟悉的几种算法及其在应用场景中的差别!* A+ M$ J' S  L
    一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。
    " K6 U' W# z1 W+ l  J9 A简单评价几种常用算法的优缺点:: t$ Q. h2 a% w) J( r! K
    1、逻辑回归
    , n6 y) U* m" ]4 g5 X6 N优点:简单、稳定、可解释、技术成熟、易于监测和部署3 X4 V; y" S0 O0 m9 N
    缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高
    - j- u7 h  I3 f3 \2、决策树, a4 m: r. _% ]- M: h8 [' W4 Q* i
    优点:对数据质量要求不高,易解释: g. l* I6 a+ f% y9 T* b
    缺点:准确度不高
    7 j& {8 }% l' D! w# k) Q+ P" @3、其他元模型' P% d% C4 z' f- D8 l$ U
    4、组合模型
    : O# o! {/ `3 A. s# c优点:准确度高,稳定性强,泛化能力强,不易过拟合/ q( s: s+ o1 Q5 Q
    缺点:不易解释,部署困难,计算量大
      D/ p# m, _' G) @: K$ x# e; c4、模型评估. W+ H3 {8 Y* ?
    1 {3 d! M$ z7 \3 y$ E9 I% @
    模型评估的常用方法?
    4 W5 n8 E' ~; D( y- @2 ~! O从三方面回答:
    3 p' w! r9 i- A" R3 w( W1、区分度:主要有KS和GINI指标,理解KS的定义及用法3 l: P8 e1 D' ^9 L4 q
    2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法
      S9 _  D4 N# b; d# x( R9 g3、稳定性:主要有PSI指标,理解PSI的定义及用法
    # o9 M! @( F, P. ^" G& A( ?% qauc和ks的关系?
    8 M; ^- g6 _8 v3 _& E, |有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。: m" x* Y. r; ?/ F1 c# h6 P8 |
    5、模型部署
    : g' ?1 D4 `: Y0 V. d* x* k% I
    8 D" U! s6 N6 m- h( N模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。* V' R/ A) B4 W0 C: M) s, `
    6、模型监测# j0 `+ u' L% z; ]+ T
    % M5 `0 P# ^9 ?  y% q. v
    上述一些运营数据和风控指标的关注
    0 I" D) o! O- x* N, W. R三 写在后边
    ; U0 D6 s# _) _5 G& N; x" f% T
    ' V/ M2 P: J0 Q) n+ ?  在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。* }$ z. R7 t6 `

    . C' r! s* t. ?2 a6 o* N/ I  总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。
    " Q# b. |" i& n/ G
    ( H" T6 m) ^: h  I# {, q$ _# j  关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。- t& A; j) P5 i4 }
    ——北大经济学博士 香帅老师
    8 k% V% j3 j# ~  T  风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。! w6 Y5 W* b+ S1 q' \8 u$ o4 O
    ——数据驱动风险分析之父 阿什·古普塔( N4 O0 C! h. B% @
      别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。
    8 G1 F0 m; G/ Y6 L- m! f. ~" B) ?/ C7 A+ K
      总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。  W$ [9 g6 `3 {; p

    8 w& z$ T& t/ L8 z' K8 I6 a# d6 t( a4 {' b% C/ D
    : {) V/ [; @! O% L: G
    1 f: g' f% j' t# E' U, Y7 Y
    + Q' W% j" g/ p  A

    4 K/ i! {% E/ M. R' X( v5 x0 D
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-11 11:35 , Processed in 0.460813 second(s), 51 queries .

    回顶部