QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3674|回复: 0
打印 上一主题 下一主题

[建模教程] 风控建模】互金 风控模型岗 基本要求及面试问题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2019-6-6 16:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    风控建模】互金 风控模型岗 基本要求及面试问题总结
    8 |% g0 c' v8 U1 B3 x0 S一 准备工作
    : `) s% G8 p+ k1 X3 C$ T$ N3 J% K, F( s! w/ Q" |
      根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:  W9 a1 c& v2 z% k6 i7 b0 |( @
    9 i, L( r* l* l, E# P8 i
      科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;
    - J0 c! S9 V* }0 b+ Y; ~7 E
    5 j& d! ]2 F5 P& o6 x  非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:
    0 @6 f7 D# c8 i. H. l! q) t. q, E$ |3 b" P# q4 W" b
    前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。) f5 D3 g" V; b6 y  F: W
    0 y% k$ c' e5 z- Z4 V
    后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。( U3 _6 M/ B; K

    4 p* J3 b& S5 n  o+ D左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。( ?. q$ G! A; @1 R( U* ~  J$ |

    ' u* [, y# |8 X. L$ Y: ]右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。7 _- `0 j4 x0 A: c( j  m

    & c# R2 N" y$ T, U核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。
    3 Y8 I: y. O- b
    # S' R( p+ Q: B% V" l  所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。
    9 f8 `, y* t' }/ v% k* \5 h/ P% h* v1 f( j. C4 D

    5 y: P& J! _; V9 i; S画个VISIO:. Z2 R: |* n- [6 C- |

    , X$ u  z9 h$ S& _6 P5 F7 z  所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
    1 r4 A  c" K# e3 a& z  z3 {' ~4 w" T- r6 K
      那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。
    " Z( z- {; o7 O1 c" ^9 K6 ~3 {" e, U0 k0 E) [7 E
    1、行业经验
    7 l' Z1 p  s  l: P
    1 q# x+ A! Q( ]0 O* W2 J- ]% _互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。: r4 U9 f: `& m' c2 p. T& ]& C
    风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。& q8 A/ t% o) N1 g7 C. ]
    2、知识基础
    ) h7 A! y2 t$ A. v# u/ @, z' h6 }
    (以下详细内容请看笔者其他相关文章)' }7 O5 ?* E9 z& n2 }

    1 D# l  W, X( F/ p  h: M数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。
    . _  }1 \- A7 ]统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。
    - Q1 ]* X# K: W' [9 J数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。
      V! Z$ \. f6 v7 I9 `( B/ j& i常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。, m: \+ ^2 H' s
    3、代码能力
    ' A! ~3 F! W, n# \& E6 A3 J/ q% b8 u6 p+ ^. ~9 Y  ?  f
    python | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。
    ( g  k. T( \' `$ N1 ]( B4 R* w(选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)1 E# Q4 Y* J7 R# J$ S9 \
    # Z0 y# N/ p% Z0 C
    二 面试问题& Z! C) `- t8 G( s, @  V

    $ c! P, s: M% L. d. e, \9 u6 o) ?% s1、风控建模) T# h* R# a" f
    6 x$ ]8 E3 L8 E7 r8 j) u
    谈谈你对风控模型的理解?+ T6 L2 B% {2 v

    : J& o7 `% n6 g/ F模型如何设计?' `) f6 F& E4 {
    可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。
    : x* A+ u: J9 K8 W/ C9 c% r9 @7 d/ v
    对客群进行细分建模的本质是什么?" P( S6 {' |& L1 k0 `# P
    其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。
    7 d" K( \2 ^  g: M9 q$ A" n+ B; |% s; d0 r- G( X
    拒绝推断应该怎么做,作用是什么?效果怎么样?" f* P$ T4 O; p$ f& j9 o+ g. |
    (多查资料,博学审问慎思明辨)( R5 m# r- _4 R- W
    9 u, O' {  Z' U8 a& V
    简要说明下标准评分卡开发流程0 ^& v* p9 F$ a' G% ^( u4 ]; l
    (多查资料,博学审问慎思明辨)
    8 }+ u4 I- f& g3 f( D' ?3 k/ h  D  `& |- H# X
    2、特征工程5 R, x( g7 q) x, [4 O# ~! B- u, a* O# A

    % q# a3 \$ f+ `& j0 F# X如何对数据做质量检验?$ a/ Y% N0 M3 E5 a, [9 ^
    在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:( A3 g; ~$ y5 z$ O2 ^
    1、数据分布。
    ! R' x6 w( n/ k9 U! s2 X! E* Q2、数据集中度检测。2 p- Y: q* a: V% x/ Q4 h0 G# g
    3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。
    * @. P; g4 {; c2 t  Y特征工程流程4 @( T: B9 F1 n. r; h/ n
    关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
    ) d! \9 u! e3 D1 I. O' a筛选变量的常用方法6 F" i  |8 @5 e
    筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。
    9 k2 S7 E0 C( R2 L$ V' I好的特征需要具备哪些优势?9 y, l1 N; P8 L* g/ ~
    1、稳定性高( J5 h0 m* w4 b7 A- `4 E
    2、区分度高; ^$ D) k  [. Z  S# c" O
    3、差异性大5 o, t- B+ F- G* r8 z& B8 y! }
    4、符合业务逻辑2 C' J1 G5 L: c3 g/ T. \0 m
    如何衍生特征?8 o! s8 t& M: t. s1 Z
    变量的衍生并不复杂,通常我们会从三种角度出发:
    , U6 F; T2 c8 v( v1、数学运算。求和、比例、频率、平均等。  m- d  Z& ]5 H" t5 u# z
    2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。6 w% L7 L% T3 x) F: L% ^
    3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。
    ) [* {2 K1 u# [( q( n6 V衍生出来的特征要符合实际业务含义,并且要保持稳定。
    2 i) [6 h& q: C3 h3、机器学习算法! `+ Q! p! N- L0 Y3 n( r

    ( s) g  Q8 J1 P+ ~3 L! ^简单介绍你熟悉的几种算法及其在应用场景中的差别!
      j5 v, v# \$ [  _( {一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。
    , E% W1 F7 k8 a  y1 v简单评价几种常用算法的优缺点:
    " `3 y  l" @; d6 b  \+ a1 x: ^$ G1、逻辑回归
    0 ?( b1 e% U6 u0 ?" d* l5 M7 }' l优点:简单、稳定、可解释、技术成熟、易于监测和部署, Y3 @/ z2 L0 w( `& T3 z# c/ f- |
    缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高+ x2 Y  T6 t+ A. r, r) `
    2、决策树
    7 o+ B! r* {& J# z( ]# s2 Q; y优点:对数据质量要求不高,易解释; c* s+ E9 Y/ c* M/ {6 D# B5 t
    缺点:准确度不高
    & d; p: s  O9 p" T: o) L* Z( X3、其他元模型9 @$ C' Q3 b( ~6 N+ \* ]8 g5 n$ W
    4、组合模型: e- d+ [2 e1 c+ \/ h
    优点:准确度高,稳定性强,泛化能力强,不易过拟合
      g* p- ?+ V/ i! H: m# v( ~# T2 \$ F缺点:不易解释,部署困难,计算量大( c' X3 ]7 l# _
    4、模型评估
      j& |8 V, J( j  J. y: ^' t8 M4 s
    6 a) K4 u. \& K/ |* ^4 w5 a* T模型评估的常用方法?
    4 b2 o5 p: y7 C/ x% |4 [4 j7 ]从三方面回答:+ h" m8 F' R  A7 o' E
    1、区分度:主要有KS和GINI指标,理解KS的定义及用法; C& b& d! n! D& Z3 F
    2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法1 U, @, \% M4 N: ]- u
    3、稳定性:主要有PSI指标,理解PSI的定义及用法! U; l, I. l" q
    auc和ks的关系?* Y) C5 j/ `+ Q. g* w' J% }7 @
    有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。7 [5 R5 r! Q) {) y: A
    5、模型部署
    . n; p  k5 E' r. W3 i& f' n% {3 s- t5 f, z" Z
    模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。
    6 h8 h0 a5 w* Z6、模型监测
    2 Q2 K" @2 L, L
    , G, `( t9 I8 N0 E上述一些运营数据和风控指标的关注
    & G, x# }  y# {1 c三 写在后边9 E- }6 N8 d  o5 d; R: E
    ' R2 s* v( _$ A6 m7 W. U, M( V! {
      在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。1 L1 c3 m: ~, H* r! w" }; M7 ~' r

    / S( M/ d% b- H4 u  总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。$ O4 k! N- `, V; n, M; r

    6 q9 \: V: b7 Q4 g9 D1 i9 ], m* E% I% L3 h  关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。' A  f; x" }" f5 c
    ——北大经济学博士 香帅老师9 m4 v5 ~0 G; T7 i
      风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。3 l1 _; G7 S$ C7 R- J2 R: w7 T# `, h
    ——数据驱动风险分析之父 阿什·古普塔  R- ]* S" g! n
      别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。
    3 ?+ ?2 T) F* ^7 [. K( Y" j0 b6 d' G' W6 K% Z) ~  {( P
      总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。- u6 _5 p! @9 |* [

    ! G# B' A/ z. g& t  C7 K! C
    ' t/ f9 @% p9 d: V" l2 N8 F) t* e5 h5 @8 u+ ^. F& f, P
    # W+ Q+ r3 o8 a- q5 @

    & Q" i3 E/ w8 H1 s  V: t) f4 J3 h
    1 v! A: y3 @+ ?. d! x. c' s) a+ r8 x
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-14 23:24 , Processed in 2.419564 second(s), 51 queries .

    回顶部