QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3637|回复: 0
打印 上一主题 下一主题

[建模教程] 风控建模】互金 风控模型岗 基本要求及面试问题总结

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2019-6-6 16:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    风控建模】互金 风控模型岗 基本要求及面试问题总结0 I2 v( r. c- u  ]7 V0 r- k
    一 准备工作
    ) H8 Z" [, D1 A4 b0 M& e) q0 O: s  U
      根据核心职业CD法则,找工作前,你得先清楚自己有什么,自己要什么;面试单位有什么,面试单位要什么。就笔者近一年的学习及工作经验总结而言:% I; f! _9 V& E! b
    6 N, P3 x  l$ g3 o9 }
      科班同学,最好直接从统计分析、应用统计角度入手,从事金融、生物、医药等领域里的数据分析或数据挖掘相关工作;/ E6 B8 u# u8 i2 k) q  M

    4 u' o( X! E' R  非科班转行来的,建议直接做金融,需要的专业知识不多,行业知识也易懂,而且信用中国还有很长的路要走,在这个领域扎根越久,收益越高,因为我们要学的这些知识首先是保值甚至是增值的。可掌握的技能基本可以选择大数据、数据提取、处理、分析、建模这五大块儿,内容及要求总结如下:: N5 Z6 e. F1 t4 Z) e8 t1 h

    - |3 t9 A3 [9 u2 u' V前搞MIS(报表分析):业务报表及报告的生产,掌握excel手动报表汇总、透视等功能,tableaue等线上BI报表制作、分析。$ e. G1 j( R0 X! C

    * @' ~+ C1 v* n4 a4 k* ?后搭数仓(数据提取):数据仓库,包括关系型、非关系型、大数据、图数据等数据库、数据表的设计(常为后端人员开发,数据人员需要了解表结构、字段类型等),数据存储、提取、转换、清洗、处理;需熟练掌握SQL、HQL、NQL等语言,可以做json、dict、frame、pkl等数据格式的转换。
    . h( z5 |" x8 J. c7 {3 B& M5 k; p% U$ t2 ~
    左建模型(模型开发):金融风控模型,不单单指评分卡,而是针对产品营销、定价、授信、管理、催收、监测等业务流程开发的一系列策略、规则、评分卡的集合,通常我们认为,利用有监督、无监督、半监督、深度学习等算法开发的评分卡是风控模型中卓有成效的技术。
    ' |$ |( B: ^5 l5 Y* w& k; x+ a; j0 p! t; ~0 n5 W9 S  F
    右通算法(数据挖掘):LR、RF、XGBoost、SVM等常见算法。对跨领域转行过来的同学来说,算法这块,既有趣,又神秘,关键还难懂,让人又爱又恨。好的算法工程师,需要扎实的计算机算法、算力、数据结构等基础,需要扎实的概率、统计、多元回归、矩阵等基础,我等渣渣励志做算法的话,3~5年起步吧。: x. l; u; u" P& Y
    : ~% n; f# e3 a! v( l9 E/ [7 q
    核心懂业务:P2P、消费分期、现金贷、传统金融、大额、小额、信用卡、车贷、抵押、资产、标的等业态;风险定价、反欺诈、信用循环、信审、提额等环节;滚动、迁徙、账龄、递延、回收、坏账等指标。要懂的东西,也多也不多。% h0 V" E$ F! k
    8 N* ?/ Z; z4 h; q. v' |
      所以,除非奔着算法工程师去,否则最好的入行策略就是熟知行业业务流程,从数据库、数据提取、数据挖掘、数据分析、风控建模等岗位中择一良木而栖,夯实基本数据提取、挖掘、建模等流程所用到的技术。算法这块儿,只需要掌握常用LR、树模型等算法的原理,能够使用编程工具实现即可。4 S5 Z6 A! K* {

    ! e6 O% D3 o! ]% s5 k. S1 z8 C+ n" D' _) d& V$ q$ [
    画个VISIO:
    : _( D* X7 _' q6 h
    $ ]6 r. k: h( x) a; }/ H8 h  所有知识点都掌握,并且能够熟练运用,已然建立体系,胸有成竹,你就可以骄傲的自封一个全能数据战士的名号了,简直朝阳区中最靓的仔。(悄悄说一句,全栈离经理和总监更近,产品、前后端都得给你点个赞)
    ) ^) I1 G/ }: @$ n  X& B1 C6 w4 a; c* q* E, a8 y6 T% e
      那针对金融风控岗,我们的面试准备工作,就从以上几点出发,重点从模型着手。
    2 O; ^, x! r6 s# f# J6 ^+ ?& G& |: ?6 h" r
    1、行业经验
    ; Q, \( J1 J7 @3 N/ C* e) E" L' R0 p0 r3 y  }8 I4 H
    互联网金融风控岗位的业务理解,比如:信用循环体系;核拨率、递延率、坏账率等运营指标;滚动率、账龄分析等分析指标。6 M7 Y' w2 ], F6 a* _# A
    风控模型的开发流程,比如:信用模型评分卡的开发、上线、优化等过程及方法。
    9 I. [: _6 r( m' B2、知识基础
    ! P) ^  ?% |6 S* `$ F
    " _; {' V5 A( U) v! ^* D: `1 `; w6 D/ U(以下详细内容请看笔者其他相关文章)
    " H5 b8 N6 Q! ~0 j0 _# _/ {! U0 w
    数据存取与处理: 基础能力,这是数据分析类工作的技能基础,也是任何一个数据类工种都需要的基础能力,不熟练的话就再学一段时间。
    . C! x' H" d5 F$ Q, k6 k0 R) d统计学习: 机器学习的基础是概率论与统计学习,这块儿你可以不必特别扎实,但像五位数、方差、正态分布、相关系数、假设检验常用知识点得了解并掌握。
    % o9 f: e: O2 [数据挖掘: 不论是规则还是评分卡,风控建模类工作的大量工作内容就是对用户特征的挖掘、定义、扩展、转换、处理、分析、运用,以产生对业务有帮助的决策数据。所以特征工程来龙去脉需要懂,并且会熟练使用。
    : L6 T4 D) I* _/ J常用算法: 用于特征工程及建模工作,同样不必全懂,但一到两种常用算法的推导及一到两种融合算法的原理必须掌握,常用的元模型为逻辑回归、决策树;常用的融合模型有随机森林;神经网络则有ANN。! {( I; x, U2 ?
    3、代码能力
    - l+ g/ n9 i4 J2 w# J' m6 k0 \; ~5 b- a3 a$ y
    python | R | sas,把一门代码类工具运用熟练即可。就python而言,像pandas、numpy、statsmodels、sklearn,这几个包学扎实就行。6 L+ Q- j& K) t- F6 M* n& }
    (选工具的话,建议python,别问为什么,怕被隔壁用R、spss、PHP、java、excel的媛儿们暴锤)
    8 ?+ t& i8 M# d5 G! z
    1 b5 }5 C7 t5 I# f$ m; h# ]% c二 面试问题2 q# Z! o8 w! ]6 w3 m
    9 K2 S. D- `5 ~* W
    1、风控建模
    ( D1 y) Z0 t  ]* k& O/ o4 D* P
      M1 ]  W, s6 S: V% b% E谈谈你对风控模型的理解?
    2 G& x/ `& |# D# N9 h! L; i1 b" a) z7 ]/ }7 d; r' e" A$ t
    模型如何设计?
    % S: L% F/ A) S8 C# z可以从滚动率、迁徙率来回答,也可以从反欺诈、ABC卡回答。& ?, E& b8 f" l3 e* c
    3 a. r- i& m( U+ [
    对客群进行细分建模的本质是什么?
    1 _% [4 n& k; N( o/ {! ~- Q其实分客群进行建模,实质也是一种交叉特征,能提高模型稳定性。' d6 F. v! M% B

    ( c. s5 c7 B& j) O/ t拒绝推断应该怎么做,作用是什么?效果怎么样?
    ) t& z; _4 d0 R6 ^- j(多查资料,博学审问慎思明辨), d3 M. i8 C. Q% U; z; f
    ( w$ m; ~6 U% x: q
    简要说明下标准评分卡开发流程
    " }+ o  h% }& [3 W0 t6 F8 h(多查资料,博学审问慎思明辨)
    : \8 \2 }7 }2 M# c) G0 L6 k! _$ J1 X" |# A3 ]
    2、特征工程
    ! Q; C3 `, w# E& s: z$ G# T1 Z3 Q# E" H- j5 l4 D% ]/ j; z
    如何对数据做质量检验?% [0 X$ i# H4 n3 @$ n
    在完成数据匹配工作之后,建模之前,我们需要对数据进行整体的质量检测,主要有两个方面:+ X' p; y4 x( j( ?, V
    1、数据分布。: r' X: n3 m, A- |2 m+ [- ]
    2、数据集中度检测。
    2 H5 _6 [) B0 L' k1 }. p8 s3、数据脏乱情况。缺失值(是否隐藏风险)、离群值、错误值、重复值,根据其是否符合业务逻辑,判断数据是否存在异常。; `" `3 g' O( t7 r* ?
    特征工程流程
    4 f  j, y, e; f9 g' S关键词: 特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。
    / ?- J3 H4 m" ~/ Q4 ?" P. J筛选变量的常用方法
    2 r+ v8 k( b' V2 s8 @2 F' m# f' S筛选变量有很多种方法,随机森林、GBDT、逻辑回归显著性、VIF共线性、相关性图谱等、随机逻辑回归筛选、递归法筛选等。9 z/ m6 h: E" B) @2 `
    好的特征需要具备哪些优势?3 k# e3 E) o) }, A9 b; ^! ^9 m
    1、稳定性高# \' h' ]; i* f, f8 n1 J' C
    2、区分度高3 v  d, j) d- n
    3、差异性大% o5 ~% T7 M( W1 p; N& K$ u* G" `1 H
    4、符合业务逻辑# o8 d4 Q3 K5 n* o' ~5 F6 z
    如何衍生特征?# d$ \# @) F1 A( s% D7 \  E3 W
    变量的衍生并不复杂,通常我们会从三种角度出发:
    6 S5 ^4 q! `# M# Z* ~1、数学运算。求和、比例、频率、平均等。
    + c, U4 d1 ]% g, L2、时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。1 _1 T5 Z' V# H4 Q
    3、交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。
    ( g, ]; b# Z( Q, b; Q衍生出来的特征要符合实际业务含义,并且要保持稳定。; X6 A- H0 p- l: V3 R3 L/ L$ Y
    3、机器学习算法
    + O0 F8 O3 d1 n  Q( P8 [1 v& G6 k5 W5 T& u" F0 k
    简单介绍你熟悉的几种算法及其在应用场景中的差别!
    6 o" P' m* Q; @一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。
    ( R6 C4 N6 \, k" X1 b6 t简单评价几种常用算法的优缺点:
    ( w4 ~, u1 h# v) n3 x& }1 |0 ]1、逻辑回归
    : z: h" y5 H2 B) G, `5 a- O0 W优点:简单、稳定、可解释、技术成熟、易于监测和部署
    / |2 w( I- D% u" k; u/ O1 Y缺点:一定不能有缺失数据;必须是数值型特征,需要编码;准确度不高
    3 `, h- B; o9 }* U: ~9 a: }  s: y* d, W2、决策树
    8 X8 n3 d2 m  |; C优点:对数据质量要求不高,易解释
    ! x6 Y$ N3 M% v  e缺点:准确度不高
    % i* F# g- S/ f3 U" k- N7 l/ U9 l0 _3、其他元模型
    ! j) k& O1 q' o8 [( G( _1 k4、组合模型7 P' s; d6 A9 W( u
    优点:准确度高,稳定性强,泛化能力强,不易过拟合- E# i  l. o! ^+ P/ {3 g
    缺点:不易解释,部署困难,计算量大
    3 k% K0 n7 F1 N  A; q4、模型评估
    7 m3 z: L3 H( c, a: J
    8 \  L" M0 y5 w- A, O4 v. [+ K5 }4 Q模型评估的常用方法?) o% d* R) x: A- J$ Y
    从三方面回答:2 j3 k& Y9 Q; ?8 j; M. J! D
    1、区分度:主要有KS和GINI指标,理解KS的定义及用法9 _/ f! E( Q1 @/ f. i: P
    2、准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法0 r( y1 U- K) T
    3、稳定性:主要有PSI指标,理解PSI的定义及用法  T6 T& {) _9 ]/ r7 }+ f
    auc和ks的关系?
    2 }4 r0 S3 Y' A7 Y& C有人说auc是衡量整个模型的排序能力,KS是衡量某个分段的区分能力。% m, \( _% S; T" f
    5、模型部署1 }- k( [' g/ [& A5 b! y2 R1 O1 K

    6 p! w, N8 |# |- `* ^( ~- E模型的部署上线应用类似的问题,偏开发,分析人员可能不太擅长。主要就是api接口安装、测试、等级划分、额度设计、风险定价、ABtest的设计等等。
    / R* N  N0 N- E5 z6、模型监测+ x, Z$ a# [! \) W# t) M  J, J2 V. l
    $ I. P8 f3 c8 j+ a8 s& ^
    上述一些运营数据和风控指标的关注8 {9 l; O. O. Q' r& g
    三 写在后边
    3 ~, C* v. F6 E2 f- x8 t7 V  z8 ~/ _
    " P9 h. O2 A8 \. O$ @  在全世界,分析能力都有同质化的趋势——大量的技术已经进入这个领域,壁垒几乎已经没了。长期、可持续的优势,来自企业拥有的人才和你手里的数据。
    + K) \6 z( F5 ^. p1 w; {, u8 |5 V2 l! g# \) c0 c% v
      总体而言,中国的金融科技市场是全世界最先进的,而且领先了很多。不过,在一个领域,中国的进步没有世界上其他国家大,那就是综合数据分析领域。如何更明智地使用数据,是全世界留给中国人的机会。2 V8 v# b# t. K- U& B: L8 H# U
    9 b% r% t1 E) x4 N9 W
      关于学什么这件事情。原本一直非常犹豫要不要学习编程,现在非常明确了,这件事最好的开始时间是大学,其次是现在,而且必须是直接掌握最先进的编程语言,主攻数据挖掘和数据分析的方向,并与这方面的专业人士建立链接。
    1 U7 h* i; q" F1 }3 n; I+ A7 a——北大经济学博士 香帅老师$ X, o# N2 ^9 c5 h5 v
      风险管理绝不只是数据、模型,它是产品、流程和分析的有效结合。好的风险管理能真正理解流程,真正进入流程、着眼于流程。它能理解产品,理解客户和竞争对手的意图,然后将数据和分析与之结合。$ m( L  w) E; F& K( h' ~  b( K
    ——数据驱动风险分析之父 阿什·古普塔
    , z6 F$ a. X/ A% W  别怕,难者不会,会者不难,稀缺意味着价值。每当坚持不下去的时候,回头看看你自己走过的那段路,虽然曲折,但异彩纷呈,关键还有这么一群可爱又努力的人陪着。% L1 t3 f/ N& ]. B& k

    ) q* N: d5 s' s$ e0 e; Y0 v9 I  总结经验,昂首阔步,心里装着善良和坚强,到哪都会散发光芒。
    3 ^2 g# y5 p, s# m' B
    ! G9 B  v3 Y: ~9 `- W  D6 y7 `$ t  V/ j
    / j- F* r  h* c
    5 @' Y+ e3 S2 w" |" V

    . b6 m3 T2 ~. S& X* Q0 f; ~9 W$ w1 K0 B
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-12 14:51 , Processed in 0.330071 second(s), 51 queries .

    回顶部