QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2245|回复: 1
打印 上一主题 下一主题

详细讲解分类模型评估

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

81

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-4-19 11:53 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    , ?0 ^# L# X4 `$ i& Y7 U详细讲解分类模型评估分类模型评估
    6 b4 n# `4 U, T# a9 P+ R- e  n
    0 y" a9 l2 B$ S, _( P( j5 L1、分类模型7 m5 I9 p* T# R6 }3 H
    主题:如何对分类模型进行评估
    3 b2 L9 d; b9 K1 D5 ^目标:
    , `( A3 G& M- w# t  x2、混淆矩阵' J2 Q  A8 R3 i' ~
    3、评估指标2 N2 L  d; z; [- a) L% A- p
    3.1 正确率
    8 ?0 ^0 N. k0 g5 F8 ]2 d3.2 精准率
    5 B: W  @- ^1 ?3.3 召回率1 v1 x; b9 |4 ~% T5 Q8 Y: ]
    3.4 调和平均值F1
    5 X5 b9 b2 @$ V+ D1 X; `# ~; s* D4、ROC和AUC8 ^! e6 e' |5 f2 s. s
    4.1 ROC曲线5 \4 J& Z5 G. }. `: N' N; g* F" o
    如何画ROC曲线:! i6 @1 ~3 {1 C" K8 b& {% @
    4.2 AUC1 V5 H* ~7 s) X/ t! h( V# {
    4.3 ROC曲线程序示例& o6 D( C7 O: ]0 v4 l5 ^
    4.3.1 roc_curve函数的参数
    % K% {9 ~1 P& O7 c" y- f, a4.3.2 roc_curve函数的返回值0 m8 y6 ~$ v: S* S) d, F& a: a/ t
    4.3.3 绘制ROC曲线  n! c6 k" {+ a* N* D4 F
    5、总结
    6 f# P2 u. @& R4 x8 w$ r1、分类模型
    5 X2 B% X$ H7 W' o
    - C. n* s. ^1 [- D7 t1 f! }分类问题在我们日常生活中处处可见,比如我们对帅哥的分类,可能对帅哥分为非常帅和一般帅。比如我们平时刷淘宝,淘宝根据我们平时的喜好给我们推送产品,那我们就会把产品分为感兴趣和不感兴趣两类。% r/ w5 k3 K/ v# h% r
    上述所说的问题就是典型的分类问题,确切的说其实就是二分类问题。
    8 z9 _7 s- T( K能够解决这些二分类问题的数学模型就被称为二分类模型。
    , H: O% S" P1 M5 G! I用数学的方式表达就是,给定自变量X,代入到我们的分类模型F,会输出因变量y,y的取值为0或1,其中0代表负样本(一般帅的帅哥、不感兴趣的推送),1代表正样本(非常帅气的帅哥、感兴趣的推送)。
    , w6 {% \4 D4 ^2 f! ], p- T1 w) N  X
    主题:如何对分类模型进行评估
    + c0 |; E' o& R# K
    % u, r* l1 ]/ n4 ^目标:
    1 R4 n3 Z! f9 f9 d' U% f4 h$ _' `  @
    能够熟知混淆矩阵的含义。! f* k. b! o+ |6 G, n/ g4 c
    能够使用各种指标对分类模型进行评估。
    8 q; j+ x' V! z; e7 o$ t能够独立绘制ROC曲线,并熟悉该曲线细节。
    + f  B2 v& s5 s! g( U能够对样本不均衡进行处理(扩展内容)。
    : G) P: L4 e5 o3 @; h7 Y2、混淆矩阵$ _# s' r8 n' S# e* r
    4 K: u' M2 q+ W9 R: i8 C- k6 `' c" S
    混淆矩阵,可以用来评估模型分类的正确性。% D/ C0 X1 P% N! i6 a4 o
    该矩阵是一个方阵,矩阵的数值用来表示分类器预测的结果,包括真正例(True Positive),假正例(False Positive),真负例(True Negative),假负例(False Negative)。& M7 ]& L* R  D: c, m
    1.png - B: w2 D. N& n2 k) v4 i5 F
    矩阵的形状是2 x 2,其中, - 矩阵的左上角表示,预测值为1,实际值为1(True Positive,简称TP); - 右上角表示预测值为1,实际值为0(False Positive,简称FP); - 左下角表示预测值为0,实际值为1(False Negative,简称FN); - 右下角表示预测值为0,实际值为0(True Negative,简称TN);/ Q2 A/ I4 W$ E/ C( K( }
    9 ~. T: d& z, B8 M' p
    真负例(TN)+ 假正例(FP)——每个类别真实存在的负例的数量
    : |7 ?2 Y  ]' k4 u假负例(FN)+ 真正例(TP)——每个类别真实存在的正例的数量% v. {- m, R3 Z; K4 ]; }7 d6 X1 b
    真负例(TN)+ 假负例(FN)——每个类别预测的真负例数量
    ) ~5 j+ ^2 s# G6 ]- Q; ~假正例(FP)+ 真正例(TP)——每个类别预测的真正例数量- s4 X% H5 U# ^2 f& N7 x6 t7 a
    其中:
    9 K# N. H" t& P8 Z6 D# Q, k& Z4 Y3 s! e/ h4 t
    TP:真正例,实际为正预测为正;6 z' a% i& M3 j% e
    FP:假正例,实际为负但预测为正;
      _1 {0 F+ Q  ?* ~8 f, t9 Z- {$ pFN:假反例,实际为正但预测为负;  |( I! q% o) u8 u; Q2 F5 F
    TN:真反例,实际为负预测为负- b+ C. g- E# L2 J
    接下来,我们通过数据来看下鸢尾花的混淆矩阵:
    ; d  a; q8 T& Y/ Q, H$ pimport numpy as np, h2 r9 X& ~5 Z+ F1 i
    from sklearn.datasets import load_iris
    % {" F4 ?# y, S. {! }7 x7 ofrom sklearn.linear_model import LogisticRegression* A8 x0 ?+ ?$ h7 p3 G
    from sklearn.model_selection import train_test_split
    4 F- b0 Y( y1 v% Q4 Y# 混淆矩阵. y  G! X7 T9 U) |3 B! H
    from sklearn.metrics import confusion_matrix/ ^6 O- g: R  p/ T
    import matplotlib.pyplot as plt  B: z1 B) Z6 {$ [$ q9 T, [
    import warnings) p( d& d: L. b

    * o6 l) k8 A, N+ _2 O9 Mplt.rcParams["font.family"] = "SimHei"9 D. C" R: u( E7 N
    plt.rcParams["axes.unicode_minus"] = False: d2 S7 x4 X) y8 U/ u/ f  \
    plt.rcParams["font.size"] = 12
    : C$ K# G( i1 E+ k' F: m9 Bwarnings.filterwarnings("ignore")
    . {4 g' z# g* i0 l/ k7 B% H! K! v; L  f% Z% F
    iris = load_iris()  #导入鸢尾花数据集* c4 m+ u* z6 l; {$ z+ [
    X, y = iris.data, iris.target
    ) {0 T1 i% H1 j- {, X. V7 ~' U, n/ |5 ~X = X[y != 0, 2:]
    ( K2 d6 m9 L. U, @( Ly = y[y != 0]) B* {9 Q: U' ]4 z* M+ f9 [
    y[y == 1] = 0. n- w5 [& R( F; _# Q- z* B8 o3 M1 l
    y[y == 2] = 16 G$ O8 m' z: G4 u
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=2)
    - J/ Y$ m$ p" _3 S' b( |! ~, m8 Olr = LogisticRegression()  #使用逻辑回归
    3 [" }- r+ U) e2 ?' _. u# w9 p( hlr.fit(X_train, y_train)
    6 h7 ~3 z% c& Hy_hat = lr.predict(X_test)
    , m' y- p& `0 j# E3 {- f# 根据传入的真实值与预测值,创建混淆矩阵。  e1 W% |2 p* L/ u
    matrix = confusion_matrix(y_true=y_test, y_pred=y_hat)
    / I; u/ r+ R' l) _+ r$ t8 m& ^print(matrix)
    " R+ E$ K0 T7 r$ x1 ^. [# n6 x; c4 Q* k) W/ B
    0 F9 j1 M" [# n6 @8 x/ I: |0 F
    输出结果:
    5 ~. p8 V4 q3 S# e 2.png 4 f; j# s( }, b1 U9 Y2 e: k
    我们还可以对其进行可视化操作:
    ( `5 O" Y/ s8 M$ y; c5 m1 Wmat = plt.matshow(matrix, cmap=plt.cm.Blues, alpha=0.5)    #cmap 指定颜色图色系,alpha透明度
    ; M* ]+ K* t' x) f9 Y- J. }label = ["负例", "正例"], i  g! S( M3 j4 L3 v: p3 \, d! T
    ax = plt.gca()
    2 f$ J) r+ @& i0 o& {7 Oax.set(xticks=np.arange(matrix.shape[1]), yticks=np.arange(matrix.shape[0]),
    , K( H- `) i! ^' d# D5 X/ M: |        xticklabels=label, yticklabels=label, title="混淆矩阵可视化\n",3 l6 H4 g7 {) }1 \$ p9 J# W
            ylabel="真实值", xlabel="预测值"). n! _; K  T- M4 k- e. K) t
    for i in range(matrix.shape[0]):9 g& q4 u, U( C1 `5 @' }
        for j in range(matrix.shape[1]):
    5 x  q4 A) r3 I- O, F/ C        plt.text(x=j, y=i, s=matrix[i, j], va="center", ha="center")
    " o; V$ G. n9 M8 {3 p* d% _" da, b = ax.get_ylim()
    ( }7 q( R( Z5 ]0 |' c* d. Oax.set_ylim(a + 0.5, b - 0.5); |/ l5 b3 l3 o% W7 n
    plt.show(); _, x. t% u# F7 s1 O) A
    7 R- M. J( `  M

    / M6 n/ w: t: Q* B/ A6 Q' j代码解析:0 q" J- a' @, d. D0 g+ s% G
    matshow( ) 绘制矩阵,alpha 透明度
    ' E9 [* \2 z9 `. y/ F* t- u结果:
    - Y% Q  L5 `2 ]( A9 k3 D 3.png
    - A6 Y3 b& v9 `% n1 K! `练习:, K0 B3 f% `4 v" M1 x3 m( ?; C

    + M; I( d! A2 Y关于混淆矩阵,说法正确的是( ABCD)。【不定项】
    % q; x  v' c+ o5 F2 r  `) CA 混淆矩阵可以用来评估分类模型。
    & P% m& N* Y1 C7 z5 P, p5 ~B 混淆矩阵中,TP与TN的数值越大,则分类的效果越好。
    ( E. @& U6 ~  `4 D9 fC 混淆矩阵一行元素的和代表某个类别的实际数量。8 l! }: [/ n$ K1 n! I
    D 混淆矩阵一列元素的和代表某个类别的预测数量。
    & m: `: E. [. P: I3、评估指标) l/ X2 p) Z  [" u" |

    / E' M; F8 K# b6 e* ~' o4 O对于分类模型,我们可以提取如下的评估指标:; [3 c3 E* R1 {1 j2 {2 Z7 Y8 R  e7 T

    % H+ Y8 g; s, V) E  P  g$ g正确率(accuracy). ]& L$ D) P5 Y5 F. Y9 e
    精准率(precision)
    8 Q1 C: m. D; q6 d" A召回率(recall)
    ( D. A8 \9 i. N- b, jF1(调和平均值)8 f8 c  @) D- k2 L7 ?
    3.1 正确率  @! G0 y2 Q: p1 J
    4.png
    6 ]7 _' [% O- M8 W2 `9 O正确率(准确率)定义如下:
      S" C2 v5 x' ^; f" `衡量所有样本被分类准确的比例。
    ; ]8 @3 ^( O+ R* bAccuracy = (TP+TN) / (TP+FP+TN+FN)
    1 F( x4 x- [1 U" k; z
    - x" C* Q0 x1 j$ k预测正确的数量除以总数量。
    ' q# s: u- q4 ?7 J# b
    : D! g2 Q, x  M( V3 d6 @% Q4 O3.2 精准率
    : X' N* s; g5 M9 f 5.png
    3 W! h% v; e" y) q3 ?查准率(精准率)定义如下:: [) R3 k+ v, f. l/ d! B) K! m
    衡量正样本的分类准确率,就是说被预测为正样本的样本有多少是真的正样本。
    . ]- y- e% V& s( LPrecision = TP / (TP+FP)
    ; \# \1 J# i5 B. p+ P* A" |, a3 \: \6 C5 m( [! T
    精准率只考虑正例。
    ; c" e* V4 f! D; ^9 |& ^: ]
    3 O* ]3 t0 d% R# d3.3 召回率/ \0 m+ K" E& v7 X8 A$ z2 k
    6.png $ z4 E; f4 ]4 T3 R- @' a1 v
    查全率(召回率)定义如下:
    . l+ h7 W) }- @% n表示分类正确的正样本占总的正样本的比例。
    3 M) y3 {: Z$ }: ORecall = TP / (TP+FN)
    9 c; G; P" r) i/ U) p* k8 t6 Y
    6 _2 i3 b3 v% ^$ a% [; ^$ R
    + y4 s, k/ o/ m9 z' f9 B/ [3.4 调和平均值F1
    , p) ?7 H/ H* Z* l$ B5 H$ ^ 7.png
    # N7 |5 X1 e7 G. nF值(F1-scores)调和平均值F1定义如下:
    / g! t* ^$ t, y( H7 J; J# ?# R精确率和召回率的调和平均。1 L% s+ o9 z: [% N
    精准率Precision和召回率Recall加权调和平均数,并假设两者一样重要。
    ! w) ]  f, P) j9 i8 V/ A9 D+ W9 F" N# B3 E; H& w
    F1-score = (2Recall*Precision) / (Recall + Precision)- d4 o0 T2 B8 G) n' F% {5 R
    % Z! m& G- t! D7 K: P
    精准率和召回率是一对矛盾的度量。一般来说,精准率高时,召回率往往偏低;而召回率高时,精准率往往偏低。通常只有在一些简单任务中,才可能使二者都很高。
    ) d* i2 g0 c" W  [+ D; j+ u" B: Q; W最好的分类器当然是准确率、精确率,召回率都为1,但实际场景中几乎是不可能的,而且精确率和召回率往往会相互影响,一个高了另一个会有所下降,因此在实际应用中要根据具体需求做适当平衡。- G* O+ n. T% i9 k" n7 H
    让我们做个练习加深下印象吧!
    9 _! T5 G: w  N. j
    $ E2 P8 D; e! G' q/ y1 u  o; E以下说法正确的是( C )。& R) ]  T/ \, }# e- k) u
    A 使用正确率去评估一个分类模型,效果会比精准率更好。
    2 ^- u! {3 o! c& w# NB 使用精准率去评估一个分类模型,效果会比召回率更好。
    ! S  E; y0 a- L( S" DC 精准率与召回率通常要联合使用。
    # r) q' |- Y$ Y6 ^7 a7 ~D 精准率与召回率如果有一个值较低,F1值也可能会较高。+ `. \! n/ m0 V8 Y) Z6 Q
    如果精准率和召回率我们只能选择重视一个,我们会更看重( C )。) S; q' [' A( y& _0 ?
    A 精准率。! b. Y5 M1 E; K
    B 召回率。& _& v( @; P9 l+ Y5 @
    C 具体场景不同,重视谁也会不同。7 K6 I8 ~, x  i0 T, E
    接下来我们通过程序来说明下:1 n5 i: `! @7 }& W$ ~- ]. G
    from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score) ^3 T$ e5 K# O* T

    2 R8 W* {. z) X4 X8 b) Mprint("正确率:", accuracy_score(y_test, y_hat))5 h9 Q# J7 {! b/ o- i, b5 V7 s2 m! \
    # 默认将1类别视为正例,可以通过pos_label参数指定。
    # f% Z6 P+ O' ^$ x2 @5 t' Oprint("精准率:", precision_score(y_test, y_hat))
    / ~4 m: U- d) v7 _print("召回率:", recall_score(y_test, y_hat))4 a( H* {  A, B2 |. h
    print("F1调和平均值:", f1_score(y_test, y_hat))
    + @9 K# S: V* w! w, `# 我们也可以调用逻辑回归模型对象的score方法,也能获取正确率。
    + K  v) `1 D+ A8 M# 但是需要注意,score方法与f1_score函数的参数是不同的。
    / r' m1 z8 }# w1 s3 `print("score方法计算正确率:", lr.score(X_test, y_test)); v3 f! s2 `* ^( `1 _
    + F' B( F$ |* ?
    - d: p8 f/ L3 ?, o8 [3 y8 a
    结果:+ H8 j, \; K# W% B" [
    8.png
    / N" U, M( Q2 ?, \2 W! s. x除此之外,我们也可以使用classification_report函数来查看模型的分类统计信息,该方法会返回字符串类型,给出相关的分类指标评估值。
    6 |6 T: f/ r$ \from sklearn.metrics import classification_report
    + p9 Q: I4 B; ]: l( X% e
    % _, A1 f1 A0 K4 V" s& s/ ^print(classification_report(y_true=y_test, y_pred=y_hat))
    " y# h4 V5 k6 J2 c0 E
    4 j, _. D, c3 c* z  K- A' y! @2 T0 T0 c8 X
    结果:' _: M: D; O/ J
    9.png 6 W5 f) U6 s/ A$ \4 J9 D% `0 L

    + R. _% M: B( C' n# H练习:) e- Z% B$ [' X4 |  J- ^

    : y4 \1 v  F2 e3 k  [' s) b如果使用精准率与召回率评估二分类模型时,我们应该将哪个类别设置为正例? (B)
    , F) H  ?9 b" R' g1 @A 随意* Q# I' L' v7 [* C5 i/ s; m
    B 关注的类别
    3 R' J7 U+ A7 TC 不关注的类别$ j( J/ l8 ~0 _5 s' w& J, o  N7 t
    4、ROC和AUC* y1 e5 @: U$ H* j/ ?

    ; A) X; `: R% l8 YROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。! n0 Z# v2 j( q1 z" E9 _

    ; T3 A0 q) Y" V# }1 x4.1 ROC曲线
    ' c( L' C- J6 y! m. c  D8 ^ 10.png ; B9 p! n! u8 R, M4 e3 F+ ]
    ROC曲线(Receiver Operating Characteristic——受试者工作特征曲线),使用图形来描述二分类系统的性能表现。图形的纵轴为真正例率(TPR——True Positive Rate),横轴为假正例率(FPR——False Positive Rate)。其中,真正例率与假正例率定义为:8 A) `) G5 b' x& R3 `7 H( B

    2 c* N6 W6 L# W. f2 qROC曲线通过真正例率(TPR)与假正例率(FPR)两项指标,可以用来评估分类模型的性能。真正例率与假正例率可以通过移动分类模型的阈值而进行计算。随着阈值的改变,真正例率与假负例率也会随之发生改变,进而就可以在ROC曲线坐标上,形成多个点。0 k6 m8 K5 q5 O0 u
    2 V* N) m& v& w/ g2 C
    ROC曲线反映了FPR与TPR之间权衡的情况,通俗来说,即在TPR随着FPR递增的情况下,谁增长得更快,快多少的问题。TPR增长得越快,曲线越往上凸,模型的分类性能就越好。- @" F$ x3 W4 a0 {3 C

    & n* N: J. O$ m. M/ gROC曲线如果为对角线,则可以理解为随机猜测。如果在对角线以下,则其性能比随机猜测还要差。如果ROC曲线真正例率为1,假正例率为0,即曲线为与构成的折线,则此时的分类器是最完美的。
    7 q8 W9 n' x2 L0 o; A
    2 _! v* \4 e* @下图就是ROC曲线的一个示意图:
    * c5 i5 f& J, G6 f: g0 Q 11.png , _, A, R  \3 N+ x
    ROC曲线横坐标是FPR(False Positive Rate),纵坐标是TPR(True Positive Rate)
    # o9 ^9 a4 M- Z* b3 k- C" b接下来我们考虑ROC曲线图中的四个点和一条线。  B" w) f7 P5 m

    , b! q0 H5 }8 f6 A# `! w  X. v4 ?$ S第一个点,(0,1),即FPR=0, TPR=1,这意味着FN(false negative)=0,并且FP(false
    + b; ?- M' c, c7 l6 ipositive)=0。这是一个完美的分类器,它将所有的样本都正确分类。
    5 B' J6 e( w1 R- R- P( [: r第二个点,(1,0),即FPR=1,TPR=0,类似地分析可以发现这是一个最糟糕的分类器,因为它成功避开了所有的正确答案。& x  |/ B" ]7 ?( o- e3 ^
    第三个点,(0,0),即FPR=TPR=0,即FP(false positive)=TP(true; _: g8 W7 v* ^; Q( i5 n
    positive)=0,可以发现该分类器预测所有的样本都为负样本(negative)。  b) `( U! A- V% y
    第四个点(1,1),分类器实际上预测所有的样本都为正样本。经过以上的分析,我们可以断言,ROC曲线越接近左上角,该分类器的性能越好。: `- S1 p# u: \
    如何画ROC曲线:
    ! y6 M0 f- X+ R$ R5 T
    % J* ~# n$ u  R6 i0 J/ V对于一个特定的分类器和测试数据集,显然只能得到一组FPR和TPR结果,而要得到一个曲线,我们实际上需要一系列FPR和TPR的值,这又是如何得到的呢?我们先来看一下wikipedia上对ROC曲线的定义:. Z1 V  p, w- w2 U; y

    " m+ y& Z: ]( S  [# a4 s0 I$ UA receiver operating characteristic curve, i.e. ROC curve, is a5 e7 u3 ~: w( e9 `
    graphical plot that illustrates the diagnostic ability of a binary
    6 N2 u: Q7 I: F' ]. A  f& aclassifier system as its discrimination threshold is varied.0 f. V0 }) b7 ]+ R( I
    译:ROC曲线是由一系列因区分阈值变化产生的点,用于描述二分类模型的判断能力$ k7 e  i5 Z, Z
    这里的关键在于 “its discrimination threshold is varied” ,因为对于一个二分类模型,它的输出结果其实是判断这个样本属于正样本的概率值,假如我们已经得到了所有样本的概率输出(属于正样本的概率),现在的问题是如何改变“discrimination threashold”?我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率
    " ]3 Q3 @3 N0 F$ Q 12.png : H; t' x; j! ?3 \8 Y2 b
    然后我们按照样本的score值,从大到小依次作为阈值,当样本score值大于等于阈值时则判定为正样本,否则为负样本。
    5 a+ o/ Z0 y& K9 ~例如第一个阈值取0.9,这时只有id=1的样本被预测为正样本,其余都是负样本,此时TPR=1/1+9=0.1, FPR=0/0+10=0。还例如:对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。
    1 c! `2 Z) H' m/ m
    : P% a- d7 U2 c详细如下:
    " d' }4 w$ z5 C2 I2 { 13.png 5 u9 T6 k" W, x  i' ?% K
    由此我们便得到了一组(FPR,TPR)的值,可以绘制出ROC曲线:
    # F3 O2 Y: v9 S4 h5 ]3 S+ f5 c 14.png
    1 m. Y, L& r* B" D当我们将threshold设置为1和0时,分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来,就得到了ROC曲线。当threshold取值越多,ROC曲线越平滑。
    ! o! H& N( t/ Z; p3 |: X3 f
    % I* v+ Y2 v  b0 ^! t0 u4.2 AUC
    ! [* q9 @2 m! l( y# a 15.png
    6 v3 a( P: v9 X$ ^. ]) RAUC(Area Under the Curve)是指ROC曲线下的面积,使用AUC值作为评价标准是因为有时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而AUC作为数值可以直观的评价分类器的好坏,值越大越好。$ x, P* g: K% t2 {. }
    ( U3 V. o& r/ ~
    AUC是ROC曲线下的面积。4 h( g+ p* h9 y7 l3 U- x
    AUC的取值为[0.5-1],0.5对应于对角线的“随机猜测模型”。
    9 B9 s4 V3 _. ^" o" xAUC值是一个概率值,当你随机挑选一个正样本以及负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值,AUC值越大,当前分类算法越有可能将正样本排在负样本前面,从而能够更好地分类。  F. ~% }' l/ j

    $ P+ d- A- A/ s$ m' F3 R; \从AUC判断分类器(预测模型)优劣的标准:( F3 B* `" `, @* q  ^( |

    1 I3 e8 G( a) j7 X+ V/ m6 r
    , `( m/ u* v. S0 T% o' t例如一个模型的AUC是0.7,其含义可以理解为:给定一个正样本和一个负样本,在70%的情况下,模型对正样本的打分(概率)高于对负样本的打分。# j$ C# X$ [% u- z! M5 L, ?( z
    ; C# R) i; A) e1 x- r
    三种AUC值示例:
    . ]( ?7 t, ?7 w$ |$ h3 p 16.png
    9 c; c8 c1 _. t6 z. |* s6 [/ m简单说:AUC值越大的分类器,正确率越高。' H% ?9 i1 k3 W* z: X6 S

    / ], @! K6 s8 z4 k( M9 e# z4 f% ^& Q( u那么为什么要用AUC作为二分类模型的评价指标呢?为什么不直接通过计算准确率来对模型进行评价呢?& h, X% C% z) N5 s
    因为机器学习中的很多模型对于分类问题的预测结果大多是概率,即属于某个类别的概率,如果计算准确率的话,就要把概率转化为类别,这就需要设定一个阈值,概率大于某个阈值的属于一类,概率小于某个阈值的属于另一类,而阈值的设定直接影响了准确率的计算。也就是说AUC越高说明阈值分割所能达到的准确率越高。: B! O% z4 ~  l7 K6 ?% {3 J

    9 b$ C' M1 B# V: n( E9 x, X* E+ q小练习:
    8 H2 }4 a! P/ b) u  c' Z8 f1 A8 b5 N- l: z6 k2 B3 ^) j
    以下说法正确的是( ABD)。【不定项】+ P, f& j/ a4 v! o4 ~8 {3 o0 ?( j
    A 随着阈值的降低,TPR与FPR都会增大。4 f3 k8 w% {" f
    B TPR与召回率的值是相同的。8 U1 ~* s9 s5 }5 v8 V1 ]$ f
    C 如果AUC的值非常低,例如,0.1,则该模型效果很差,也很难调优。( n# M# j9 _+ k9 g& L4 q
    D 无论是什么分类模型,ROC曲线一定会经过(0, 0)与(1,1)这两个点。  J8 {# e; V0 v9 R
    4.3 ROC曲线程序示例; g5 d! |9 t" I
    $ f5 X* }4 f. b
    我们首先来看一个简单的程序示例,借此来说明sklearn库中,ROC曲线的实现细节。
    7 a% g& `0 J1 I' v3 S3 ?/ g; O+ p* Y) Q6 f
    4.3.1 roc_curve函数的参数; j3 U' n" h, e0 W, \5 ~
    import numpy as np& L( V* D/ j! A5 n- J
    from sklearn.metrics import roc_curve, auc, roc_auc_score! t1 r+ E: I+ [/ X
    y = np.array([0, 0, 1, 1])
    ( ]  @' M: m- p# f# `: }# ]scores = np.array([0.2, 0.4, 0.35, 0.8])
    " {% e# T4 H, e# 返回ROC曲线相关值。返回FPR,TPR与阈值。当分值达到阈值时,将样本判定为正类,. q! L1 d6 Z3 u( U- H0 P7 y& X* d& v
    # 否则判定为负类。
    $ T& z' a: b( U: w  D# y_true:二分类的标签值(真实值)。
    5 O4 V. P6 p- _, b+ n" w# y_score:每个标签(数据)的分值或概率值。当该值达到阈值时,判定为正例,否则判定为负例。
    6 n  [( V* ]7 @+ a# 在实际模型评估时,该值往往通过决策函数(decision_function)或者概率函数(predict_proba)获得。
    $ w, G2 Z$ z7 G; f2 E, _7 G2 B" X# pos_label:指定正例的标签值。
    5 J( P3 p8 v: U9 \% lfpr, tpr, thresholds = roc_curve(y, scores, pos_label=1)
    & _, ^& `' V2 J; g( O% Yprint(f"fpr:{fpr}")! p! }9 R! ~- a/ x& W+ Y4 g/ Q" Q
    print(f"tpr:{tpr}")
    1 i; h1 K3 U+ C" }5 Fprint(f"thresholds:{thresholds}")
      K) S0 q! I* q, p5 L# auc与roc_auc_score函数都可以返回AUC面积值,但是注意,两个函数的参数是不同的。; w, G# ^- ]- p% K1 c
    print("AUC面积值:", auc(fpr, tpr))
    0 Y" V  J2 r0 ^9 Hprint("AUC面积得分:", roc_auc_score(y_true=y, y_score=scores))
      |6 V: @8 P7 y. ~; i! o4 @#### 3.3.2 roc_curve函数的返回值) G8 l& \3 e1 f4 ], e0 k, Y) d

    " K& H& Y% N4 W! ]+ d结果:9 l- H! ^: V1 h4 o
    17.png 1.8 是怎么来的?0 D# K2 r8 L6 r/ \
    1.8是阈值中最大值+1(0.8+1)得来的。为什么这么算?因为要使得最开始得到的所有阈值都不会超过这个值,才能过(0,0)和(1,1)这两个点。
    ; n# e9 w7 U. f5 X5 H3 P" l1 x8 a  T" @( Q2 V
    4.3.2 roc_curve函数的返回值1 Y% Z! o1 Y* I+ E# t# e: K
    $ P0 }( G  m7 z& U) x9 H: V
    roc_curve函数具有3个返回值:
    ( o$ {+ _% S4 G4 u4 J! p0 S( E4 O5 M5 K
    fpr 对应每个阈值(thresholds)下的fpr值。
    # R8 t$ T5 Y; u. Utpr 对应每个阈值(thresholds)下的tpr值。
    . p8 @, X% R# R# d: q$ Mthresholds 阈值。
    ! a3 b$ o( S; o; Kroc_curve函数会从y_score参数中,选择部分元素作为阈值(选择哪些元素属于实现细节,会根据sklearn版本的不同,也可能会有所差异。),然后进行降序排列,作为roc_curve函数的第3个返回值(thresholds)。同时,根据thresholds中的每个元素(阈值),分别计算fpr与tpr。, c% V* r* i7 J/ u7 m
    iris = load_iris()) G$ |- W( y& Q' b  U! p
    X, y = iris.data, iris.target5 q% L3 `" k. t9 n
    X = X[y != 0, 2:]
    ) H" j& m, D. R& p/ K1 my = y[y != 0]
      C% `# x# T9 Y5 A) J0 r1 |; x, x4 ty[y == 1] = 0
    / e7 B) }( ^+ m8 U# `y[y == 2] = 16 t" ]9 E; A: {+ N; S' \
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25,4 f8 K/ H" V- a
    random_state=2)
    , S! ^7 S  |, \( E3 A* L# lr = LogisticRegression(multi_class="multinomial", solver="lbfgs")
    + g( ^& \# o* M- U3 Y0 ]6 g; D, }- _lr = LogisticRegression(multi_class="ovr", solver="liblinear")4 ]; o* \0 G; F$ }$ J6 D
    lr.fit(X_train, y_train)
    ; |6 `& C/ x" O# 使用概率来作为每个样本数据的分值。# h0 f* g- b8 x" ^6 k
    probo = lr.predict_proba(X_test)
    # D7 L: d& ]0 W0 yfpr, tpr, thresholds = roc_curve(y_true=y_test, y_score=probo[:, 1],
    + ~4 d8 f! z/ w5 ~pos_label=1)
      g" P) ~  V3 Ydisplay(probo[:, 1])9 n: N4 k5 x7 ^; |/ g) n
    # 从概率中,选择若干元素作为阈值,每个阈值下,都可以确定一个tpr与fpr,
    4 G  B, z+ p* a2 P: ~( g6 S8 K' J# 每个tpr与fpr对应ROC曲线上的一个点,将这些点进行连接,就可以绘制ROC曲线。  J6 t+ @  E: P# C. l. ]  |
    display(thresholds). ^( i/ W* y1 Y- h  g1 e: c
    9 R' A" m) N8 K  A9 }& w! U2 u
    结果:* S  D% @) M* g
    18.png * v/ ]5 g' s- w! y2 ?: V
    ' O7 T3 p/ N6 W- S2 O
    , F. ^0 x* E+ c# J- ^# u/ x
    # 随着阈值的不断降低,fpr与tpr都在不断的增大。
    ) ^4 P6 m5 F4 ?3 s6 f! x, ?fpr, tpr. b. a0 _* o7 Q: h

    / d" F% y8 u# `, c结果:
    ' ^  a8 J+ [2 @  Z, W+ m, e3 Q 19.png ' Y$ \6 ^  }; X) H! D
    + j. I3 y: E9 H4 G
    4.3.3 绘制ROC曲线
    ; H) s4 j4 ]6 u  {. D6 ^8 b有了fpr与tpr的值,绘制ROC曲线是非常容易的,只不过是最简单的一个plot而已。
    ' X. \: h; H$ A% Kplt.figure(figsize=(10, 6))
    ( K9 m" i1 E. Q3 E( @9 K5 Hplt.plot(fpr, tpr, marker="o", label="ROC曲线")$ T. _* {2 V% p3 @0 L! O0 D
    plt.plot([0,1], [0,1], lw=2, ls="--", label="随机猜测")$ t/ p9 c+ I. q' @" q8 ~
    plt.plot([0, 0, 1], [0, 1, 1], lw=2, ls="-.", label="完美预测")6 N4 f1 w- M! P4 u5 A
    plt.xlim(-0.01, 1.02)" N3 e3 P" G1 W, `9 _* K
    plt.ylim(-0.01, 1.02)
    6 z" {, @9 c& W) K' N% |plt.xticks(np.arange(0, 1.1, 0.1))2 _+ D' ]; W( w
    plt.yticks(np.arange(0, 1.1, 0.1))+ \7 B, U+ s% O6 e
    plt.xlabel("False Positive Rate(FPR)"): x1 f2 V- D* ?8 d
    plt.ylabel("True Positive Rate(TPR)")
    ; U+ ?& B' b8 W4 t4 ~+ s) `plt.grid()
    " {, C6 i7 X% g( eplt.title(f"ROC曲线-AUC值为{auc(fpr, tpr):.2f}")
    2 ^. a+ {1 n& W5 P! O3 Dplt.legend()0 I( y$ O- q5 k& ?
    plt.show()# n) S3 l1 R: w$ q# Z" `- }1 R
    20.png % P' l8 G; x: v) X( x- f
    ; D- {- e$ L/ ~3 p: ~$ n
    5、总结( |5 _; j0 O: t% I2 [( \, O5 v
    : Q& T0 V) l: o" x, S
    混淆矩阵的含义。
    7 G" o3 b  D4 k" y. |9 d; y正确率,精准率,召回率与调和平均值F1的含义。
    / H) T: B! S* Q* c/ XROC与AUC。1 z+ z5 s( l& t% |) d' p% t2 ]' C/ p+ P& J
    ( Z# ?9 l$ t7 P$ e& a
    参考资料:; f) M3 }! [9 \
    1、https://blog.csdn.net/zuolixiangfisher/article/details/81328297
    . ~4 C; r+ P: l! x3 w2、https://www.jianshu.com/p/2feb00839154
    ' F3 L' t$ h- _7 h' W+ [( {( P1 a3、https://www.cnblogs.com/kamekin/p/9788730.html
    ( O8 O& n; Z: H' z8 {) r0 v/ J4、https://www.jianshu.com/p/c61ae11cc5f6
    + R. p  H8 l: ~1 @5 ~, ?————————————————* {& s7 x  N/ M/ Z: w5 v
    版权声明:本文为CSDN博主「糖潮丽子~辣丽」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    ' ]0 q: \+ Q% b3 l$ @! O# S原文链接:https://blog.csdn.net/qq_39783601/article/details/1056007005 ]" D4 W9 d3 M2 {# h! [6 b) D

    ; W' s& z: y+ l7 C7 c  S
    ; _+ g  [; E- r% _9 c
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    0

    主题

    1

    听众

    11

    积分

    升级  6.32%

  • TA的每日心情
    开心
    2020-4-19 10:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-5-17 05:04 , Processed in 0.486728 second(s), 58 queries .

    回顶部