QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2676|回复: 1
打印 上一主题 下一主题

详细讲解分类模型评估

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-4-19 11:53 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    ) C+ w3 c+ f* S& |( A
    详细讲解分类模型评估分类模型评估
    ( V- d- q( T0 F8 e; V
    ) B6 G+ _2 @4 v) s1 Z3 R8 X' Y3 }1、分类模型
    + U6 L- l6 K; K+ \0 L1 M主题:如何对分类模型进行评估
    / X2 X6 r- y9 |目标:1 M. c$ @0 s) U* K( q4 O
    2、混淆矩阵9 H1 u: ~9 v: p. h5 W
    3、评估指标
    ( ^0 l) a: u2 O% X0 [$ z3.1 正确率
      p/ Y( l2 x. W% e6 a( t3.2 精准率
      a+ j- X# g% I3.3 召回率8 }+ s7 f" j# n* |$ a3 Z8 E
    3.4 调和平均值F1
    $ p2 |( c8 R* j9 ]4、ROC和AUC8 h- v6 `( Y/ ~
    4.1 ROC曲线4 s' u- v" ]7 ?; d$ @- j# b
    如何画ROC曲线:
    " A4 J0 e  W4 _8 Z' U' J4.2 AUC& J+ V4 Y6 l8 Y# z
    4.3 ROC曲线程序示例
      g; M9 ?/ F: h+ {0 L4.3.1 roc_curve函数的参数$ N3 C8 K$ S0 ~7 S5 N+ d! A
    4.3.2 roc_curve函数的返回值
    2 D# W: M) b$ |8 D4.3.3 绘制ROC曲线
    0 H7 W/ l% ]+ {( D6 c' r+ R5、总结# y3 D. l1 c; r" Z/ m
    1、分类模型
    8 K+ z8 z/ F! n; {, g; b! \* x( E. |' c9 M8 A# U* S
    分类问题在我们日常生活中处处可见,比如我们对帅哥的分类,可能对帅哥分为非常帅和一般帅。比如我们平时刷淘宝,淘宝根据我们平时的喜好给我们推送产品,那我们就会把产品分为感兴趣和不感兴趣两类。% V/ h3 r1 x3 L, f" m" P
    上述所说的问题就是典型的分类问题,确切的说其实就是二分类问题。
    # B5 F  v* g& }' {能够解决这些二分类问题的数学模型就被称为二分类模型。, l  r6 Q, C4 |9 S; j
    用数学的方式表达就是,给定自变量X,代入到我们的分类模型F,会输出因变量y,y的取值为0或1,其中0代表负样本(一般帅的帅哥、不感兴趣的推送),1代表正样本(非常帅气的帅哥、感兴趣的推送)。' {4 K8 f' c. q9 P# a# M- K3 T

    2 N1 k9 r& V1 g" v" m; k. \主题:如何对分类模型进行评估
    ; B+ j6 O3 o+ c9 Z( }* T+ c9 G% q
    目标:. B& r" z# O3 a2 Y5 A

    & S$ y- V1 v& }# x能够熟知混淆矩阵的含义。; D) y4 v: c) |; ^
    能够使用各种指标对分类模型进行评估。' |8 e8 n4 q; m
    能够独立绘制ROC曲线,并熟悉该曲线细节。' Y! T* L8 \  O! E" H. D6 [
    能够对样本不均衡进行处理(扩展内容)。- _6 W4 E% Q# I
    2、混淆矩阵
    * |2 B! A& M! U/ ]6 y, S+ _
    # K5 D7 s: @" Z, V3 ?- w混淆矩阵,可以用来评估模型分类的正确性。
    # n& G- n3 D8 H& S* t该矩阵是一个方阵,矩阵的数值用来表示分类器预测的结果,包括真正例(True Positive),假正例(False Positive),真负例(True Negative),假负例(False Negative)。5 T8 B  y6 S8 m# a6 y
    1.png - T$ P6 X4 U1 y4 N0 s
    矩阵的形状是2 x 2,其中, - 矩阵的左上角表示,预测值为1,实际值为1(True Positive,简称TP); - 右上角表示预测值为1,实际值为0(False Positive,简称FP); - 左下角表示预测值为0,实际值为1(False Negative,简称FN); - 右下角表示预测值为0,实际值为0(True Negative,简称TN);
    5 M/ ]: M/ w/ ^  U+ r! q2 {& W3 R( Y' p; U; d2 u/ D; x' i5 H7 K4 ]
    真负例(TN)+ 假正例(FP)——每个类别真实存在的负例的数量( \% y* }) Q$ \: j  d
    假负例(FN)+ 真正例(TP)——每个类别真实存在的正例的数量
    ' l6 H/ N$ i! d: I2 G/ E2 D真负例(TN)+ 假负例(FN)——每个类别预测的真负例数量
    7 L: ?* Y  W" d: _, t4 ^: B7 U# P- |& f% y假正例(FP)+ 真正例(TP)——每个类别预测的真正例数量
    * S  o3 H% H0 @2 q! U' i其中:
    4 G% K( G' S& J* f
    - d' e, B) i  Q0 S! R7 QTP:真正例,实际为正预测为正;
    , o- g/ d- M5 v+ `FP:假正例,实际为负但预测为正;( F' d. t4 ^# q8 W
    FN:假反例,实际为正但预测为负;$ N/ j* c1 R) V, _9 I9 s
    TN:真反例,实际为负预测为负
    ( y7 P7 l0 g4 X' H$ {, E% E; T5 G接下来,我们通过数据来看下鸢尾花的混淆矩阵:* s, D7 V4 j) X  D- `
    import numpy as np3 C: d9 k' L# R+ S4 K5 ~: G8 b7 V6 z
    from sklearn.datasets import load_iris8 a5 Z, K6 @- q/ s
    from sklearn.linear_model import LogisticRegression
    7 c) N* y# @5 p' Ffrom sklearn.model_selection import train_test_split
    + k8 b! @: I3 X0 C; g/ S# 混淆矩阵
      R6 c0 c6 }2 U% y7 {: k4 pfrom sklearn.metrics import confusion_matrix0 ]+ U9 w( t+ e
    import matplotlib.pyplot as plt
    1 h# K' J7 S$ E% Limport warnings
    ! z* @/ F  U3 c: A4 j% h
    " N' t: _9 j. i% `& a. Fplt.rcParams["font.family"] = "SimHei"' J) ^7 P4 q# ~* p. k% B6 h; w
    plt.rcParams["axes.unicode_minus"] = False
    , h, q" i! N( l' X. Zplt.rcParams["font.size"] = 12
    3 D3 X0 d. c8 ]8 l& j* t3 wwarnings.filterwarnings("ignore")
    $ _2 }4 _& y4 a( z
      o& L8 w1 F) N3 W- Ziris = load_iris()  #导入鸢尾花数据集$ i0 i: w# T% U; u* L; W  W" u
    X, y = iris.data, iris.target& h7 C. h  z0 u  v- T4 Q9 t. P
    X = X[y != 0, 2:]
    6 N! H5 {- p% h9 w$ E' O6 ~y = y[y != 0]7 z) S3 U5 {3 Q& c
    y[y == 1] = 0: A' K4 ^) W& e8 }' s, W
    y[y == 2] = 19 j9 u- c) f$ t) y) K; z
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=2)
    ' s8 C& T. b* E9 X& a4 q9 qlr = LogisticRegression()  #使用逻辑回归6 ^' l- O) v" ?: J7 r/ S
    lr.fit(X_train, y_train). g: b2 P. p5 r7 {4 L+ _* p
    y_hat = lr.predict(X_test)7 r$ {/ q) K9 \9 Z4 S
    # 根据传入的真实值与预测值,创建混淆矩阵。
    4 A" B$ q" @+ g! H* z0 ]& cmatrix = confusion_matrix(y_true=y_test, y_pred=y_hat). ?8 q) ~, Z2 R) `7 H, P
    print(matrix)4 t9 J0 U1 z6 Z6 {+ U; t
    4 l' D% v/ ^& _. o1 Z

    + F4 T4 _: P$ f  U+ z- b输出结果:- f- R( m2 Q# Z+ Q
    2.png & h8 ~1 `* V7 I2 n3 f
    我们还可以对其进行可视化操作:- ^' Z, D+ L; _7 y6 \9 a, X& q
    mat = plt.matshow(matrix, cmap=plt.cm.Blues, alpha=0.5)    #cmap 指定颜色图色系,alpha透明度
    & L$ O/ K1 e- ]3 j, k* y+ llabel = ["负例", "正例"]
    ) E( X8 T  o9 o. g! Cax = plt.gca()
    1 h* O8 Q  T+ F3 a* B# Cax.set(xticks=np.arange(matrix.shape[1]), yticks=np.arange(matrix.shape[0]),* x; q) e) _% {/ n9 z8 K! Z
            xticklabels=label, yticklabels=label, title="混淆矩阵可视化\n",* C, Q. q; q. T4 p' j/ r# m+ @& q
            ylabel="真实值", xlabel="预测值")6 u5 V* y7 _8 R( G5 C# s' b
    for i in range(matrix.shape[0]):
    7 I) ^$ _! B+ T  F    for j in range(matrix.shape[1]):* H( D3 u' n) ]. U
            plt.text(x=j, y=i, s=matrix[i, j], va="center", ha="center")
    8 H) _  t4 r: _+ f# t5 [' Oa, b = ax.get_ylim()& F: G+ r) {3 a9 S* y
    ax.set_ylim(a + 0.5, b - 0.5)& ^; @$ d& }- L9 H- \
    plt.show()4 }" m9 j  R9 h. H' Z% t

    9 P& n& R: H. ~( `- G  s8 v' u3 J' n$ I
    代码解析:
    / \2 c+ ^* {: j( S# Wmatshow( ) 绘制矩阵,alpha 透明度) T* ~8 c% R2 R- z! T& D9 d$ I5 x
    结果:4 \# N/ N5 a0 S6 l
    3.png
    8 k* S9 Q8 [/ u5 W; L) f练习:# [7 q; _) P% t- a, K$ i

    & u( t  X* z) _8 ]" r& A, L* G关于混淆矩阵,说法正确的是( ABCD)。【不定项】6 D4 D% o0 o* F6 Q0 ?+ y
    A 混淆矩阵可以用来评估分类模型。
    1 P8 m) L' q: u5 h$ `& cB 混淆矩阵中,TP与TN的数值越大,则分类的效果越好。6 a9 N! l7 @8 `, ]5 B
    C 混淆矩阵一行元素的和代表某个类别的实际数量。6 E" }& S, _+ N* l: R
    D 混淆矩阵一列元素的和代表某个类别的预测数量。
    : B# I2 q; Z: ?5 |" }3、评估指标  b* _! V" K" Y; E" m
    ; Q9 h" d6 L" f
    对于分类模型,我们可以提取如下的评估指标:
    2 [9 x- L5 j! k; Z* [$ v  h. S' x9 M" y: Q) r  s8 \( c/ f
    正确率(accuracy)& n# w$ \6 O( T  J  |
    精准率(precision)
    # L8 m7 d# V" v; d( u. U召回率(recall)  r/ {" |- P3 j& n1 y/ Y
    F1(调和平均值); n' {) |* j! s8 e0 W. Q/ l
    3.1 正确率
    8 O7 [( v9 ]* I, t! F! w( {7 n; B 4.png 6 @; D- P# z7 `
    正确率(准确率)定义如下:
    3 g) B6 H$ G8 y' j衡量所有样本被分类准确的比例。# ]/ E  f+ W& d* [7 Q8 v3 g" n
    Accuracy = (TP+TN) / (TP+FP+TN+FN)
    9 _) O2 ]& @4 W% I" i' R6 c! Z& N& ~7 F  B& `
    预测正确的数量除以总数量。# S( X' K# Q4 g  C/ J' m% F

    $ l/ H+ U$ o( d6 N+ G3 {/ a7 f% U3.2 精准率
    8 i  ]$ |1 R( B" {# L4 |& k; ?* f 5.png
    0 H2 e/ s' l7 D查准率(精准率)定义如下:
      C9 f. }% j- Y  K) n衡量正样本的分类准确率,就是说被预测为正样本的样本有多少是真的正样本。' d# P. `$ r5 g7 C
    Precision = TP / (TP+FP)
    0 B  j" }$ y- z7 c$ V" U7 d9 E7 J; L3 F9 j% S* E6 w/ A& a5 s
    精准率只考虑正例。1 L/ K9 E: o) B6 M7 ~, L. x$ j8 S

    - Q4 c% A1 T' }0 d3.3 召回率
    , D# I# |9 F5 K% E3 \) o 6.png ! L" s8 ?/ `6 Z7 c3 M& A( [: ]
    查全率(召回率)定义如下:  I* m. m0 U6 s7 N. t0 s+ H
    表示分类正确的正样本占总的正样本的比例。) n, T6 D/ C/ A9 U; D% q% K7 ^
    Recall = TP / (TP+FN)' F8 q4 j0 Q( o! |

    & P2 W0 {# F1 Y/ B) N* \8 \7 o
    # R- ^" C# c4 Q9 W4 e$ L/ Z4 k5 g! b3.4 调和平均值F1
    1 @( l3 I+ H# h% J* M6 ` 7.png
    ! j6 h& E7 G4 o( dF值(F1-scores)调和平均值F1定义如下:# ~& y6 r% Z0 c8 P  d( t6 A! I$ A
    精确率和召回率的调和平均。
    , {+ Z% O) I8 b& j9 y/ ^精准率Precision和召回率Recall加权调和平均数,并假设两者一样重要。, }' T* ]3 U% Q, O  a
    ! X$ Y( R6 t  Y! r7 c& ^
    F1-score = (2Recall*Precision) / (Recall + Precision)
    5 N, I( A: H9 f1 ^7 e2 I2 ~  w, ?3 ^+ }
    精准率和召回率是一对矛盾的度量。一般来说,精准率高时,召回率往往偏低;而召回率高时,精准率往往偏低。通常只有在一些简单任务中,才可能使二者都很高。) D' c% j8 m. }2 Z: G
    最好的分类器当然是准确率、精确率,召回率都为1,但实际场景中几乎是不可能的,而且精确率和召回率往往会相互影响,一个高了另一个会有所下降,因此在实际应用中要根据具体需求做适当平衡。; A4 }! F: x. U! Z+ t9 b& P
    让我们做个练习加深下印象吧!: W$ y* U; e; e: ~3 [" _
    $ ?5 C% ^& l5 p, l4 m5 R
    以下说法正确的是( C )。* f: g7 Q( C* C$ |
    A 使用正确率去评估一个分类模型,效果会比精准率更好。
    * T( [  B, v0 r* k# y  }7 \. JB 使用精准率去评估一个分类模型,效果会比召回率更好。# ]. Y6 m" e- w4 w& p
    C 精准率与召回率通常要联合使用。
    6 i8 b6 [0 X8 CD 精准率与召回率如果有一个值较低,F1值也可能会较高。
    # ~8 m9 I' X, Q% h6 T如果精准率和召回率我们只能选择重视一个,我们会更看重( C )。5 ?$ ^" q5 X! C; R+ [; n+ J
    A 精准率。3 j& \8 L. l& C9 r/ c
    B 召回率。
    * T5 @( U2 M3 S: G7 e0 OC 具体场景不同,重视谁也会不同。
    ! Q& H# y! o5 F/ c( r5 O, m: `; s接下来我们通过程序来说明下:
    - o' I3 f. ^6 m1 K* Tfrom sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
    " O' U1 o' O! {6 ~# h- f( o. s6 d& ], R; H
    print("正确率:", accuracy_score(y_test, y_hat))
    # T3 O1 F$ f6 P% ~% e- U) i# 默认将1类别视为正例,可以通过pos_label参数指定。8 Z' t& y: g+ ]7 ~* M& y+ e
    print("精准率:", precision_score(y_test, y_hat))
    2 T; C9 A% Y7 {, q* D/ Wprint("召回率:", recall_score(y_test, y_hat))5 u0 r% f! C" m% _& T- _
    print("F1调和平均值:", f1_score(y_test, y_hat))2 z/ o2 e' y# \2 g8 @( |
    # 我们也可以调用逻辑回归模型对象的score方法,也能获取正确率。
    - `3 O* }$ ~! W$ W8 e# 但是需要注意,score方法与f1_score函数的参数是不同的。3 \* h, n+ c( H! l7 I1 i
    print("score方法计算正确率:", lr.score(X_test, y_test))& `8 n& W! s5 s5 P: \

    $ e' p! `  Y4 h9 M1 v( c
    - {* p) F: _3 H' ?5 U' B5 ]5 ^结果:
    2 m1 K# p7 Y5 r$ R/ D+ C* _ 8.png 7 N( u2 |/ |0 }8 O
    除此之外,我们也可以使用classification_report函数来查看模型的分类统计信息,该方法会返回字符串类型,给出相关的分类指标评估值。! C4 ^! B! D, e8 U/ D( g% Y
    from sklearn.metrics import classification_report* Q, w5 e8 S/ I8 N4 n, m

    5 Q( v2 J, j2 s2 c0 ~* L4 Eprint(classification_report(y_true=y_test, y_pred=y_hat))
    4 d$ D- \5 N: ?8 _- b; X6 L/ H' R+ T0 w4 I9 z

    + c1 a+ ?9 C3 o/ \结果:8 S) f; w, h* T- M1 _5 ^9 j, _
    9.png
    1 q/ `. a# r' D# K! J9 J
    + e7 h" q" j2 z0 |6 ^练习:
    8 s& I$ }4 u+ Y3 ?( R# N& S" ]% K
    如果使用精准率与召回率评估二分类模型时,我们应该将哪个类别设置为正例? (B)! W0 P4 L& s) Q, h
    A 随意* D4 p" d* I9 d. P4 g8 s$ }
    B 关注的类别( B& S3 z) h) y
    C 不关注的类别6 a4 |- d* w  Y7 Y
    4、ROC和AUC
    , r! o! {" s1 R* p
    2 {3 m0 E; y+ c3 E- r; AROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。! W7 W; j, `% Z" |9 t# `& N
    ) e( V) a: n, W' x  K2 E/ D; B
    4.1 ROC曲线
    * t9 ^# d: ^5 S4 S, d) S! T 10.png ' Q* l9 F4 ?8 u! {
    ROC曲线(Receiver Operating Characteristic——受试者工作特征曲线),使用图形来描述二分类系统的性能表现。图形的纵轴为真正例率(TPR——True Positive Rate),横轴为假正例率(FPR——False Positive Rate)。其中,真正例率与假正例率定义为:9 d* [' ?& `5 T% w1 u

    : i4 p9 N% c3 p* Y; _ROC曲线通过真正例率(TPR)与假正例率(FPR)两项指标,可以用来评估分类模型的性能。真正例率与假正例率可以通过移动分类模型的阈值而进行计算。随着阈值的改变,真正例率与假负例率也会随之发生改变,进而就可以在ROC曲线坐标上,形成多个点。  d0 C- |8 V* m5 z
    * t/ i8 z. N; s- v; ?+ K
    ROC曲线反映了FPR与TPR之间权衡的情况,通俗来说,即在TPR随着FPR递增的情况下,谁增长得更快,快多少的问题。TPR增长得越快,曲线越往上凸,模型的分类性能就越好。2 z) J' n( F: m9 B  K2 M' P/ ~

    % F8 F4 w& l! R! |! C$ nROC曲线如果为对角线,则可以理解为随机猜测。如果在对角线以下,则其性能比随机猜测还要差。如果ROC曲线真正例率为1,假正例率为0,即曲线为与构成的折线,则此时的分类器是最完美的。
    ! S. w! o  x4 U5 E2 j, _
    + N1 i. N- |$ r! q& c5 J! m5 A7 c下图就是ROC曲线的一个示意图:
    # k7 J0 m" h+ N- { 11.png
    6 _. e, u% }) ~* j  s; k. J4 EROC曲线横坐标是FPR(False Positive Rate),纵坐标是TPR(True Positive Rate)% S* s1 Z  A: F5 S
    接下来我们考虑ROC曲线图中的四个点和一条线。
    2 T, A& a0 X* I' n' H2 N0 l; ?# I/ w1 _; p" E, s, M
    第一个点,(0,1),即FPR=0, TPR=1,这意味着FN(false negative)=0,并且FP(false* |3 s  [& l7 H/ e' S* f/ ^
    positive)=0。这是一个完美的分类器,它将所有的样本都正确分类。
    / j# I! V- I5 }( g+ y' k; z: I第二个点,(1,0),即FPR=1,TPR=0,类似地分析可以发现这是一个最糟糕的分类器,因为它成功避开了所有的正确答案。5 G4 Z- m! j  b  u" a6 [: H9 @
    第三个点,(0,0),即FPR=TPR=0,即FP(false positive)=TP(true7 @/ |2 \# e7 v$ V- o- F: r- u+ N
    positive)=0,可以发现该分类器预测所有的样本都为负样本(negative)。1 L  r: r: n) [. W7 k( P( i
    第四个点(1,1),分类器实际上预测所有的样本都为正样本。经过以上的分析,我们可以断言,ROC曲线越接近左上角,该分类器的性能越好。
    1 j% R) s( c; f4 f, q8 d如何画ROC曲线:6 E6 E, [, `0 e: P  j) z

    * [$ s% ^1 Z! H; b8 f对于一个特定的分类器和测试数据集,显然只能得到一组FPR和TPR结果,而要得到一个曲线,我们实际上需要一系列FPR和TPR的值,这又是如何得到的呢?我们先来看一下wikipedia上对ROC曲线的定义:
    8 \/ @: Z$ K# p
    ; z' n, e4 k- D1 B) qA receiver operating characteristic curve, i.e. ROC curve, is a
    , O: B7 ^7 q4 q  |' tgraphical plot that illustrates the diagnostic ability of a binary4 L8 p8 T7 f" a  |; ]
    classifier system as its discrimination threshold is varied.0 E$ r: [. p0 H& i' M3 f: i
    译:ROC曲线是由一系列因区分阈值变化产生的点,用于描述二分类模型的判断能力
    + X$ j2 s# Y+ o8 k这里的关键在于 “its discrimination threshold is varied” ,因为对于一个二分类模型,它的输出结果其实是判断这个样本属于正样本的概率值,假如我们已经得到了所有样本的概率输出(属于正样本的概率),现在的问题是如何改变“discrimination threashold”?我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率
    1 U: H! z- m- i1 P6 x% d+ D 12.png
    " \  N- g! D& J7 y% L6 K, O8 J然后我们按照样本的score值,从大到小依次作为阈值,当样本score值大于等于阈值时则判定为正样本,否则为负样本。
    ; @- S2 r+ W1 ~# s7 l6 ?# Y+ f例如第一个阈值取0.9,这时只有id=1的样本被预测为正样本,其余都是负样本,此时TPR=1/1+9=0.1, FPR=0/0+10=0。还例如:对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。) W' ]4 |3 d7 E- p4 J
    2 f4 d& ~' ?7 b( K1 u5 p
    详细如下:
    1 \+ F9 z3 m, ~6 E, J: m% S1 r 13.png $ L' }9 E% f7 [4 s1 ]
    由此我们便得到了一组(FPR,TPR)的值,可以绘制出ROC曲线:
    . F& X( ~3 [4 `6 c 14.png
    ! v$ C( I  ]% X, G6 t当我们将threshold设置为1和0时,分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来,就得到了ROC曲线。当threshold取值越多,ROC曲线越平滑。5 ~/ _+ m( f1 L/ ]" Q
    , v: q* c' t  a
    4.2 AUC
    ' V& {1 \; T- e9 r3 |) D 15.png   D( `- D6 f2 G  m3 }
    AUC(Area Under the Curve)是指ROC曲线下的面积,使用AUC值作为评价标准是因为有时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而AUC作为数值可以直观的评价分类器的好坏,值越大越好。
    ) V1 l5 W: W/ j! {
    * d  d) H: g5 F. bAUC是ROC曲线下的面积。
    5 E3 Q# F0 O9 ^2 GAUC的取值为[0.5-1],0.5对应于对角线的“随机猜测模型”。
    / {+ R# S9 P7 [" w4 tAUC值是一个概率值,当你随机挑选一个正样本以及负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值,AUC值越大,当前分类算法越有可能将正样本排在负样本前面,从而能够更好地分类。
    $ X9 c& X4 x. D  `  z% J$ T
    8 K/ L2 A7 }  T2 z# F1 ?从AUC判断分类器(预测模型)优劣的标准:
    5 H* g% }' D3 K/ [: a/ z4 w; M* x
    ! ?* s5 V3 q' {/ C* I
    例如一个模型的AUC是0.7,其含义可以理解为:给定一个正样本和一个负样本,在70%的情况下,模型对正样本的打分(概率)高于对负样本的打分。6 V0 @1 a2 |$ S; G5 p$ \
    # i' Y: X* q! o: G) B
    三种AUC值示例:
    : T4 a3 j. B0 [7 M 16.png
    4 `0 O% ^5 C& {+ Z简单说:AUC值越大的分类器,正确率越高。
    9 J9 V4 [$ t- ^: v% g3 g
    3 u" F. L; S. Y/ Z1 `那么为什么要用AUC作为二分类模型的评价指标呢?为什么不直接通过计算准确率来对模型进行评价呢?6 w; s5 z" l+ B8 E6 g( H4 p  u
    因为机器学习中的很多模型对于分类问题的预测结果大多是概率,即属于某个类别的概率,如果计算准确率的话,就要把概率转化为类别,这就需要设定一个阈值,概率大于某个阈值的属于一类,概率小于某个阈值的属于另一类,而阈值的设定直接影响了准确率的计算。也就是说AUC越高说明阈值分割所能达到的准确率越高。
    - M4 O& ~$ B4 N) L" }
    % k5 q3 V* O. b, f  i/ e小练习:
    5 v( W" d% O8 @' V4 @; U+ s1 w& G2 C7 d- i% S
    以下说法正确的是( ABD)。【不定项】% x4 _* x6 H9 p, c$ ~3 g
    A 随着阈值的降低,TPR与FPR都会增大。5 H4 s4 q# _* {; F! w
    B TPR与召回率的值是相同的。
    # f+ f, \8 k3 h4 w/ XC 如果AUC的值非常低,例如,0.1,则该模型效果很差,也很难调优。
    # U+ q: f$ m+ d7 q2 Q9 N. pD 无论是什么分类模型,ROC曲线一定会经过(0, 0)与(1,1)这两个点。
    . J( `- Q5 N- v1 f3 V1 \& q4.3 ROC曲线程序示例8 X3 F# A  e3 }- a& W9 B9 f

    1 y* k# B( V0 u% ~2 }, q) |我们首先来看一个简单的程序示例,借此来说明sklearn库中,ROC曲线的实现细节。3 V7 p' }; A! c) `0 i

    , o- [$ h) v9 E) H  y; N3 _7 S4.3.1 roc_curve函数的参数
    : ]8 @7 B) I4 F, ^' p- g+ {. ]import numpy as np
    ; H7 J9 ^0 L0 l5 \* Mfrom sklearn.metrics import roc_curve, auc, roc_auc_score
    - N; K; N- v. _9 y& fy = np.array([0, 0, 1, 1])
    " n% ?  ?" c; d( L. ?& I1 k9 d; ?scores = np.array([0.2, 0.4, 0.35, 0.8])
    $ H) ]( e% e$ N8 H# 返回ROC曲线相关值。返回FPR,TPR与阈值。当分值达到阈值时,将样本判定为正类,
    1 ^2 W! {6 M7 L# h# z* \4 M2 d2 K# 否则判定为负类。
      B. H( g, z" W' z* }$ r# y_true:二分类的标签值(真实值)。
    4 L% O, s+ ^- z5 g+ b7 u6 b& C# y_score:每个标签(数据)的分值或概率值。当该值达到阈值时,判定为正例,否则判定为负例。9 R$ ?/ t0 m& i8 C+ Z2 S/ B1 ]3 i
    # 在实际模型评估时,该值往往通过决策函数(decision_function)或者概率函数(predict_proba)获得。2 k/ |4 V( G  N" ~. `* }& h
    # pos_label:指定正例的标签值。
    " j+ u/ N3 {! u  }/ J0 a  M# Z. lfpr, tpr, thresholds = roc_curve(y, scores, pos_label=1)) W; G' q# [/ k+ @! R5 \
    print(f"fpr:{fpr}")0 m; |1 o# n6 n, q
    print(f"tpr:{tpr}")
    + k0 `2 c3 {( ?" x$ Jprint(f"thresholds:{thresholds}")
    7 T$ G3 X/ X# K; V2 A6 `# auc与roc_auc_score函数都可以返回AUC面积值,但是注意,两个函数的参数是不同的。
    " b2 ]! R& H* D. Lprint("AUC面积值:", auc(fpr, tpr))
    6 e* a, p; I+ ?4 @0 }print("AUC面积得分:", roc_auc_score(y_true=y, y_score=scores)). R; J! D6 E3 g* Q  X+ `
    #### 3.3.2 roc_curve函数的返回值
    * h. E) }9 u7 f' y% f
    / t/ k3 j  S. m1 q结果:' \# e7 r( Q/ z1 \% J
    17.png 1.8 是怎么来的?& w$ ^3 H/ U  }
    1.8是阈值中最大值+1(0.8+1)得来的。为什么这么算?因为要使得最开始得到的所有阈值都不会超过这个值,才能过(0,0)和(1,1)这两个点。
    # }9 e& M+ \$ F' V" F0 [. K* X
    # r; s# x# Z) B- Y* z4 h# N4.3.2 roc_curve函数的返回值# v3 |/ K  {; I8 e5 |$ z3 ~+ `

    ' j8 Z. y" J3 b% ~2 m& v, @% [0 hroc_curve函数具有3个返回值:
    , r' g/ M3 }2 o; V$ `! P; ~7 ~( r. T7 O
    fpr 对应每个阈值(thresholds)下的fpr值。: p5 a* n4 a9 b8 X" V% \) i
    tpr 对应每个阈值(thresholds)下的tpr值。
    : ~# J3 \( Y5 E3 v4 Sthresholds 阈值。3 e/ O( T: X2 L% ?
    roc_curve函数会从y_score参数中,选择部分元素作为阈值(选择哪些元素属于实现细节,会根据sklearn版本的不同,也可能会有所差异。),然后进行降序排列,作为roc_curve函数的第3个返回值(thresholds)。同时,根据thresholds中的每个元素(阈值),分别计算fpr与tpr。
    . {6 M! I+ |0 O/ Niris = load_iris()7 f7 O7 b( U! n
    X, y = iris.data, iris.target9 n" F8 n4 R9 h
    X = X[y != 0, 2:]3 q* r# A1 y. t& B3 C/ m6 I) F
    y = y[y != 0]
      G: P1 u* ]7 g4 ]y[y == 1] = 0/ z" D8 l( A& s: r
    y[y == 2] = 19 N2 y- r" F; E4 e; ?
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25," J- v; P0 \3 U
    random_state=2)  ?* t' }# J" p3 `
    # lr = LogisticRegression(multi_class="multinomial", solver="lbfgs")
    ! f# c" Y( F3 g: Ulr = LogisticRegression(multi_class="ovr", solver="liblinear")
    & S6 v; a& E8 w& Olr.fit(X_train, y_train)% O3 Z7 T6 e2 R0 O5 D" s3 P
    # 使用概率来作为每个样本数据的分值。, [  b2 Z9 p9 K. f" R2 P& B6 ~' g
    probo = lr.predict_proba(X_test)
    : l. v' R+ H% Bfpr, tpr, thresholds = roc_curve(y_true=y_test, y_score=probo[:, 1],
    ! r3 C' K( J( ]$ C+ e+ b+ Mpos_label=1)
    ; y7 Z: O8 g4 t% o8 Zdisplay(probo[:, 1]), ^- y& N& ~1 G
    # 从概率中,选择若干元素作为阈值,每个阈值下,都可以确定一个tpr与fpr,  n% a( n% s$ s( B
    # 每个tpr与fpr对应ROC曲线上的一个点,将这些点进行连接,就可以绘制ROC曲线。
    ( ?* s6 w2 H7 Q& U* M, |" u$ f7 ydisplay(thresholds)
    ; v' G1 |/ H" w% A! w- Q6 M' L5 S, }; D4 Y/ p
    结果:
      F* P  k8 t3 Q- h 18.png
    " h9 t- t- _; z
    1 q4 j2 z4 E, j$ ?, J, `' q2 n. |# H
    : Y8 h6 _5 _/ U& S# 随着阈值的不断降低,fpr与tpr都在不断的增大。: H1 v4 B1 w/ T/ ~
    fpr, tpr
    # m6 b! y" V& y9 \/ Q3 x2 Q0 G+ O/ f$ \& V1 `2 T2 z% W
    结果:
    9 ^/ n6 l' a/ \; G 19.png
    * U7 X: E1 T( z: _9 u7 S
    3 h- N! L2 h: X; N9 L4.3.3 绘制ROC曲线
    3 }- ~, d  ~( ~有了fpr与tpr的值,绘制ROC曲线是非常容易的,只不过是最简单的一个plot而已。
    $ C2 c* O$ {: ]9 W, b4 vplt.figure(figsize=(10, 6))- R4 \0 ?3 {" x1 S) [4 J
    plt.plot(fpr, tpr, marker="o", label="ROC曲线")+ S* a/ ^7 e$ A% a4 m' m9 W
    plt.plot([0,1], [0,1], lw=2, ls="--", label="随机猜测"): E: W0 C' s' Q
    plt.plot([0, 0, 1], [0, 1, 1], lw=2, ls="-.", label="完美预测"), Q) g# g7 M3 R' t, d
    plt.xlim(-0.01, 1.02)
    1 r3 `+ y" W. M: eplt.ylim(-0.01, 1.02)1 k0 c5 ?: _+ [5 G" W5 l8 c
    plt.xticks(np.arange(0, 1.1, 0.1))
    + f/ U1 q) D, N* f  O% E8 Y3 Aplt.yticks(np.arange(0, 1.1, 0.1))
    6 D; a9 Z% y" A+ w8 ?2 j, t* bplt.xlabel("False Positive Rate(FPR)")
      I" K# {- e3 H8 J7 zplt.ylabel("True Positive Rate(TPR)")- x& h. W- F( r. t, f  N
    plt.grid()' Y- m. m- O% Z6 s8 K3 F( ]
    plt.title(f"ROC曲线-AUC值为{auc(fpr, tpr):.2f}")
    # i. g* f) ]% }8 O* [9 [5 [% f7 q7 {plt.legend()! ]+ [5 V! C: e( ^
    plt.show()3 o1 D9 p  _7 `
    20.png 4 w6 C' `+ z# a  L5 d5 J- z

    2 a9 d" x* `1 ]  p" L/ l5、总结/ H3 S) M2 G# {  C( z: s1 `; T2 Z

    . l+ ^2 A* `+ B* g6 \; F混淆矩阵的含义。
    ( n& D  |& L5 t正确率,精准率,召回率与调和平均值F1的含义。
    0 X- ~% E; n" A3 TROC与AUC。
    + X* D. L7 r7 w, {8 i  j. }5 @7 X( d& K6 w. V. s/ q2 w' Z4 [+ X5 v
    参考资料:9 [+ |* Q* \# |
    1、https://blog.csdn.net/zuolixiangfisher/article/details/81328297
    # T" L' @( z$ k2、https://www.jianshu.com/p/2feb00839154
    & x; \+ I. A0 _3、https://www.cnblogs.com/kamekin/p/9788730.html
    & }0 t4 H  d( a1 L4、https://www.jianshu.com/p/c61ae11cc5f6
    ( q! H2 K$ D+ \# N————————————————) ]( Z5 `; d( W
    版权声明:本文为CSDN博主「糖潮丽子~辣丽」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。3 J6 _# x7 Q. E6 ^8 l. s
    原文链接:https://blog.csdn.net/qq_39783601/article/details/105600700
    : T  `0 J" R# c1 _7 @" U6 ?( ?
    $ [% D/ E  M9 j; ]9 J& ~
    . T0 T0 j" ]$ B, |
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    0

    主题

    1

    听众

    11

    积分

    升级  6.32%

  • TA的每日心情
    开心
    2020-4-19 10:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-21 00:34 , Processed in 2.359068 second(s), 59 queries .

    回顶部