QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2354|回复: 1
打印 上一主题 下一主题

详细讲解分类模型评估

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-4-19 11:53 |只看该作者 |正序浏览
    |招呼Ta 关注Ta
    8 W, K& q8 y$ X# R- E- [/ O  \
    详细讲解分类模型评估分类模型评估( t2 r+ M4 h! G  y. }

    8 a* u- A* q6 ]5 B* @1、分类模型, }$ ]) X/ v+ z6 ~
    主题:如何对分类模型进行评估, y+ c7 q3 R  v9 `0 u; ^
    目标:) G9 S( z  e( [* y% I
    2、混淆矩阵
    " I9 t# w7 }3 n5 A1 l3、评估指标8 R9 B4 E8 V% v
    3.1 正确率
    , l0 o- l5 i+ a6 }1 U- M" y. I3.2 精准率9 \' P1 v/ o! |; B
    3.3 召回率
    # E5 M1 o, M- ]9 _& p; B- s3.4 调和平均值F1  B. ~- o' o' G7 U' |
    4、ROC和AUC
    5 I( Z1 O% w8 u# N4.1 ROC曲线6 l! T- g1 V" ~, y3 q1 Q" ?) c
    如何画ROC曲线:5 [8 O( B0 \8 t+ G$ b
    4.2 AUC( A7 Z* G0 K7 Y7 @, W$ u
    4.3 ROC曲线程序示例
    9 j8 p) h, l# V- a  R: P4.3.1 roc_curve函数的参数. C- i+ J' u& X. f; ?. p
    4.3.2 roc_curve函数的返回值9 o/ \% I, I# l2 K0 {. m
    4.3.3 绘制ROC曲线
    ( F4 `4 U1 E5 E3 G8 H4 E5、总结8 p( }2 l' B8 Y& {& A0 {6 R
    1、分类模型
    1 X$ Z+ t, H/ U" P
    0 Q- X2 P" o# M分类问题在我们日常生活中处处可见,比如我们对帅哥的分类,可能对帅哥分为非常帅和一般帅。比如我们平时刷淘宝,淘宝根据我们平时的喜好给我们推送产品,那我们就会把产品分为感兴趣和不感兴趣两类。/ f" b# r: {4 |  @1 \' `
    上述所说的问题就是典型的分类问题,确切的说其实就是二分类问题。
    1 ?. E$ w" [7 n+ {4 j能够解决这些二分类问题的数学模型就被称为二分类模型。
    ' H1 }9 a% A& }1 T. l. l用数学的方式表达就是,给定自变量X,代入到我们的分类模型F,会输出因变量y,y的取值为0或1,其中0代表负样本(一般帅的帅哥、不感兴趣的推送),1代表正样本(非常帅气的帅哥、感兴趣的推送)。" ?) k% g) l  k9 [1 }% Q3 Y! k. F2 J% {; Y  W
    % k/ W$ O" h+ g
    主题:如何对分类模型进行评估7 q* V- T0 e: H8 }
    - w5 p6 u4 T+ N6 E6 c7 y, D
    目标:
    ! _( d0 F* Q1 Q* O" Q* p& J. q/ R2 ]% M
    能够熟知混淆矩阵的含义。
    2 {) d3 v" W3 y! S7 Q- o" B能够使用各种指标对分类模型进行评估。
    ! ~4 P& p: r. E* X, y8 B, \) f9 B能够独立绘制ROC曲线,并熟悉该曲线细节。& B8 F& Z$ S' i# s' h7 q
    能够对样本不均衡进行处理(扩展内容)。
    / S' L3 ~- l9 I$ @2、混淆矩阵
      _8 K9 m  D( ?
    6 @0 g, V+ B% [; T; E0 h混淆矩阵,可以用来评估模型分类的正确性。5 V7 S2 @# G) S/ J" R4 n
    该矩阵是一个方阵,矩阵的数值用来表示分类器预测的结果,包括真正例(True Positive),假正例(False Positive),真负例(True Negative),假负例(False Negative)。5 y( `, L$ ~6 y' _
    1.png 7 w  G1 v2 ~; \3 J$ j- Z' V8 G
    矩阵的形状是2 x 2,其中, - 矩阵的左上角表示,预测值为1,实际值为1(True Positive,简称TP); - 右上角表示预测值为1,实际值为0(False Positive,简称FP); - 左下角表示预测值为0,实际值为1(False Negative,简称FN); - 右下角表示预测值为0,实际值为0(True Negative,简称TN);8 A8 e1 Q( K: ]1 i
    & S) d" O9 b' `( D
    真负例(TN)+ 假正例(FP)——每个类别真实存在的负例的数量. S% w) R4 O/ o5 s1 p4 G% I
    假负例(FN)+ 真正例(TP)——每个类别真实存在的正例的数量- W3 w" b8 {) P+ ^; w6 s
    真负例(TN)+ 假负例(FN)——每个类别预测的真负例数量
    ) W7 i7 Q" e2 R8 w$ P' W假正例(FP)+ 真正例(TP)——每个类别预测的真正例数量
    - n1 M2 L* t1 \+ w( D! V其中:# p# _' ]) B7 |% I9 y1 T( ?  X" B& M- h
    : Y  T$ q/ v: m- X  G1 g+ o; N
    TP:真正例,实际为正预测为正;2 F- c+ s1 T7 F9 d4 d0 [2 M' S( R
    FP:假正例,实际为负但预测为正;
    ( I: Q9 Q4 F& V$ OFN:假反例,实际为正但预测为负;5 A- x. m' H( x$ j
    TN:真反例,实际为负预测为负% \+ l; Y9 ^# \8 H
    接下来,我们通过数据来看下鸢尾花的混淆矩阵:
    $ q' o) d7 D; U* yimport numpy as np
    ; i, m# R" ^1 m0 z/ ofrom sklearn.datasets import load_iris
    9 g7 F# r7 d# h- l, ]' yfrom sklearn.linear_model import LogisticRegression
    . H- x! E" ^( tfrom sklearn.model_selection import train_test_split
    * r: B1 `& U) ]+ J' d" Z' S/ z# 混淆矩阵
    ; B1 K  F8 _- i) N7 ^from sklearn.metrics import confusion_matrix
    1 J+ E8 q, x, g  u6 X% `import matplotlib.pyplot as plt
    ' s* D$ ?' J% J; G) i( simport warnings
    8 R" \$ w/ [5 |6 U$ C1 y$ `1 z* Z$ ?& C! C/ t2 K+ r+ p( N0 c
    plt.rcParams["font.family"] = "SimHei"% R' f& K$ v* J( \$ \
    plt.rcParams["axes.unicode_minus"] = False1 @) U) P0 A: G" w: w6 E
    plt.rcParams["font.size"] = 12
      {4 o# w# X/ n1 S2 ~2 ]warnings.filterwarnings("ignore")
    $ h, p: f( W2 M$ i  f9 I# u+ D8 t( Q& \4 l$ ~% z
    iris = load_iris()  #导入鸢尾花数据集5 G3 y- Z( U+ I1 J. S! H
    X, y = iris.data, iris.target! G0 l3 O; s& M1 T8 z/ [( t
    X = X[y != 0, 2:]
    7 ^& T5 o1 |: ~' T- i$ ^y = y[y != 0]
    7 K8 V) ^2 J: ?4 h; j% ~0 I' D, Ry[y == 1] = 0
    ; K& v# w7 t' Q( }8 `# ky[y == 2] = 1
    : c* q) L: [: s/ _X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=2)
    , X$ ?$ Z2 h$ m# j" z0 ^lr = LogisticRegression()  #使用逻辑回归
    + B* }  P( Q+ R# Ylr.fit(X_train, y_train); T0 O6 |' P9 V& m# c5 A% K
    y_hat = lr.predict(X_test)2 |  t. h2 ]  Q5 l
    # 根据传入的真实值与预测值,创建混淆矩阵。. H7 k+ b+ V- f8 s! p3 P6 J
    matrix = confusion_matrix(y_true=y_test, y_pred=y_hat)! P. B, q+ O, K: G( L7 H, f  c1 Y
    print(matrix); O$ o  C5 b6 u0 p& H
    8 |1 u/ d0 S6 \8 m4 r) k
    + b8 \; G# W6 p8 o" K0 Y
    输出结果:' S, K, n7 |* v+ M' e4 M
    2.png 1 r- U; r3 n1 R7 M% O
    我们还可以对其进行可视化操作:/ `  j9 }; S. U( g# K$ R
    mat = plt.matshow(matrix, cmap=plt.cm.Blues, alpha=0.5)    #cmap 指定颜色图色系,alpha透明度
    5 ]! ]% U( E; w7 P: y! nlabel = ["负例", "正例"]- H$ j0 j& ?* D7 [  v# D
    ax = plt.gca()
    : S* G, Q8 {: a# Uax.set(xticks=np.arange(matrix.shape[1]), yticks=np.arange(matrix.shape[0]),
    $ U3 q  {9 b$ H3 ]; e- C! S        xticklabels=label, yticklabels=label, title="混淆矩阵可视化\n",
    ! P1 H/ J' T  w+ T        ylabel="真实值", xlabel="预测值")& _( ]* Q# d! V% i2 b
    for i in range(matrix.shape[0]):
    - [! r. n2 ?4 ~; |' \- e    for j in range(matrix.shape[1]):, t) [" r# ]8 K% C: d! A8 D5 ^" w
            plt.text(x=j, y=i, s=matrix[i, j], va="center", ha="center")5 Q+ s( C9 o$ l
    a, b = ax.get_ylim()
    + b) S* V* b2 M- N+ c  eax.set_ylim(a + 0.5, b - 0.5)
      ?3 E$ o% u5 Z' P  Z" O; u; v6 ~, cplt.show()# ?" _, ?& g! R! e, s
    / q( y! @7 w# ~
    # H3 o$ N2 s7 o' ^. I
    代码解析:
    9 Z; s0 n9 r4 L: x! Pmatshow( ) 绘制矩阵,alpha 透明度1 n! _8 D# E2 ^. a
    结果:  E1 ^" [8 a& K- ~
    3.png : J5 L, H; w; z; c/ ]
    练习:0 H) K' d1 B8 c/ v9 I% P
    % m, o& q: J6 `- T, P( i) C6 |7 w- {
    关于混淆矩阵,说法正确的是( ABCD)。【不定项】' ?# b# {5 t) E: b" V, x- I
    A 混淆矩阵可以用来评估分类模型。$ Z' d8 ]" h& u- y
    B 混淆矩阵中,TP与TN的数值越大,则分类的效果越好。
    / l7 ]% D& a* P  s8 mC 混淆矩阵一行元素的和代表某个类别的实际数量。
    ' l7 X" M- {( m# P7 eD 混淆矩阵一列元素的和代表某个类别的预测数量。
    ! K8 g' h* j! ?" @5 M9 i% g. |3、评估指标- S' H" W# U6 l. R; {! y6 m3 `
    $ u" _' N5 x/ ~% l5 ~" U* K4 \! h
    对于分类模型,我们可以提取如下的评估指标:  f3 c* q7 I0 E1 s0 }3 ~. h

    $ x3 [. ?  F! y+ @正确率(accuracy)
    1 a: r* e7 O3 e6 S9 Y7 s: L6 A) `6 @精准率(precision)
    1 G, P, ]) a0 B6 A" A8 m召回率(recall)" r. a4 b! U/ E8 o8 o; f
    F1(调和平均值)
    7 B! x" ]' s+ J1 d: a- T) D: D3.1 正确率
    5 r$ {; Y# F# J1 ]. M0 N 4.png
    ! S8 q( m, L( K' `正确率(准确率)定义如下:
    $ M- R7 \2 ^  W5 `2 E) X6 @衡量所有样本被分类准确的比例。) |7 G0 W; s) G, B0 H' s$ z) ]% ~
    Accuracy = (TP+TN) / (TP+FP+TN+FN)
    6 u- O$ o# e7 Q4 d9 [8 p6 d( b- l4 }6 ]0 w% e2 `/ X9 y. ^3 c
    预测正确的数量除以总数量。
    0 s$ O/ v# @$ N2 G3 Y, ?4 X# [6 {' [) V. k& j
    3.2 精准率% ^; I: W+ ]4 V! T& ^. ~
    5.png ; J# Y1 v# w) h5 W
    查准率(精准率)定义如下:
    2 j* t2 q6 Q/ R( P衡量正样本的分类准确率,就是说被预测为正样本的样本有多少是真的正样本。
    ' Y% M3 @0 o, \% r2 BPrecision = TP / (TP+FP)
    - y6 b# n( _' B' p! _, g" s
    ' F! x' \7 C% K9 j- @. p/ Z/ x精准率只考虑正例。
    : a) |) d3 D0 I% g
    ! x: a" g+ n0 R+ k. V6 A3.3 召回率: L7 V# w! N$ u; q0 ~, v- I
    6.png
    - H) ]6 m) O6 f' \/ z+ G查全率(召回率)定义如下:
    . X  Y" {  a- i( \- M- L9 O表示分类正确的正样本占总的正样本的比例。( a$ t5 M, b: P! ?0 l
    Recall = TP / (TP+FN)
    6 h' I1 Z9 e% Q1 {7 f7 g
    * u: i4 j! P, j( M( Z4 F( @6 D! n! ~2 o
    3.4 调和平均值F1
    ' B. }. ?, `) _3 ?; `  S 7.png   e, Y' q% I( Q9 O" m# e3 u
    F值(F1-scores)调和平均值F1定义如下:' U- [- m3 a) e: a; H* z( H0 }; I
    精确率和召回率的调和平均。
    & K7 p2 x% s0 Z- F" W精准率Precision和召回率Recall加权调和平均数,并假设两者一样重要。
    6 N; x9 q0 {. a5 f" ?, }  q
    5 F6 D4 C  I/ |! w8 q; |F1-score = (2Recall*Precision) / (Recall + Precision)% P$ D4 _. e& ~3 h5 {
    ! h( b; N6 E' \/ [0 v  o7 s9 ]
    精准率和召回率是一对矛盾的度量。一般来说,精准率高时,召回率往往偏低;而召回率高时,精准率往往偏低。通常只有在一些简单任务中,才可能使二者都很高。* X4 I" \# i2 X3 G& c& R
    最好的分类器当然是准确率、精确率,召回率都为1,但实际场景中几乎是不可能的,而且精确率和召回率往往会相互影响,一个高了另一个会有所下降,因此在实际应用中要根据具体需求做适当平衡。
    & o; c' H$ p1 O) m' @1 d/ K让我们做个练习加深下印象吧!
    2 S, t  B( _+ G; u
    3 \7 O% e$ z, n! [' B5 q8 b以下说法正确的是( C )。# V$ I! R9 n" ~0 V! V
    A 使用正确率去评估一个分类模型,效果会比精准率更好。2 l! W1 G* C; q9 \% [& O
    B 使用精准率去评估一个分类模型,效果会比召回率更好。! `- A( @! I; j: X
    C 精准率与召回率通常要联合使用。
    9 W; _5 C# f5 k5 H! eD 精准率与召回率如果有一个值较低,F1值也可能会较高。
    . {8 z! e5 I/ y0 K; `1 \) [如果精准率和召回率我们只能选择重视一个,我们会更看重( C )。8 s; i3 q) m+ {* u4 F# w
    A 精准率。/ c. u: Q: B) p+ g
    B 召回率。; j; S% q5 l8 V5 B7 j
    C 具体场景不同,重视谁也会不同。
    / ~7 e1 e* u3 L# a接下来我们通过程序来说明下:6 }5 K6 g( v% ]+ ^
    from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score- _6 u* L; D" g/ [& i  B4 g% u

    5 ~. e' Q# ^6 Oprint("正确率:", accuracy_score(y_test, y_hat))
    ; Z( M7 v+ a) e( E6 Y! H# 默认将1类别视为正例,可以通过pos_label参数指定。7 N/ x0 }. q+ t- n: @
    print("精准率:", precision_score(y_test, y_hat)); ?. }5 U% f! ?/ o5 Q
    print("召回率:", recall_score(y_test, y_hat))0 r6 d: m+ J' O2 Y& z
    print("F1调和平均值:", f1_score(y_test, y_hat))- C, R# i2 v9 x& t" z% ~" R
    # 我们也可以调用逻辑回归模型对象的score方法,也能获取正确率。, }4 T/ v# H/ s2 `& W0 b
    # 但是需要注意,score方法与f1_score函数的参数是不同的。. v& Z. {- A+ i
    print("score方法计算正确率:", lr.score(X_test, y_test))
    % g' I1 X9 F' {. [* t& S) P0 Q: }5 I
    ( ?0 c& d2 w0 @& Y# _
    结果:- n" W; p! j- |
    8.png & q' P3 i/ X! E5 z
    除此之外,我们也可以使用classification_report函数来查看模型的分类统计信息,该方法会返回字符串类型,给出相关的分类指标评估值。% ^; W# ~4 `) D/ f& B0 v! K
    from sklearn.metrics import classification_report
    $ s; L6 k; x9 ^8 B% g
    3 X5 Y6 r, [  f' wprint(classification_report(y_true=y_test, y_pred=y_hat))
    8 r& X, m: [6 N: z$ {4 b2 i0 k
    3 u/ e  F! _& L9 ^5 k5 |2 {( P  J% I+ Q
    结果:6 P* S- @% p: ?' j$ S1 I9 A
    9.png + G' Y" o) C) H

    ) g$ m; {9 Y8 x$ F% p练习:
    % d# m% T8 A' {: H1 S+ l4 F4 e9 A& T: }, f4 [" u" w( U4 d
    如果使用精准率与召回率评估二分类模型时,我们应该将哪个类别设置为正例? (B)
    + A, U! X2 s% [0 P3 \4 MA 随意5 r6 r7 Y9 [2 G( E9 D8 l
    B 关注的类别/ H* \8 W' r- D' u
    C 不关注的类别
    2 C9 F2 c: a% F+ g" f; r" Z4、ROC和AUC
    : r/ S: r' {5 x7 V# a4 {
    6 c. x7 H& N5 L6 h% g' pROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。
    , P$ K" S* f3 M- m5 ]3 p$ o/ A* @! g4 y2 h
    4.1 ROC曲线
    8 o( J' N9 Y2 D# N0 G. P 10.png
    ) [/ W* x: e4 ^; N6 l$ U4 YROC曲线(Receiver Operating Characteristic——受试者工作特征曲线),使用图形来描述二分类系统的性能表现。图形的纵轴为真正例率(TPR——True Positive Rate),横轴为假正例率(FPR——False Positive Rate)。其中,真正例率与假正例率定义为:
    5 S% |' u- G9 \7 H
    9 m: S. v  O7 M/ J' s* V, K- IROC曲线通过真正例率(TPR)与假正例率(FPR)两项指标,可以用来评估分类模型的性能。真正例率与假正例率可以通过移动分类模型的阈值而进行计算。随着阈值的改变,真正例率与假负例率也会随之发生改变,进而就可以在ROC曲线坐标上,形成多个点。
    & Z3 }# h6 R! T0 O0 I" x5 {$ \
    ROC曲线反映了FPR与TPR之间权衡的情况,通俗来说,即在TPR随着FPR递增的情况下,谁增长得更快,快多少的问题。TPR增长得越快,曲线越往上凸,模型的分类性能就越好。
    1 V4 X6 x4 ^( f, J9 Y$ G
    , _- }. D0 l9 wROC曲线如果为对角线,则可以理解为随机猜测。如果在对角线以下,则其性能比随机猜测还要差。如果ROC曲线真正例率为1,假正例率为0,即曲线为与构成的折线,则此时的分类器是最完美的。- i) c2 M5 f7 b8 x% s. b, t! p. g$ X
    4 w0 i. V" u& `
    下图就是ROC曲线的一个示意图:
    ) F0 F2 v. @7 d8 g* x9 |, m 11.png 2 ~! Q4 R& a8 n, A1 v5 y& O
    ROC曲线横坐标是FPR(False Positive Rate),纵坐标是TPR(True Positive Rate)3 s; ?* t- {( Q. I/ G; T
    接下来我们考虑ROC曲线图中的四个点和一条线。
      }$ Q0 H- b. j; D
    ) P6 n& d! o) {: N9 K% R$ @第一个点,(0,1),即FPR=0, TPR=1,这意味着FN(false negative)=0,并且FP(false# |' o, q% R% `% V
    positive)=0。这是一个完美的分类器,它将所有的样本都正确分类。0 \8 Y/ t  g2 `& e! o+ K
    第二个点,(1,0),即FPR=1,TPR=0,类似地分析可以发现这是一个最糟糕的分类器,因为它成功避开了所有的正确答案。& N$ n5 q8 _% T. s
    第三个点,(0,0),即FPR=TPR=0,即FP(false positive)=TP(true% d, m, y, a. E: j3 c& \: }
    positive)=0,可以发现该分类器预测所有的样本都为负样本(negative)。/ d2 ]4 s; x7 F' z; |( d7 T# ^. L  m
    第四个点(1,1),分类器实际上预测所有的样本都为正样本。经过以上的分析,我们可以断言,ROC曲线越接近左上角,该分类器的性能越好。- k( m# a6 V- C! _+ Q
    如何画ROC曲线:
    2 H) [9 N/ T% C- m* ~& U9 _% j- D9 M6 C
    对于一个特定的分类器和测试数据集,显然只能得到一组FPR和TPR结果,而要得到一个曲线,我们实际上需要一系列FPR和TPR的值,这又是如何得到的呢?我们先来看一下wikipedia上对ROC曲线的定义:; J# f! E: |1 Z* c3 q9 k

    " n% P+ j) P# }1 R1 b1 B2 rA receiver operating characteristic curve, i.e. ROC curve, is a
    4 j2 p+ E/ f2 j! s- [graphical plot that illustrates the diagnostic ability of a binary
    + k. K  V5 j8 o+ t: m. }# Tclassifier system as its discrimination threshold is varied.
    8 ~7 n6 H, y" j* C6 S译:ROC曲线是由一系列因区分阈值变化产生的点,用于描述二分类模型的判断能力3 `+ V0 f, S/ _. m& Q
    这里的关键在于 “its discrimination threshold is varied” ,因为对于一个二分类模型,它的输出结果其实是判断这个样本属于正样本的概率值,假如我们已经得到了所有样本的概率输出(属于正样本的概率),现在的问题是如何改变“discrimination threashold”?我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率
    ( v2 E! ^  Z, D; s- \ 12.png 4 p. H1 R) q$ f! z7 O) n' Z0 x6 E
    然后我们按照样本的score值,从大到小依次作为阈值,当样本score值大于等于阈值时则判定为正样本,否则为负样本。
    + P1 W; h! \% |+ E7 T. d+ d8 F; g例如第一个阈值取0.9,这时只有id=1的样本被预测为正样本,其余都是负样本,此时TPR=1/1+9=0.1, FPR=0/0+10=0。还例如:对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。
      s, ?: N6 j& F; H; {7 {  a; Q) I+ O3 L
    详细如下:: Y# u& ?. u* _( N2 ]1 w2 X
    13.png
    2 d2 J8 h0 I% K" C' d由此我们便得到了一组(FPR,TPR)的值,可以绘制出ROC曲线:8 v, v* |# f' h) E. D
    14.png
    $ b; e" Y4 t( t/ W0 c7 g1 b8 O当我们将threshold设置为1和0时,分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来,就得到了ROC曲线。当threshold取值越多,ROC曲线越平滑。, A4 O* y/ h8 @7 ~! p  U0 q8 \

    : Y. X! j+ g. h' c4.2 AUC
    / u7 H( R& E9 s+ V% A( t5 R, b" ? 15.png
    2 `. w* _- w+ ~, @7 X, j) _AUC(Area Under the Curve)是指ROC曲线下的面积,使用AUC值作为评价标准是因为有时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而AUC作为数值可以直观的评价分类器的好坏,值越大越好。
    ; d$ e1 C- Z2 S0 I1 Y$ |$ w) D+ L  M  H9 g9 e. Q9 X
    AUC是ROC曲线下的面积。
    5 X% w( }% c: L* a: R9 M2 jAUC的取值为[0.5-1],0.5对应于对角线的“随机猜测模型”。
    ( |7 g1 ?! T( OAUC值是一个概率值,当你随机挑选一个正样本以及负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值,AUC值越大,当前分类算法越有可能将正样本排在负样本前面,从而能够更好地分类。6 |* Q$ {6 M; i1 M6 Z

    7 Q; a7 g% t$ }从AUC判断分类器(预测模型)优劣的标准:
    5 G/ x3 X3 x; \# s8 s" ]8 g5 e) A& k

    8 {9 J! F, k) l  ~9 F/ ~例如一个模型的AUC是0.7,其含义可以理解为:给定一个正样本和一个负样本,在70%的情况下,模型对正样本的打分(概率)高于对负样本的打分。
    $ y# p; V2 @9 V/ h' k4 w: y' t8 L+ p5 y( `
    三种AUC值示例:6 t: u( O: z' G; ~# L
    16.png 0 X! {; ?* X* f6 u' X' k: z  I
    简单说:AUC值越大的分类器,正确率越高。
    . }6 D) `' V8 I2 q5 U8 l/ A! D$ j  u# P
    那么为什么要用AUC作为二分类模型的评价指标呢?为什么不直接通过计算准确率来对模型进行评价呢?# I5 S1 t7 m( k# Q& V4 B
    因为机器学习中的很多模型对于分类问题的预测结果大多是概率,即属于某个类别的概率,如果计算准确率的话,就要把概率转化为类别,这就需要设定一个阈值,概率大于某个阈值的属于一类,概率小于某个阈值的属于另一类,而阈值的设定直接影响了准确率的计算。也就是说AUC越高说明阈值分割所能达到的准确率越高。
    6 ^( M  E) Z( |/ I
    , m/ `2 h  f) f小练习:
    4 C/ X3 X/ e2 Z7 c& `
    3 q, l& h/ P1 a以下说法正确的是( ABD)。【不定项】. ]1 W4 v' I$ x$ |
    A 随着阈值的降低,TPR与FPR都会增大。
    ' r) s2 l2 \4 X1 eB TPR与召回率的值是相同的。/ G: V4 p4 `0 q+ ^* y$ s
    C 如果AUC的值非常低,例如,0.1,则该模型效果很差,也很难调优。
    8 r8 \) d7 o! [/ g; f0 ?D 无论是什么分类模型,ROC曲线一定会经过(0, 0)与(1,1)这两个点。0 ]1 ~* |! f3 R! W9 E, y
    4.3 ROC曲线程序示例9 S% T' t5 h7 o! a

    ' j% O+ h7 N' u1 A5 H我们首先来看一个简单的程序示例,借此来说明sklearn库中,ROC曲线的实现细节。% g! r% h9 F- z& N& \

    + f& E$ b" E; h. N4.3.1 roc_curve函数的参数1 C6 \, d% L% a8 X
    import numpy as np
    9 ?: q6 I9 H- ~! Kfrom sklearn.metrics import roc_curve, auc, roc_auc_score
    0 a& B" I0 j0 U/ N4 by = np.array([0, 0, 1, 1])) g" M2 V2 M% E. N. s, F
    scores = np.array([0.2, 0.4, 0.35, 0.8])
    # E2 C! U+ @- Z0 W( P& X# 返回ROC曲线相关值。返回FPR,TPR与阈值。当分值达到阈值时,将样本判定为正类,
    6 P4 d7 f9 p- A% [, I# 否则判定为负类。
    2 W( O0 }' _" R# y_true:二分类的标签值(真实值)。
    : ]0 A' g* r. p# y_score:每个标签(数据)的分值或概率值。当该值达到阈值时,判定为正例,否则判定为负例。; U+ ?. f$ N6 G9 n) E; U
    # 在实际模型评估时,该值往往通过决策函数(decision_function)或者概率函数(predict_proba)获得。
    / {7 o" e, T2 L) }2 K# pos_label:指定正例的标签值。) k3 q- S- W" ?+ ?4 X/ Z
    fpr, tpr, thresholds = roc_curve(y, scores, pos_label=1)
    4 j" D: f. C, j, xprint(f"fpr:{fpr}")' f* F: A! x& s! x; T% y, m
    print(f"tpr:{tpr}")
    ( h1 n1 m( l& B" ^0 Oprint(f"thresholds:{thresholds}")( e( L% I% W6 ~1 r9 _$ |; F1 @
    # auc与roc_auc_score函数都可以返回AUC面积值,但是注意,两个函数的参数是不同的。7 G/ {6 E& m& f( ?0 r: t! W/ k
    print("AUC面积值:", auc(fpr, tpr))
    7 s( K- W7 f- T& C. Rprint("AUC面积得分:", roc_auc_score(y_true=y, y_score=scores))% U& }7 o$ k2 p3 L2 i% l
    #### 3.3.2 roc_curve函数的返回值
    7 {! U" z- d7 ~0 K, I
    / v' P. \+ R8 c+ `结果:, P$ x- p" v# d0 u. w
    17.png 1.8 是怎么来的?
    & @. @; S  A6 r% W0 y8 \1.8是阈值中最大值+1(0.8+1)得来的。为什么这么算?因为要使得最开始得到的所有阈值都不会超过这个值,才能过(0,0)和(1,1)这两个点。  f* Q0 T* X+ w
    : \; u0 v- G7 I
    4.3.2 roc_curve函数的返回值
    . I9 G' J5 N) d0 a! b8 K& |( y* q* {5 k
    roc_curve函数具有3个返回值:
    $ m, T' L% y" S9 v0 ~$ v  h$ T$ P3 ]  z& ^* P) a% d
    fpr 对应每个阈值(thresholds)下的fpr值。
    & |7 O, P' O5 }tpr 对应每个阈值(thresholds)下的tpr值。
    6 l9 b& n3 D. Q% b, W- ~( c, V1 gthresholds 阈值。6 H8 T% @1 t$ e7 J  J" A& Q
    roc_curve函数会从y_score参数中,选择部分元素作为阈值(选择哪些元素属于实现细节,会根据sklearn版本的不同,也可能会有所差异。),然后进行降序排列,作为roc_curve函数的第3个返回值(thresholds)。同时,根据thresholds中的每个元素(阈值),分别计算fpr与tpr。
    0 X! ~% f; _+ j% {4 \% p4 iiris = load_iris()
    5 U( s! h1 _' O+ R# Q5 N, j8 bX, y = iris.data, iris.target
    1 R; S; R6 V/ G6 P+ I/ _X = X[y != 0, 2:]
    3 _5 r" h9 C, w( A3 P) j4 M7 Dy = y[y != 0]
    3 w3 A% o) W4 H0 s, N% [y[y == 1] = 0/ }4 H  r! g: o% M7 D. t2 }( k
    y[y == 2] = 1# Z) G! B' v' V/ T5 j. ?
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25,6 `, J1 N) w" a1 ]- }- f
    random_state=2)+ b' g0 v4 h, |6 V  T  F. `, }
    # lr = LogisticRegression(multi_class="multinomial", solver="lbfgs")
    6 s- v& ~0 L3 \% J& F" B4 Slr = LogisticRegression(multi_class="ovr", solver="liblinear")
    & F' g, O+ B0 m6 b( c4 ^# nlr.fit(X_train, y_train)
    9 i" \& G6 D' E3 r# 使用概率来作为每个样本数据的分值。8 o5 O1 G$ s, S) H" t& G
    probo = lr.predict_proba(X_test)' m* r7 H" I# r- p* ]
    fpr, tpr, thresholds = roc_curve(y_true=y_test, y_score=probo[:, 1],; T, {0 s. |. J; k% g+ Z, H
    pos_label=1)
    & ]( @& o% R9 c6 x! d( H6 ]- vdisplay(probo[:, 1])2 ^  d0 U+ b: y0 D' ^, Q% X
    # 从概率中,选择若干元素作为阈值,每个阈值下,都可以确定一个tpr与fpr,7 g0 |9 x5 \7 b# u
    # 每个tpr与fpr对应ROC曲线上的一个点,将这些点进行连接,就可以绘制ROC曲线。
      O+ O0 [% o9 Ddisplay(thresholds)7 q( S: i; F' Q# ~
    % ]: _, C( [' B1 @; N
    结果:& t6 m' c7 K3 U( p( b& E% r
    18.png   [8 |9 l2 U3 X2 W, E7 k; _

    , Q8 \. h0 R, i8 D( R) j9 m# k5 L
    # 随着阈值的不断降低,fpr与tpr都在不断的增大。) q; {5 P8 Z2 H( X! E2 B" w+ m
    fpr, tpr
    3 C( _7 |  @5 Q- V9 v9 l9 b
    8 Z, U/ x, {  e: T5 z' v: u结果:
    + N" ~! r2 a1 d) U% x 19.png
    3 H" C2 {; k2 o- g: [
    , I+ K& O7 b) J4.3.3 绘制ROC曲线( d% q# O5 P6 [0 P; n" ]
    有了fpr与tpr的值,绘制ROC曲线是非常容易的,只不过是最简单的一个plot而已。
    - y- z, ^% ]$ ?- z9 \- Cplt.figure(figsize=(10, 6))
    9 V' D9 N* Z8 F$ ]3 Mplt.plot(fpr, tpr, marker="o", label="ROC曲线")
    " c" m  G% z" ^& Aplt.plot([0,1], [0,1], lw=2, ls="--", label="随机猜测")
      |! R7 I7 H& C9 X' W2 \plt.plot([0, 0, 1], [0, 1, 1], lw=2, ls="-.", label="完美预测")
    2 r% ?; q, s! Splt.xlim(-0.01, 1.02)
    ! e$ \  w5 d8 ~4 \5 [plt.ylim(-0.01, 1.02)
    7 j) E, G2 q' @5 z! Vplt.xticks(np.arange(0, 1.1, 0.1))
    7 y# ?  n' t9 \) h' f! R$ Rplt.yticks(np.arange(0, 1.1, 0.1))
    " k# S6 Z. [2 oplt.xlabel("False Positive Rate(FPR)")
      B+ K) J) Y" N6 Dplt.ylabel("True Positive Rate(TPR)")
    & ]6 `* N$ G$ @# H& M; tplt.grid()" ?- f, }: u4 j7 L& E; `
    plt.title(f"ROC曲线-AUC值为{auc(fpr, tpr):.2f}")
    - C) Y$ k+ b! i/ b+ c6 N$ tplt.legend()% b0 V1 `: i, H  F! b3 {
    plt.show()
    ) x3 D( d: C& x2 {/ `9 `1 Y 20.png
    ( ?  O2 z& v& i, `" b# A3 _" @0 C- r
    * X# r3 q; [$ P2 o$ F8 \5、总结
    ; p2 ?: Q% ~0 I" o0 w& X: s$ h' {* Y- B3 O
    混淆矩阵的含义。4 G, S/ G' k# w  k* g. Y
    正确率,精准率,召回率与调和平均值F1的含义。
    ! ?$ }% g6 E5 c6 v: }9 oROC与AUC。
    1 A+ }8 s8 X; i- s7 T. [
    $ X- v, P& R% y4 q9 x& ]参考资料:
    5 ^* d4 D/ z9 k. A: e% |1、https://blog.csdn.net/zuolixiangfisher/article/details/81328297
    $ _& F3 L# I. C9 q2 O" ?9 T  D9 `/ K4 v2、https://www.jianshu.com/p/2feb00839154
    9 b, T) J' `3 N3、https://www.cnblogs.com/kamekin/p/9788730.html
    ) J" F$ C6 F4 d4、https://www.jianshu.com/p/c61ae11cc5f6
    & E8 C! L$ ~6 g4 b* ~1 W————————————————: C; b5 j2 R4 y' J. ~8 p- S; [# g; p
    版权声明:本文为CSDN博主「糖潮丽子~辣丽」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。4 Z" K" p1 z9 b: Z% V- k$ X2 ?3 A
    原文链接:https://blog.csdn.net/qq_39783601/article/details/105600700
    + V  q, }0 y8 M" K, o0 g& S
    , g% Y5 b8 X( E7 B5 v7 \% ?% t) m& G- Q% f8 x3 h$ c4 d
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    0

    主题

    1

    听众

    11

    积分

    升级  6.32%

  • TA的每日心情
    开心
    2020-4-19 10:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-7-22 09:45 , Processed in 0.499208 second(s), 59 queries .

    回顶部