QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2716|回复: 1
打印 上一主题 下一主题

详细讲解分类模型评估

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2020-4-19 11:53 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    $ _! u& ?. S& Y% `
    详细讲解分类模型评估分类模型评估
    ' r7 Z' W1 d5 N8 M; H% T! f. f3 I/ }% }0 }& Q
    1、分类模型7 Q4 m% O+ ]: [5 G$ u
    主题:如何对分类模型进行评估* R' `! Q; e' L$ }
    目标:
    ' ]3 e/ {/ G* Q2、混淆矩阵6 g; J' n& L5 A( m2 `+ l# E& H
    3、评估指标+ A$ p  @( X. l+ O+ l
    3.1 正确率
    5 ^3 {* Y7 \2 ?: j& O; u9 S1 f6 ^3.2 精准率  B& [' Q/ v- m1 I- }: E  B
    3.3 召回率
    ; B; w2 {+ k: L3 i$ ^3 S7 P3.4 调和平均值F1, H4 Z+ s" |* }1 [" C  Z
    4、ROC和AUC0 b$ o+ b" \6 W4 Z6 R# F6 E
    4.1 ROC曲线
    5 I" b: W: P, R如何画ROC曲线:
      B$ P' N; }6 E3 V" N  k6 h0 K/ G4.2 AUC
      L1 M/ p; E1 e5 y1 O4.3 ROC曲线程序示例
    7 b7 L7 ?  T+ U8 }0 _4.3.1 roc_curve函数的参数' W4 s; j+ Y5 R& _2 I
    4.3.2 roc_curve函数的返回值
    / Z9 w# `; G  w5 f2 W) d' ?; f' M. m4.3.3 绘制ROC曲线
    / K# k5 O" t& ^1 u: U5、总结
    ! }2 _8 p: D9 P* g1 k1、分类模型* K. I8 _5 @7 |$ \, v4 \2 M6 ?  ]

    * q/ }) U  u: T分类问题在我们日常生活中处处可见,比如我们对帅哥的分类,可能对帅哥分为非常帅和一般帅。比如我们平时刷淘宝,淘宝根据我们平时的喜好给我们推送产品,那我们就会把产品分为感兴趣和不感兴趣两类。% l4 L: t6 p1 b. D
    上述所说的问题就是典型的分类问题,确切的说其实就是二分类问题。) E: Z" D( Q( s5 H5 _
    能够解决这些二分类问题的数学模型就被称为二分类模型。
    ) L* h4 T: L& D! n用数学的方式表达就是,给定自变量X,代入到我们的分类模型F,会输出因变量y,y的取值为0或1,其中0代表负样本(一般帅的帅哥、不感兴趣的推送),1代表正样本(非常帅气的帅哥、感兴趣的推送)。! e7 N1 S$ g& I0 e: Z2 @
    ) X% h, `- A+ ?" Q5 M
    主题:如何对分类模型进行评估* a; N1 `2 O+ t1 W2 g/ D9 N
    / D$ c  u+ Q( U  v! ~+ @6 [
    目标:5 v% X) o2 [# D2 r6 H6 f: I
    ' }+ K  X4 `; k3 F9 M2 M: j. M
    能够熟知混淆矩阵的含义。3 E9 j* g, n/ _2 g& s! `9 o6 j
    能够使用各种指标对分类模型进行评估。
    ( b- J% a! l" @1 @9 ]/ p能够独立绘制ROC曲线,并熟悉该曲线细节。* f+ b% i$ y3 n
    能够对样本不均衡进行处理(扩展内容)。' J* A1 L2 j( w. Z. \3 _
    2、混淆矩阵+ w0 a7 N( f  Z2 _4 e
    9 M) s" u  L9 A0 }7 D  O
    混淆矩阵,可以用来评估模型分类的正确性。
    9 |0 Q& W: l- M% ^) _1 v该矩阵是一个方阵,矩阵的数值用来表示分类器预测的结果,包括真正例(True Positive),假正例(False Positive),真负例(True Negative),假负例(False Negative)。
    , l  Q' p" R( p" s/ @ 1.png # H5 N) I" Z3 f5 C+ s. B8 Y* x
    矩阵的形状是2 x 2,其中, - 矩阵的左上角表示,预测值为1,实际值为1(True Positive,简称TP); - 右上角表示预测值为1,实际值为0(False Positive,简称FP); - 左下角表示预测值为0,实际值为1(False Negative,简称FN); - 右下角表示预测值为0,实际值为0(True Negative,简称TN);
    # K0 c( E( S" f$ P/ E. N# W+ A4 k9 l3 l
    真负例(TN)+ 假正例(FP)——每个类别真实存在的负例的数量" H4 |2 @9 V$ c* s. [( ?
    假负例(FN)+ 真正例(TP)——每个类别真实存在的正例的数量
    : K" b# U4 N6 B. i' H. p8 A6 Q真负例(TN)+ 假负例(FN)——每个类别预测的真负例数量
    0 x. S' F8 |  ]6 H3 c- g假正例(FP)+ 真正例(TP)——每个类别预测的真正例数量1 C: K" h# C4 e
    其中:
    / v! x- L  F; I' G) t7 W
    - f' ]! G. @8 X4 E" d7 y9 l# QTP:真正例,实际为正预测为正;. o7 F+ a: k( z7 q/ L
    FP:假正例,实际为负但预测为正;
    * {8 I. `. Q5 f, AFN:假反例,实际为正但预测为负;
    1 l) k$ N  t" PTN:真反例,实际为负预测为负: j% B7 @1 c& ]% f% O
    接下来,我们通过数据来看下鸢尾花的混淆矩阵:. F& q6 H7 Z( U/ T
    import numpy as np
    * P" V+ A' \) o0 t% Q8 tfrom sklearn.datasets import load_iris
    , v$ T/ M1 X" W% I5 g8 X- Qfrom sklearn.linear_model import LogisticRegression: x5 f: F: @8 n: k, V/ f) O
    from sklearn.model_selection import train_test_split
    * K! ^$ x  n+ r+ G0 |# 混淆矩阵
    * |8 r2 o, ~. O7 K* Pfrom sklearn.metrics import confusion_matrix
      _# H: d" z8 P( {8 ?) R; Pimport matplotlib.pyplot as plt
    3 j( _7 y2 }: z; V  f. r7 K% Aimport warnings
    8 m3 T6 a* z" v7 C3 E- i( N2 \! t8 Q( s; Q6 G, D4 C
    plt.rcParams["font.family"] = "SimHei"
    8 `  o* N0 G5 s  }' X( G2 Aplt.rcParams["axes.unicode_minus"] = False' U5 F$ b: h1 R1 Z6 P
    plt.rcParams["font.size"] = 12
    ! m: s$ J- N# d4 U; G) Iwarnings.filterwarnings("ignore")& C, Q/ \* p& ~. e/ r/ V- m  F1 I
    3 b# s% ?; M" ]% `& x/ @
    iris = load_iris()  #导入鸢尾花数据集1 i* G4 |6 U4 ~& R: U4 o8 {+ X0 n. U$ o% F
    X, y = iris.data, iris.target
    8 Y5 p% a' l3 h$ U6 b# [X = X[y != 0, 2:]
    ; |- h$ m& n4 Zy = y[y != 0]; R/ h) x/ b$ Y- G  |# z& o) b
    y[y == 1] = 0
    3 U1 ~, z3 o0 q1 F8 @y[y == 2] = 1
    ! L6 O$ q! @1 ?3 R$ Z5 bX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=2)
    : a# [& L4 T4 _% z- s; S! ilr = LogisticRegression()  #使用逻辑回归
    ) t8 J; s8 D% e* g: klr.fit(X_train, y_train)
    2 G' r8 r* N) B5 `0 X, Y8 ]5 o3 Py_hat = lr.predict(X_test)
    0 K1 J4 k$ C1 B8 }! o  E. Q# 根据传入的真实值与预测值,创建混淆矩阵。
    + ?& N* y' A) n3 Kmatrix = confusion_matrix(y_true=y_test, y_pred=y_hat)
    / }. L" h( v9 h; i0 J4 A9 ~' Qprint(matrix)
    % o- Y6 T0 n0 E$ E! |3 j6 K7 a
    9 p) b5 S6 V0 C. C, _' M
    9 [3 m$ V  C% [: }输出结果:
    6 C$ S; D; O' S, H 2.png
    3 Q, {1 F% U' z! U* {我们还可以对其进行可视化操作:
    / E; R* \0 ^& W9 J( W* i, Pmat = plt.matshow(matrix, cmap=plt.cm.Blues, alpha=0.5)    #cmap 指定颜色图色系,alpha透明度
    0 E0 {) m. {: r+ ]# Y  ^  Q1 Klabel = ["负例", "正例"]
    , W) @  q- P6 s$ ?+ b) uax = plt.gca()
    - e9 [* b, ^8 }ax.set(xticks=np.arange(matrix.shape[1]), yticks=np.arange(matrix.shape[0]),: |* C( z# J/ J" B
            xticklabels=label, yticklabels=label, title="混淆矩阵可视化\n",
    % q! t, F. w* Z# T  \% R        ylabel="真实值", xlabel="预测值")
    & {, c; _4 ]$ d9 ffor i in range(matrix.shape[0]):
      A4 l6 p5 }) ^8 D* D    for j in range(matrix.shape[1]):3 {, j% e8 ~, X" w3 d$ W
            plt.text(x=j, y=i, s=matrix[i, j], va="center", ha="center")
    4 j# Y. F/ h" `2 A3 aa, b = ax.get_ylim()
    6 p$ d/ F  d1 {3 vax.set_ylim(a + 0.5, b - 0.5)1 `+ V9 A  f0 f2 B
    plt.show()
    8 \% M3 a3 V+ E
    ; a/ c$ u" T9 B& q) ~+ \& s
    ; D' |- N- n7 j; k代码解析:; Q3 @! B3 R' q+ Q9 O# a- ?' ^
    matshow( ) 绘制矩阵,alpha 透明度
    ) x! Q6 P  b: [结果:
    & Z* ~  q  @6 }% m 3.png ' y; l3 X1 E4 ~9 r& C
    练习:
    + f* E7 B6 Q  _" L) q: K
    ; F8 `3 }5 s* d关于混淆矩阵,说法正确的是( ABCD)。【不定项】
    & z; Q9 ^1 z' {8 B* G+ `* kA 混淆矩阵可以用来评估分类模型。, r+ d- q4 G2 D4 r" w; f8 G, ?
    B 混淆矩阵中,TP与TN的数值越大,则分类的效果越好。9 j0 T4 B3 Q2 A2 }4 `, o, I6 Q. s
    C 混淆矩阵一行元素的和代表某个类别的实际数量。
    & c6 E0 U( |' _+ t! WD 混淆矩阵一列元素的和代表某个类别的预测数量。
    % r& {# V$ T8 M0 q# w. L4 t3、评估指标* X/ ?5 C% i, e6 w: J- y

    ( Z; P  S) C# u; V* u; {对于分类模型,我们可以提取如下的评估指标:# w9 j+ t4 J2 W* g6 R3 C* V6 s

    5 H5 k- i" ?6 {) U8 x" {正确率(accuracy)) |- ]# Y0 |+ J* Z% y; Q( @2 Y
    精准率(precision); c, `" U" a1 x" {) G
    召回率(recall)) z- X( y6 u/ V- |) `
    F1(调和平均值)
    ) b, Z. l, b7 Y( [2 d9 @3.1 正确率) r9 p2 Z3 ~. D+ s' q
    4.png 3 z- y8 ~! `6 e5 ~
    正确率(准确率)定义如下:
    ' e! g$ s, B0 |* T衡量所有样本被分类准确的比例。. `- Q6 s7 B& h) g6 M+ m
    Accuracy = (TP+TN) / (TP+FP+TN+FN)- b8 S* P2 f) U# n0 O$ N

    5 g* G# @, N9 h! \5 U- x' @预测正确的数量除以总数量。
    + I3 [, t0 G2 T+ ]# ]
    9 M, m7 C3 C/ Z2 K6 I4 Y+ @3.2 精准率: O6 ~# T, x& ]( C  v
    5.png
    2 ^; ~3 \/ t- m- _. P- ]查准率(精准率)定义如下:
    ! }+ E, `- n6 v* j衡量正样本的分类准确率,就是说被预测为正样本的样本有多少是真的正样本。
    " g! D4 W* R* qPrecision = TP / (TP+FP)
    8 R6 ]. A3 b7 r$ Q8 \. p  [* C  q3 ]5 H* z) Y; N# e
    精准率只考虑正例。& L5 V, h( Z5 `9 o. l! Q8 z
    3 q' i( y) U& m, n
    3.3 召回率. T% Z6 p  \6 U  k9 S
    6.png
    $ w! s- O3 t" E$ L查全率(召回率)定义如下:: h" Z+ u8 ]. p; E
    表示分类正确的正样本占总的正样本的比例。6 Y' g4 M) h+ p: I  `
    Recall = TP / (TP+FN)- b( l2 N8 M1 D* [: Y4 y) c
    ( |" x/ Y! r) R% d: f
    " a+ W8 `/ K% y
    3.4 调和平均值F1
    ' b0 Q$ R3 w/ p/ X: D! u 7.png 2 F6 w$ k' A6 l
    F值(F1-scores)调和平均值F1定义如下:
    / c) Y5 q+ I9 z' G8 n& S2 q精确率和召回率的调和平均。
    8 x) D2 j, i. _4 E5 a! V精准率Precision和召回率Recall加权调和平均数,并假设两者一样重要。, b3 s5 o  L& m, ]7 R+ e
    - [% X! Q8 l! J' G; j# b; b& X" |
    F1-score = (2Recall*Precision) / (Recall + Precision)
    1 ~8 V1 I6 w$ o7 d- ~
    , i' x/ o) G( B精准率和召回率是一对矛盾的度量。一般来说,精准率高时,召回率往往偏低;而召回率高时,精准率往往偏低。通常只有在一些简单任务中,才可能使二者都很高。
    9 W; n( Y4 w' B8 `最好的分类器当然是准确率、精确率,召回率都为1,但实际场景中几乎是不可能的,而且精确率和召回率往往会相互影响,一个高了另一个会有所下降,因此在实际应用中要根据具体需求做适当平衡。, h1 Z: W9 l1 K" u7 ~( k4 c! E) I
    让我们做个练习加深下印象吧!
    % Z0 \4 }% u: L- s2 v) `  _$ k, p( e: i8 B3 O
    以下说法正确的是( C )。, w7 e) [6 ?- k* C
    A 使用正确率去评估一个分类模型,效果会比精准率更好。4 n( ?# l+ d' H8 g& j2 w
    B 使用精准率去评估一个分类模型,效果会比召回率更好。
    % V& C1 s& d  L9 eC 精准率与召回率通常要联合使用。
    ) c3 l) g5 A8 Y1 K1 LD 精准率与召回率如果有一个值较低,F1值也可能会较高。
    4 w# Q! k5 A, l如果精准率和召回率我们只能选择重视一个,我们会更看重( C )。
      ^  U0 I6 H; J1 _A 精准率。# E; K" C' _6 D) V0 I) j, z3 n0 o; G# o$ n
    B 召回率。7 X$ ~2 T6 w% P$ C! a* }
    C 具体场景不同,重视谁也会不同。
    7 e$ B  d) U0 v% q( ^1 l- T  g接下来我们通过程序来说明下:" U3 n4 |6 q: D% z3 d' P# X" F
    from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
    : X+ M, O( c( a9 m5 N
    - {  a' n/ U1 ^' X+ sprint("正确率:", accuracy_score(y_test, y_hat))8 c" l9 u( h( F
    # 默认将1类别视为正例,可以通过pos_label参数指定。
    , T4 `; I' J* U4 C, c) kprint("精准率:", precision_score(y_test, y_hat))0 z8 G3 S0 v6 k7 e, s  K9 R
    print("召回率:", recall_score(y_test, y_hat))8 ^- I) ~) t7 o; u) p9 a" ]
    print("F1调和平均值:", f1_score(y_test, y_hat))* i3 s& F  \2 D9 S6 q
    # 我们也可以调用逻辑回归模型对象的score方法,也能获取正确率。
    0 K+ ^6 \" T- Q! i# 但是需要注意,score方法与f1_score函数的参数是不同的。
    8 ^8 n) T7 s1 ?+ r2 Y: Tprint("score方法计算正确率:", lr.score(X_test, y_test))
    - T( J! S1 a2 E" ^
    " |7 \- [  n& W' ^# ?
    2 j, J! _" |7 O+ y; l; m结果:. C2 ^4 ^7 g  V" d6 R
    8.png + T) x5 Y/ X, c! O5 U
    除此之外,我们也可以使用classification_report函数来查看模型的分类统计信息,该方法会返回字符串类型,给出相关的分类指标评估值。" g( ^. C  ~- i" @' [8 G! d
    from sklearn.metrics import classification_report( w+ K6 T/ B, h* Z/ q) d

    ) ~. [6 `. C: y) r0 P) Rprint(classification_report(y_true=y_test, y_pred=y_hat))
    % l9 E, B3 v0 V8 j# q' @, g/ `) N8 \: I+ u. Q5 {* j; p
    + Q0 D) _/ h- u0 U2 }6 }
    结果:' s% Q& B! e3 B& U9 D
    9.png & Z! `+ v6 }% L  V2 e2 j

    5 P/ v+ c* M, i5 y练习:
    % W( \& K2 q  U5 V2 h7 G( {
    0 g$ W" T% |: C5 C如果使用精准率与召回率评估二分类模型时,我们应该将哪个类别设置为正例? (B)# q0 b% I! G& }% B$ ], K7 y2 N! Y( n# i
    A 随意
    , [" [) c0 l  z, Z+ EB 关注的类别6 j( J0 X( I& P! S( f) f7 n
    C 不关注的类别! A6 k1 h* B$ g* i
    4、ROC和AUC6 \" ^! [# ^& @3 S3 y) h$ o
    $ q4 x+ f" K6 Y9 Q- Z2 i. L- E" N
    ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。5 e% i' A$ ?2 K0 x3 T
    - K3 p1 g% h9 w3 g; @; m
    4.1 ROC曲线
    ( x5 @5 {0 o8 P9 o3 F 10.png
    * J: i& r5 l- E/ S& f! [ROC曲线(Receiver Operating Characteristic——受试者工作特征曲线),使用图形来描述二分类系统的性能表现。图形的纵轴为真正例率(TPR——True Positive Rate),横轴为假正例率(FPR——False Positive Rate)。其中,真正例率与假正例率定义为:1 Q7 [7 T* {( F8 Z

    % I$ L. ^% o1 v+ p9 k' Q: _ROC曲线通过真正例率(TPR)与假正例率(FPR)两项指标,可以用来评估分类模型的性能。真正例率与假正例率可以通过移动分类模型的阈值而进行计算。随着阈值的改变,真正例率与假负例率也会随之发生改变,进而就可以在ROC曲线坐标上,形成多个点。" ]! e1 Y+ G. Q9 Z% C9 ]

    : k$ c: B/ F' P: cROC曲线反映了FPR与TPR之间权衡的情况,通俗来说,即在TPR随着FPR递增的情况下,谁增长得更快,快多少的问题。TPR增长得越快,曲线越往上凸,模型的分类性能就越好。
    ; q" a1 J6 G+ O& G6 B* i9 @( S6 @* B& h- j3 t8 ]/ Z
    ROC曲线如果为对角线,则可以理解为随机猜测。如果在对角线以下,则其性能比随机猜测还要差。如果ROC曲线真正例率为1,假正例率为0,即曲线为与构成的折线,则此时的分类器是最完美的。8 k) C3 l- Y: G! P: ~
    " H( j8 g$ C8 P& k7 ~
    下图就是ROC曲线的一个示意图:2 v. T* ?$ t7 `- n  s0 ]% T
    11.png
    - }$ H9 X9 Y& F- hROC曲线横坐标是FPR(False Positive Rate),纵坐标是TPR(True Positive Rate)6 o+ O6 d3 X. \, P$ S' g( Q' R
    接下来我们考虑ROC曲线图中的四个点和一条线。
    0 t. j( u* p$ P' h$ g7 z5 q( ~8 ]# |# d1 G4 |$ @' Q# F
    第一个点,(0,1),即FPR=0, TPR=1,这意味着FN(false negative)=0,并且FP(false
    - p/ E) w0 x# i1 N# p: }7 p, D  Apositive)=0。这是一个完美的分类器,它将所有的样本都正确分类。, i! b' C  }1 M5 D' Y' _
    第二个点,(1,0),即FPR=1,TPR=0,类似地分析可以发现这是一个最糟糕的分类器,因为它成功避开了所有的正确答案。
    ) v7 g2 z) m4 t& Z1 f第三个点,(0,0),即FPR=TPR=0,即FP(false positive)=TP(true
    5 {0 }# \/ d% F, M+ |" k. T9 bpositive)=0,可以发现该分类器预测所有的样本都为负样本(negative)。
    . ?4 b5 K  V0 C第四个点(1,1),分类器实际上预测所有的样本都为正样本。经过以上的分析,我们可以断言,ROC曲线越接近左上角,该分类器的性能越好。
    . h3 y% @( U4 P' K& V如何画ROC曲线:
    ! [& ~' s" i; M% M2 ^( ~1 @: Q" t5 ]' |0 r5 a% W8 _
    对于一个特定的分类器和测试数据集,显然只能得到一组FPR和TPR结果,而要得到一个曲线,我们实际上需要一系列FPR和TPR的值,这又是如何得到的呢?我们先来看一下wikipedia上对ROC曲线的定义:
    7 S% L5 l% q: R; m: H! J+ y
    : o! L# K) Z; G: f* oA receiver operating characteristic curve, i.e. ROC curve, is a
    ; d# s# M1 w: [, ^graphical plot that illustrates the diagnostic ability of a binary
    , E/ t4 K( j% v3 l" g- N' B: l* z9 Z/ f  Tclassifier system as its discrimination threshold is varied.
    # Q: p0 A) r7 X0 {; `3 R译:ROC曲线是由一系列因区分阈值变化产生的点,用于描述二分类模型的判断能力
    . s9 U1 P% Q, Q这里的关键在于 “its discrimination threshold is varied” ,因为对于一个二分类模型,它的输出结果其实是判断这个样本属于正样本的概率值,假如我们已经得到了所有样本的概率输出(属于正样本的概率),现在的问题是如何改变“discrimination threashold”?我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率
    , h2 O9 h3 p, R+ Y# G1 L 12.png
    : S7 K! Y8 u: d9 u- w/ U, q6 }然后我们按照样本的score值,从大到小依次作为阈值,当样本score值大于等于阈值时则判定为正样本,否则为负样本。' a$ S# h% n9 d7 d& J- V  v
    例如第一个阈值取0.9,这时只有id=1的样本被预测为正样本,其余都是负样本,此时TPR=1/1+9=0.1, FPR=0/0+10=0。还例如:对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。+ M- c. W/ f% K( U% ^" a' e
    6 f/ y$ Y! q4 K, ?
    详细如下:
    9 ?3 l* C1 `+ @, j! H( D 13.png
    - Q1 j+ r. n/ Y* p由此我们便得到了一组(FPR,TPR)的值,可以绘制出ROC曲线:
    ) u+ y$ E, N1 v5 s3 q5 |. ? 14.png
    1 E2 E5 a0 }! M5 X, o/ b当我们将threshold设置为1和0时,分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来,就得到了ROC曲线。当threshold取值越多,ROC曲线越平滑。
    5 D6 r; c+ N# |* b9 P/ g' n; K
    / S* {8 {. L4 z- j# j# J% l4.2 AUC
    % v: H! n% r( j5 Y& {' ]  _6 }; r  a* w 15.png
    / K9 p$ I6 y: n- M! F: c* QAUC(Area Under the Curve)是指ROC曲线下的面积,使用AUC值作为评价标准是因为有时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而AUC作为数值可以直观的评价分类器的好坏,值越大越好。$ }; v1 \6 `; [
    2 n; z7 d, }/ [7 l1 j4 [6 A
    AUC是ROC曲线下的面积。
    3 P' c0 k! u$ [8 uAUC的取值为[0.5-1],0.5对应于对角线的“随机猜测模型”。7 _9 _  j8 ~4 }% F4 @( N6 c% e* @
    AUC值是一个概率值,当你随机挑选一个正样本以及负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值,AUC值越大,当前分类算法越有可能将正样本排在负样本前面,从而能够更好地分类。
    2 M& e6 j2 D/ D" t
    & {6 q/ j: D$ h% d; T3 E* c& x从AUC判断分类器(预测模型)优劣的标准:  e4 ?% x* N7 I5 k7 [/ s

    * g3 I( W; B; G8 v  a' j
      C/ M' M; t2 o- [' `例如一个模型的AUC是0.7,其含义可以理解为:给定一个正样本和一个负样本,在70%的情况下,模型对正样本的打分(概率)高于对负样本的打分。
    & L* ~& _) K& i6 j% O* s: \8 D& l+ A. t- G3 @
    三种AUC值示例:- I5 n* x  P% D
    16.png
    , n" ~& S4 ^4 S( g7 \9 P1 {4 l简单说:AUC值越大的分类器,正确率越高。' T$ f. `& E3 O- {, u7 Q
    6 f! G! O2 E& l6 {9 N0 \. V7 \
    那么为什么要用AUC作为二分类模型的评价指标呢?为什么不直接通过计算准确率来对模型进行评价呢?& \5 ~7 Z2 s. z1 A& J2 E6 s
    因为机器学习中的很多模型对于分类问题的预测结果大多是概率,即属于某个类别的概率,如果计算准确率的话,就要把概率转化为类别,这就需要设定一个阈值,概率大于某个阈值的属于一类,概率小于某个阈值的属于另一类,而阈值的设定直接影响了准确率的计算。也就是说AUC越高说明阈值分割所能达到的准确率越高。
    2 @7 k- p: r+ [2 t/ B" |+ ?& ]4 N. ]' G3 {2 J
    小练习:
    9 z) z: u. F" K2 ^) o% b3 j6 c/ q. u2 f& E" I$ t6 p
    以下说法正确的是( ABD)。【不定项】
    - |! g4 R: Y6 K/ aA 随着阈值的降低,TPR与FPR都会增大。6 Z9 R& |4 e4 B7 F2 G4 y( U! }
    B TPR与召回率的值是相同的。6 G2 H0 n' w) t* y2 c( j
    C 如果AUC的值非常低,例如,0.1,则该模型效果很差,也很难调优。
    / ^, T" }; T" t5 M5 s+ k6 |- WD 无论是什么分类模型,ROC曲线一定会经过(0, 0)与(1,1)这两个点。
    . p8 I1 z+ ]6 _4.3 ROC曲线程序示例( w0 m0 n! [6 p6 C8 c" [' v
    7 B- z& |) y' ^
    我们首先来看一个简单的程序示例,借此来说明sklearn库中,ROC曲线的实现细节。  N: x  A  n9 t

    " p5 X4 e% K9 M' x$ G2 c4.3.1 roc_curve函数的参数) S0 \! t" ?" C, L
    import numpy as np
    & @8 W* w$ c2 [0 g% G0 Zfrom sklearn.metrics import roc_curve, auc, roc_auc_score
    ' _) h+ {0 x, J! }y = np.array([0, 0, 1, 1])
    ( R" I4 V9 `! U& x5 g" h5 }( a8 lscores = np.array([0.2, 0.4, 0.35, 0.8])
    3 u! d" B' a9 B/ n; ~( J3 l, p# 返回ROC曲线相关值。返回FPR,TPR与阈值。当分值达到阈值时,将样本判定为正类,
    5 {3 S( y, C+ f0 {+ p3 O5 @% \# 否则判定为负类。
    ) I4 m2 _: q+ G' k! f# y_true:二分类的标签值(真实值)。
    3 i$ A( Q$ @1 x& G# y_score:每个标签(数据)的分值或概率值。当该值达到阈值时,判定为正例,否则判定为负例。2 b! t- c4 [: o" w% s. r, ?
    # 在实际模型评估时,该值往往通过决策函数(decision_function)或者概率函数(predict_proba)获得。0 K, ~0 N# F, ]
    # pos_label:指定正例的标签值。
    ! L" M4 I8 J9 T& Sfpr, tpr, thresholds = roc_curve(y, scores, pos_label=1)
    7 Z  z/ v( ?8 Qprint(f"fpr:{fpr}")
    6 N- A' r9 Q4 xprint(f"tpr:{tpr}")! B4 r+ Z4 {; t- x1 F
    print(f"thresholds:{thresholds}")4 [* R' v- {+ X7 b2 Z% B- ]
    # auc与roc_auc_score函数都可以返回AUC面积值,但是注意,两个函数的参数是不同的。
    7 u) C4 w7 N( B5 ]# ]print("AUC面积值:", auc(fpr, tpr))/ }6 z& G* L; |* i
    print("AUC面积得分:", roc_auc_score(y_true=y, y_score=scores))
    ( L3 o& _8 D1 s6 R#### 3.3.2 roc_curve函数的返回值
    : |3 B; N( g( l: S; h: P7 b5 v7 Y$ x6 F
    " |9 t/ s, b6 \5 K0 K$ t! a结果:
    + a! Z+ }3 m3 C2 R" G$ d 17.png 1.8 是怎么来的?; A# Z) g' S" G$ W
    1.8是阈值中最大值+1(0.8+1)得来的。为什么这么算?因为要使得最开始得到的所有阈值都不会超过这个值,才能过(0,0)和(1,1)这两个点。& `  a4 b4 m/ _5 G7 U9 j
    ! o; C6 T, e7 X- k
    4.3.2 roc_curve函数的返回值4 }- H5 h; q2 R$ V# e1 j

    7 ], ^- Q& l) l/ N- _0 B) Nroc_curve函数具有3个返回值:) A7 e8 t8 |% Z. l1 V
    ; h# D1 |9 [4 }6 S/ i4 E5 W
    fpr 对应每个阈值(thresholds)下的fpr值。
    6 _2 V  g% U2 s6 A. stpr 对应每个阈值(thresholds)下的tpr值。6 q7 {" Q) J5 m6 U
    thresholds 阈值。0 g2 I: N& E/ }$ m2 C+ |
    roc_curve函数会从y_score参数中,选择部分元素作为阈值(选择哪些元素属于实现细节,会根据sklearn版本的不同,也可能会有所差异。),然后进行降序排列,作为roc_curve函数的第3个返回值(thresholds)。同时,根据thresholds中的每个元素(阈值),分别计算fpr与tpr。
    ; Y) r; G: A6 Qiris = load_iris()% E' ~) Y' B3 w: r. j
    X, y = iris.data, iris.target( s4 k; i! y8 K5 w, ?6 N
    X = X[y != 0, 2:]$ s+ ^; H& c3 J# |
    y = y[y != 0]4 b* I& {: q+ K  Q/ h  F1 q& m
    y[y == 1] = 0
    ; d9 f% p" m- w7 t( p2 x9 y* {% ?y[y == 2] = 1! a4 q( E! {( m. [
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25,, J- u# h" \, e/ w( G- J! X
    random_state=2)
    $ \( u+ a" {0 b# lr = LogisticRegression(multi_class="multinomial", solver="lbfgs")
    ) u4 p4 p& K1 ]. V  rlr = LogisticRegression(multi_class="ovr", solver="liblinear")
    6 K9 W) o: @# j& [lr.fit(X_train, y_train)8 j# c; {1 a2 `  k- Q2 W
    # 使用概率来作为每个样本数据的分值。0 O/ M) [; Z5 i5 z
    probo = lr.predict_proba(X_test), b; I" \/ {0 w  [/ F  N  f8 d
    fpr, tpr, thresholds = roc_curve(y_true=y_test, y_score=probo[:, 1],
    ) a+ j" u# }* `! g. _; zpos_label=1). d# p3 O7 {, `2 \
    display(probo[:, 1])
    $ }7 }9 z) V8 S. }4 H# 从概率中,选择若干元素作为阈值,每个阈值下,都可以确定一个tpr与fpr,$ }$ \0 u0 K, z' J! o# y
    # 每个tpr与fpr对应ROC曲线上的一个点,将这些点进行连接,就可以绘制ROC曲线。0 G+ Z0 g0 {3 d1 B
    display(thresholds)
    + W  m3 [/ [, [# p0 ]* z
    6 t0 x# s. B' U+ }1 ^结果:. e% v8 v' B1 p
    18.png
    7 o  ]' Y+ y  G4 f, L8 y. }  g3 o0 s2 x: L( I2 _# O# ?

    $ l5 v! ^0 c& [7 r* x# 随着阈值的不断降低,fpr与tpr都在不断的增大。/ [1 k- I: c/ c9 c
    fpr, tpr
    5 I. e2 @5 M; r: k" m$ [! e7 d& `" e0 x' R9 c
    结果:+ N) n( }$ H) @% X* j9 S! y9 H
    19.png
    * Q3 ~# @: @2 z0 y- Y
    # L6 Z" `; k$ l! e" ~4.3.3 绘制ROC曲线) G" m, _$ k5 E0 h% X& P
    有了fpr与tpr的值,绘制ROC曲线是非常容易的,只不过是最简单的一个plot而已。
    % W( S( R3 W# kplt.figure(figsize=(10, 6))8 _# c0 Y* w3 p+ B6 ?
    plt.plot(fpr, tpr, marker="o", label="ROC曲线")( U" A( h8 F5 F
    plt.plot([0,1], [0,1], lw=2, ls="--", label="随机猜测")# e% P  _' L' i$ |8 v
    plt.plot([0, 0, 1], [0, 1, 1], lw=2, ls="-.", label="完美预测")
    3 r4 B7 C5 f; }! {' X# gplt.xlim(-0.01, 1.02)$ H$ d+ t' j" k: o' p( G
    plt.ylim(-0.01, 1.02)
    * m7 E' W5 n  d5 I! c4 A0 }plt.xticks(np.arange(0, 1.1, 0.1))
    9 C( z8 Y, z& C& p5 G" T8 q9 Q) @plt.yticks(np.arange(0, 1.1, 0.1))4 i2 h8 m8 _9 n  N
    plt.xlabel("False Positive Rate(FPR)")' A, K' J; x: [, s$ P+ d
    plt.ylabel("True Positive Rate(TPR)")
    5 y5 H3 h, }6 @5 vplt.grid()  {6 w1 w" ~2 d; M, B4 a9 r6 |
    plt.title(f"ROC曲线-AUC值为{auc(fpr, tpr):.2f}")/ r: w, t$ v3 O& s
    plt.legend()
    , K0 |, l  F9 ]& V, S3 g2 _plt.show()  g9 U  C) z+ J. m! i: F
    20.png
    4 e4 x1 E( a  K; i& g! Q7 A! m7 K% f) H9 w+ V
    5、总结  p/ m# d' j, y0 {

    & g& r' i, i" i5 s. g混淆矩阵的含义。* g& c  w$ f+ k: |& S
    正确率,精准率,召回率与调和平均值F1的含义。2 [, R& ?" V2 [* z. y
    ROC与AUC。) A% N& K! C! j* U  u# q
    ! I* z0 `) h' k6 `5 r0 v1 @5 q" v
    参考资料:0 Z: G4 Y) }" T- O$ Y
    1、https://blog.csdn.net/zuolixiangfisher/article/details/81328297
    9 z: Q; `0 T# k+ P' e2、https://www.jianshu.com/p/2feb00839154
    ) F' L& x0 p& B3 m+ Z6 m3、https://www.cnblogs.com/kamekin/p/9788730.html
    - V7 k& W1 q- \; \# Y' E  p, {4、https://www.jianshu.com/p/c61ae11cc5f6; c, u. D% H& k/ W3 v" k
    ————————————————
    5 p) [) |- |$ X版权声明:本文为CSDN博主「糖潮丽子~辣丽」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    : q4 x, G7 c" r原文链接:https://blog.csdn.net/qq_39783601/article/details/105600700
    ! B1 ?8 U. K! J" p: a" I; a) M
    % {2 J5 S- L. {% C, r4 X' h- D* N$ R; F# B& o0 q( c
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    0

    主题

    1

    听众

    11

    积分

    升级  6.32%

  • TA的每日心情
    开心
    2020-4-19 10:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-6-10 15:59 , Processed in 0.458312 second(s), 58 queries .

    回顶部