在线时间 1630 小时 最后登录 2024-1-29 注册时间 2017-5-16 听众数 82 收听数 1 能力 120 分 体力 563412 点 威望 12 点 阅读权限 255 积分 174246 相册 1 日志 0 记录 0 帖子 5313 主题 5273 精华 3 分享 0 好友 163
TA的每日心情 开心 2021-8-11 17:59
签到天数: 17 天
[LV.4]偶尔看看III
网络挑战赛参赛者
网络挑战赛参赛者
自我介绍 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
群组 : 2018美赛大象算法课程
群组 : 2018美赛护航培训课程
群组 : 2019年 数学中国站长建
群组 : 2019年数据分析师课程
群组 : 2018年大象老师国赛优
2 M* x1 O3 g' J0 I2 `5 ~0 p
详细讲解分类模型评估 分类模型评估1 M$ g" `4 O4 _2 n3 @7 B, z
r9 v; F8 |2 s- L0 c' g 1、分类模型
) n, z2 n: K% R7 [' H* {; y9 R7 S 主题:如何对分类模型进行评估
! F, z+ y" C0 i3 `( E 目标:1 M9 k, U( k/ q. _+ _( H3 k h }
2、混淆矩阵! e/ T$ h; b% D) C9 H( L
3、评估指标
8 u* e J' ~( _+ L 3.1 正确率
+ l0 s& V4 C$ L 3.2 精准率' B; ~$ v8 M9 X+ \. q# z: X
3.3 召回率
; I; q& {5 k [ 3.4 调和平均值F1
3 ~/ L6 E% M" H% b+ u5 ]/ @ 4、ROC和AUC' |& K j/ T! @* ~
4.1 ROC曲线
$ ^) w G6 \3 L: b# N 如何画ROC曲线:& \: p4 a: o1 o2 w( e
4.2 AUC
8 U; X" ]+ }2 @# B7 ~- J 4.3 ROC曲线程序示例2 u7 S8 W5 a Q( ~; O
4.3.1 roc_curve函数的参数
- k. k- m B. w8 z* s6 C8 }" G 4.3.2 roc_curve函数的返回值
3 @4 h) ?8 y/ B! F 4.3.3 绘制ROC曲线
- |$ _3 x! H: L 5、总结- |. P) D0 D/ A- h
1、分类模型
. s4 l# |% A7 {8 ^# O8 U" }& F2 A 0 t3 A x8 f2 R1 d5 X" T
分类问题在我们日常生活中处处可见,比如我们对帅哥的分类,可能对帅哥分为非常帅和一般帅。比如我们平时刷淘宝,淘宝根据我们平时的喜好给我们推送产品,那我们就会把产品分为感兴趣和不感兴趣两类。- I! x5 J. \! U1 B z
上述所说的问题就是典型的分类问题,确切的说其实就是二分类问题。
0 p, E/ J5 c* H s B 能够解决这些二分类问题的数学模型就被称为二分类模型。: M' ~4 A! ]7 Z
用数学的方式表达就是,给定自变量X,代入到我们的分类模型F,会输出因变量y,y的取值为0或1,其中0代表负样本(一般帅的帅哥、不感兴趣的推送),1代表正样本(非常帅气的帅哥、感兴趣的推送)。/ j8 z4 T( V# S0 c
$ N: K1 E* I9 b2 { 主题:如何对分类模型进行评估% ~; K% k z) G5 z# d
. T) V& R. w$ m7 N
目标:
# \" D; K6 H2 Y' e$ [, A
$ b. h: L7 Z+ i 能够熟知混淆矩阵的含义。
- g+ } T7 s; R ~ 能够使用各种指标对分类模型进行评估。
) H! g# v$ w% c/ v8 R 能够独立绘制ROC曲线,并熟悉该曲线细节。
+ b$ [ P3 K3 G, e/ F 能够对样本不均衡进行处理(扩展内容)。
! Q! v; }- j' ]+ K1 q 2、混淆矩阵
% Q( m+ ?. `5 C 1 {" E3 p5 S8 n' T! ^+ ?
混淆矩阵,可以用来评估模型分类的正确性。
" s, P' O1 j" b+ u/ ]0 H 该矩阵是一个方阵,矩阵的数值用来表示分类器预测的结果,包括真正例(True Positive),假正例(False Positive),真负例(True Negative),假负例(False Negative)。0 U8 |) ^0 z( {$ W* W- F
9 ]* w3 j# f% \) e, \
矩阵的形状是2 x 2,其中, - 矩阵的左上角表示,预测值为1,实际值为1(True Positive,简称TP); - 右上角表示预测值为1,实际值为0(False Positive,简称FP); - 左下角表示预测值为0,实际值为1(False Negative,简称FN); - 右下角表示预测值为0,实际值为0(True Negative,简称TN);! ~7 _ t9 B5 R* K- y: Q* I- N
# q- a( ^3 m$ Z0 q) E, l
真负例(TN)+ 假正例(FP)——每个类别真实存在的负例的数量7 K6 \8 @1 {) i
假负例(FN)+ 真正例(TP)——每个类别真实存在的正例的数量
8 ?% y: s# `$ d6 M& N! {- @ 真负例(TN)+ 假负例(FN)——每个类别预测的真负例数量" w n3 @. u. W& `, `1 W1 p
假正例(FP)+ 真正例(TP)——每个类别预测的真正例数量- j: Z; Y5 ?% H, ^& L
其中:
5 [/ {! m8 q% o- U) R( i7 r
9 V+ \4 Z# n+ ~! w' r+ |/ V TP:真正例,实际为正预测为正;1 r' h5 M% q" I" j) C' s# W. q
FP:假正例,实际为负但预测为正;7 L( X/ r+ ^& I
FN:假反例,实际为正但预测为负;) `; ~3 c0 L0 ?( @
TN:真反例,实际为负预测为负
8 z- u3 Y1 u: B: x# O; H* Q 接下来,我们通过数据来看下鸢尾花的混淆矩阵:% a: w# |% [# Y. h1 ]2 @3 I) X, c
import numpy as np
' e) T$ _4 n% G; J9 G from sklearn.datasets import load_iris3 }$ {3 N: p* C* [/ N. ^! j+ Z/ N
from sklearn.linear_model import LogisticRegression% t+ p- P5 N3 T! `: [% D$ @
from sklearn.model_selection import train_test_split& y& p/ u% i# ~0 Z( H2 ~6 D
# 混淆矩阵
4 L/ Z* F8 U% `! h. r: k6 s from sklearn.metrics import confusion_matrix
8 ~- K. b% ^5 k8 k% Q' j import matplotlib.pyplot as plt8 G7 j3 Z4 N$ W3 G5 R
import warnings$ ~ N% ?) u$ N" y8 @0 d& f M
* ?' e# ?7 k7 h, e8 L
plt.rcParams["font.family"] = "SimHei"* u$ v3 n, k$ \; h) T, H
plt.rcParams["axes.unicode_minus"] = False7 Z" O' B a: n
plt.rcParams["font.size"] = 12
) X( W. |. Q' k; R; G0 R: s% d2 [' O warnings.filterwarnings("ignore")( n7 h! w# U4 F, C% P3 _
* e$ Q# ]7 }, E) E- l iris = load_iris() #导入鸢尾花数据集
8 N# q F, P7 x5 i X, y = iris.data, iris.target
) g |) D' \) w1 } X = X[y != 0, 2:]
( Z) B# Q$ K1 S, H2 u; s/ c y = y[y != 0]7 t8 L6 X8 N: A
y[y == 1] = 0' v5 U l( R& W
y[y == 2] = 1 e. s$ H3 ]( \- Y& g2 Z
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=2)# W! w# t' b" F1 Z, C5 d
lr = LogisticRegression() #使用逻辑回归
) I+ b5 L; O+ c' _ j* A- R lr.fit(X_train, y_train). w9 G A2 F% d! C5 `4 O
y_hat = lr.predict(X_test)
. ?+ x. U% ]+ r3 n# x # 根据传入的真实值与预测值,创建混淆矩阵。4 s# Z! a. e7 |9 x B
matrix = confusion_matrix(y_true=y_test, y_pred=y_hat)
! Z" _. I+ W; X0 G& F7 i: y print(matrix)
, w5 G, s n7 O! w : `* a/ N3 r5 @- {7 d2 E
: D, i* T7 j. ~. {0 K: }+ n$ B9 |" x
输出结果:$ a `6 C0 G" z" I# t5 M5 ~3 M
# I. Y+ O1 i0 l% ?4 c! A* V6 c9 S. W
我们还可以对其进行可视化操作:
0 j0 P/ v% Q, p6 N W0 X$ W9 r$ A mat = plt.matshow(matrix, cmap=plt.cm.Blues, alpha=0.5) #cmap 指定颜色图色系,alpha透明度
$ C a& n, m+ |6 `# d O1 B' i$ t label = ["负例", "正例"]) D: G( I- x* P% {
ax = plt.gca(), \5 O* j" f& O: @1 r
ax.set(xticks=np.arange(matrix.shape[1]), yticks=np.arange(matrix.shape[0]),
5 H8 F6 k# \1 h5 N9 J xticklabels=label, yticklabels=label, title="混淆矩阵可视化\n",
* g. [5 R1 v3 f! F7 u2 Y$ q* u/ l ylabel="真实值", xlabel="预测值")
# Q. v8 ?; m' e Q) x for i in range(matrix.shape[0]):1 D* E7 O$ V) r0 [6 Y5 x2 O
for j in range(matrix.shape[1]):
9 h+ t" \( @% i8 `" e! K! H6 _% w plt.text(x=j, y=i, s=matrix[i, j], va="center", ha="center")
/ p$ K9 F# L" [% M6 @ a, b = ax.get_ylim()
( d' D& }/ W( m, K3 ?3 ~% y ax.set_ylim(a + 0.5, b - 0.5); g% y/ Y, S2 c, p! U% H
plt.show()) d8 |) O9 E2 H5 R$ ]
9 ~- v8 ~) X/ j4 Q- k % @( z% S0 V5 z% ]* {) m0 d
代码解析: {8 B! I0 e9 g/ X/ s. u
matshow( ) 绘制矩阵,alpha 透明度
! \6 M! v5 o# N! H% ]$ m 结果:
+ f0 i( t8 {- h: U
6 g7 U: S9 i" G9 h2 l- `) w% T
练习:& d, X2 f8 [- ?
, b# ?4 r2 \$ g& b3 I2 H$ w7 } 关于混淆矩阵,说法正确的是( ABCD)。【不定项】
8 b9 z3 \2 U" P4 B5 B A 混淆矩阵可以用来评估分类模型。
" l4 h' W: F* ?7 a B 混淆矩阵中,TP与TN的数值越大,则分类的效果越好。
3 l" |+ J/ E, N! P C 混淆矩阵一行元素的和代表某个类别的实际数量。
) c) h8 f+ g H D 混淆矩阵一列元素的和代表某个类别的预测数量。
7 ?$ X$ ?' c) L3 i# z' v' { 3、评估指标 L6 E6 K+ U4 z
# y/ s3 k1 |/ s 对于分类模型,我们可以提取如下的评估指标:. Z$ t7 \1 x0 ^3 U1 s. b- m) r
/ W* z, e1 y& ^6 v7 a 正确率(accuracy)* T) v: I5 L. Y# W
精准率(precision)0 `. Z ]! M t; q
召回率(recall)! a5 v/ f) a% w. d) Y8 M- W% u
F1(调和平均值)
* q$ O5 z' `) ~$ @+ N4 E 3.1 正确率
^/ S. v- q$ \; I
0 \3 \; Y* d. K4 Q3 k" j 正确率(准确率)定义如下:% D+ `0 n* p, K; J B+ t0 `
衡量所有样本被分类准确的比例。
$ L- J( c) R) j+ ]$ f+ Z" J Accuracy = (TP+TN) / (TP+FP+TN+FN)
( }/ Y) {& v- v
2 k5 i+ e! p8 _1 f( G R$ n 预测正确的数量除以总数量。/ v0 P Z# H3 P% t- K7 F
% L( @" @ E6 ~4 U( h+ d
3.2 精准率
; h W5 r7 ^! ^( ^
3 N* q& |$ p0 I( k6 ]
查准率(精准率)定义如下:
9 v4 B+ m& B8 V j' U2 S 衡量正样本的分类准确率,就是说被预测为正样本的样本有多少是真的正样本。7 m% m! q7 {5 b, o1 B
Precision = TP / (TP+FP)
8 O5 g# I6 D8 v; q : {7 C7 H+ \4 Q1 ?" w" I* F$ L
精准率只考虑正例。) }5 d% Q( j) t
! y8 K% p6 N6 K% r/ X3 k' ] q
3.3 召回率
. p! n; D1 p3 @" e: h
# |, g" L/ \( c1 X" ]6 T
查全率(召回率)定义如下:
$ }3 H! i7 h) r. f+ Q p9 u) c 表示分类正确的正样本占总的正样本的比例。
( O, [+ [, l2 k: X8 a& I2 \ Recall = TP / (TP+FN)
; K# |4 ?% a/ `: T
; S5 I1 [$ l1 e1 g7 F
( A# ` R# j0 C# k0 L$ W 3.4 调和平均值F1
# K- Q( a) U" G) K7 g2 e4 ^
. y" u' b) _( t
F值(F1-scores)调和平均值F1定义如下:; S: f0 V. E7 {5 ?3 c
精确率和召回率的调和平均。+ l! p2 P; X- a3 S( u/ D9 H8 @5 w
精准率Precision和召回率Recall加权调和平均数,并假设两者一样重要。
: Q) j* G% R' L. S# b* e, Q2 c & m T1 @1 L+ S, B( y
F1-score = (2Recall*Precision) / (Recall + Precision)* s$ U1 Z; ~4 e* {; o0 B H
% p; }, O; G6 l5 T1 T v 精准率和召回率是一对矛盾的度量。一般来说,精准率高时,召回率往往偏低;而召回率高时,精准率往往偏低。通常只有在一些简单任务中,才可能使二者都很高。$ [7 Z! }# Z9 T U
最好的分类器当然是准确率、精确率,召回率都为1,但实际场景中几乎是不可能的,而且精确率和召回率往往会相互影响,一个高了另一个会有所下降,因此在实际应用中要根据具体需求做适当平衡。. v; n4 ]3 h: l* c6 k
让我们做个练习加深下印象吧!
: q: a& w5 j' g+ ? " N6 G/ Q+ f. @) z8 I
以下说法正确的是( C )。3 y- Z# t0 h- f/ }; q) ?. `' h
A 使用正确率去评估一个分类模型,效果会比精准率更好。
9 S7 C: g, m( g# G3 k0 v- _ B 使用精准率去评估一个分类模型,效果会比召回率更好。1 z4 y. G! X4 \% q
C 精准率与召回率通常要联合使用。
) v4 w0 {, G6 u; K" k1 c$ M D 精准率与召回率如果有一个值较低,F1值也可能会较高。
; t" W$ P3 {& m4 k2 w" }/ z 如果精准率和召回率我们只能选择重视一个,我们会更看重( C )。
- x/ H( |" c4 P/ o) G A 精准率。
! q! i# V( Y9 j' g8 O B 召回率。
4 x0 m; m. u& d- O) y/ } C 具体场景不同,重视谁也会不同。
4 p( s: D" P: T 接下来我们通过程序来说明下:" P, M6 ?- i q5 [5 a
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score# `1 M8 { P. w1 H' e7 |' m X2 x6 m
5 E' D4 I! c, R2 W print("正确率:", accuracy_score(y_test, y_hat))% u& E$ `1 f) k5 q+ v# n
# 默认将1类别视为正例,可以通过pos_label参数指定。' ~& L3 d; |. f, Z2 x
print("精准率:", precision_score(y_test, y_hat))
4 {. q7 k. Z7 \1 n9 W, c8 T print("召回率:", recall_score(y_test, y_hat))
" J) {) O, q4 E print("F1调和平均值:", f1_score(y_test, y_hat))
; V& q( k2 c6 Z # 我们也可以调用逻辑回归模型对象的score方法,也能获取正确率。" X$ ~9 r. L( ?2 ?9 q) [
# 但是需要注意,score方法与f1_score函数的参数是不同的。
3 V! S2 Y X' K, `, V8 v print("score方法计算正确率:", lr.score(X_test, y_test))
* c2 e4 x3 C# A% s% W, }- I O
( e* }* s1 W) W# q# K% i1 O" \7 i' p * _! u: c) C0 [% N9 }9 T0 W6 Q
结果:
+ ]0 b7 |# z. s) m/ W; M g
) Y: w6 v" W; G% ^ n' m( j 除此之外,我们也可以使用classification_report函数来查看模型的分类统计信息,该方法会返回字符串类型,给出相关的分类指标评估值。
- C" I$ {; f) x from sklearn.metrics import classification_report
8 k1 N+ X8 q3 z5 g) K3 b/ f: d
. e) X' f. M! k& k+ z/ i print(classification_report(y_true=y_test, y_pred=y_hat))
9 e* ?# O& e e7 Q" j
- g- C9 \( j) P
1 J# R I# ]+ b; r8 A, \6 u& T+ o3 [ 结果:7 b+ [! B. q" r, y" S# d
! p9 c& Z+ w* V' B1 T; T ( j% U% m h% l8 C3 `& m q/ M
练习:
' w: L9 o3 T" F/ Q) K0 e1 |8 I( M
0 M* x9 K2 j8 { o' e/ J 如果使用精准率与召回率评估二分类模型时,我们应该将哪个类别设置为正例? (B)
1 @/ K1 o7 j4 z2 |& Q A 随意
. s4 _2 z. V: q; B# V3 F B 关注的类别) W+ D& }; q) [% l V
C 不关注的类别 F! u* I) X4 u* H' F$ p
4、ROC和AUC
+ b O1 m; e( S 5 e& L/ ? q! v- b: y- K' s% o
ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。% o6 z2 s" B$ l4 Y8 p0 m2 Y
$ r8 Y) t: v0 p& u
4.1 ROC曲线- C7 E0 a; X/ A* `, l3 n- |
& T3 l6 S) q4 Z% I4 H ROC曲线(Receiver Operating Characteristic——受试者工作特征曲线),使用图形来描述二分类系统的性能表现。图形的纵轴为真正例率(TPR——True Positive Rate),横轴为假正例率(FPR——False Positive Rate)。其中,真正例率与假正例率定义为:+ P" V# u7 p, p; Q4 T8 R# [3 C
/ q! B4 C4 @* v+ F& u0 Y/ O ROC曲线通过真正例率(TPR)与假正例率(FPR)两项指标,可以用来评估分类模型的性能。真正例率与假正例率可以通过移动分类模型的阈值而进行计算。随着阈值的改变,真正例率与假负例率也会随之发生改变,进而就可以在ROC曲线坐标上,形成多个点。* c$ e2 y v# y0 \; W
5 `! B" H/ v; A6 Z; ]9 C* O- ? ROC曲线反映了FPR与TPR之间权衡的情况,通俗来说,即在TPR随着FPR递增的情况下,谁增长得更快,快多少的问题。TPR增长得越快,曲线越往上凸,模型的分类性能就越好。# E- f5 K8 _( w# U1 X# \# I
* @" y: m, h5 h W. c% t
ROC曲线如果为对角线,则可以理解为随机猜测。如果在对角线以下,则其性能比随机猜测还要差。如果ROC曲线真正例率为1,假正例率为0,即曲线为与构成的折线,则此时的分类器是最完美的。
/ p$ T) ~( c. M
/ {9 @$ k# V1 I 下图就是ROC曲线的一个示意图:
' q8 I- V4 t' Z( Q& y# A. [
- V, _3 L d- ~) r( J ROC曲线横坐标是FPR(False Positive Rate),纵坐标是TPR(True Positive Rate)6 c% R- K+ N. R3 l& T7 Q* g' G
接下来我们考虑ROC曲线图中的四个点和一条线。
6 J& H" c/ [- ]
- n2 |) D W @! c+ `$ P* Q$ q 第一个点,(0,1),即FPR=0, TPR=1,这意味着FN(false negative)=0,并且FP(false" z1 s W v y/ a% f
positive)=0。这是一个完美的分类器,它将所有的样本都正确分类。; k. `% H/ H+ Q/ x
第二个点,(1,0),即FPR=1,TPR=0,类似地分析可以发现这是一个最糟糕的分类器,因为它成功避开了所有的正确答案。7 Z4 |6 K9 I Y- W7 {3 e' C; y
第三个点,(0,0),即FPR=TPR=0,即FP(false positive)=TP(true9 C5 }" [! E6 J) U0 e7 W
positive)=0,可以发现该分类器预测所有的样本都为负样本(negative)。4 A2 N& f E# ] [) E
第四个点(1,1),分类器实际上预测所有的样本都为正样本。经过以上的分析,我们可以断言,ROC曲线越接近左上角,该分类器的性能越好。
; D3 Q$ `( m; d 如何画ROC曲线:
$ X3 V+ N! l% e5 t
+ ]7 `! G$ c+ K r 对于一个特定的分类器和测试数据集,显然只能得到一组FPR和TPR结果,而要得到一个曲线,我们实际上需要一系列FPR和TPR的值,这又是如何得到的呢?我们先来看一下wikipedia上对ROC曲线的定义:
7 I9 q7 c2 X7 d; f+ ~8 R: R# D ) d o; ~9 ]7 |% b
A receiver operating characteristic curve, i.e. ROC curve, is a1 V; S* E; i1 k, \" S
graphical plot that illustrates the diagnostic ability of a binary/ R: x: v) G" K& f9 E% {
classifier system as its discrimination threshold is varied.6 E' i: K o/ a
译:ROC曲线是由一系列因区分阈值变化产生的点,用于描述二分类模型的判断能力5 J f3 ~6 j9 k3 P E
这里的关键在于 “its discrimination threshold is varied” ,因为对于一个二分类模型,它的输出结果其实是判断这个样本属于正样本的概率值,假如我们已经得到了所有样本的概率输出(属于正样本的概率),现在的问题是如何改变“discrimination threashold”?我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率
# X. D9 ^& x. U* E1 ~! w: C( H
3 ~) C9 u, K; s( K3 i/ x 然后我们按照样本的score值,从大到小依次作为阈值,当样本score值大于等于阈值时则判定为正样本,否则为负样本。' m8 Q' _% w, M: ~1 G
例如第一个阈值取0.9,这时只有id=1的样本被预测为正样本,其余都是负样本,此时TPR=1/1+9=0.1, FPR=0/0+10=0。还例如:对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。
3 W& H* R( q4 E, d! A! _6 c2 P 6 i R4 o6 N5 N2 x9 c7 y# Z2 n, V
详细如下:
4 C( ]6 S F, |" m8 G6 c9 v
0 y% p4 j4 t- n% K, \: j
由此我们便得到了一组(FPR,TPR)的值,可以绘制出ROC曲线:2 M, m9 `& Z7 v; G( p2 B: K
& m: f7 @7 h9 [. z9 b 当我们将threshold设置为1和0时,分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来,就得到了ROC曲线。当threshold取值越多,ROC曲线越平滑。
! p2 A$ ~+ X( @/ D+ C9 j6 `
4 n* ]6 m( p6 J 4.2 AUC
5 {* e+ u0 ^6 s* e. O" B+ N
3 }, q- t) v3 q* B' N* a8 d3 D8 c3 t AUC(Area Under the Curve)是指ROC曲线下的面积,使用AUC值作为评价标准是因为有时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而AUC作为数值可以直观的评价分类器的好坏,值越大越好。
U1 T4 i7 h& J8 O. g7 H8 C- \ 7 ` t3 o) k7 k/ g5 I" B& v
AUC是ROC曲线下的面积。
* [- ^! K$ h+ H: Q0 i7 M AUC的取值为[0.5-1],0.5对应于对角线的“随机猜测模型”。
) X# o2 h" R# v3 Y' G9 v' I AUC值是一个概率值,当你随机挑选一个正样本以及负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值,AUC值越大,当前分类算法越有可能将正样本排在负样本前面,从而能够更好地分类。! Q) k4 L [% b' u$ P* y% b
6 q/ z5 i0 Y3 K( @$ \
从AUC判断分类器(预测模型)优劣的标准:0 [, H7 A: v4 K5 ]9 H" y/ b9 T
. J: G* O+ q% v' B
, }+ P* g! D j 例如一个模型的AUC是0.7,其含义可以理解为:给定一个正样本和一个负样本,在70%的情况下,模型对正样本的打分(概率)高于对负样本的打分。
4 o4 T% v m8 s [2 Z
# H& j2 t2 Y! f7 ~ 三种AUC值示例:
# ?6 ?6 E0 O) l: O+ }6 Y
. Q& l4 Z S4 ^6 t$ H
简单说:AUC值越大的分类器,正确率越高。
# ~' P' S8 g K; Q6 T/ {6 e 4 T/ c( V1 I5 G1 w( X: J! |
那么为什么要用AUC作为二分类模型的评价指标呢?为什么不直接通过计算准确率来对模型进行评价呢?
8 m. ~6 f( k8 G1 |3 P 因为机器学习中的很多模型对于分类问题的预测结果大多是概率,即属于某个类别的概率,如果计算准确率的话,就要把概率转化为类别,这就需要设定一个阈值,概率大于某个阈值的属于一类,概率小于某个阈值的属于另一类,而阈值的设定直接影响了准确率的计算。也就是说AUC越高说明阈值分割所能达到的准确率越高。" `, T+ K8 F1 R. e! K4 f2 e0 ^
) ~9 z5 V+ r1 s
小练习:. f3 ?0 D! \6 F) c: O# o& n* r2 \
$ [. B( p- \; c! I, x 以下说法正确的是( ABD)。【不定项】
7 m- {$ ^1 J8 ^% {2 M A 随着阈值的降低,TPR与FPR都会增大。3 }8 [1 B4 \2 [+ i- M4 k
B TPR与召回率的值是相同的。
3 s/ K( j( R- G1 X C 如果AUC的值非常低,例如,0.1,则该模型效果很差,也很难调优。
& k& n8 K) ]+ s7 J5 p A9 c! J0 C/ ^ D 无论是什么分类模型,ROC曲线一定会经过(0, 0)与(1,1)这两个点。
Z; G% @) P1 h* ~+ g) l2 ^) f+ v$ p 4.3 ROC曲线程序示例- {' m# x+ j0 n0 n
" ~& B8 K" r* d 我们首先来看一个简单的程序示例,借此来说明sklearn库中,ROC曲线的实现细节。8 g/ E, \) m; l g9 R9 l
. T& T T7 P1 h! k9 E+ `- F 4.3.1 roc_curve函数的参数
1 g" H5 J5 v. R: f, G import numpy as np
+ R2 X9 Q* s4 q* E from sklearn.metrics import roc_curve, auc, roc_auc_score
" F0 t* u* ?+ B! [- v+ g y = np.array([0, 0, 1, 1])0 L @) o6 l! K1 s2 ~ `
scores = np.array([0.2, 0.4, 0.35, 0.8])
6 ~; m5 j( }) Q: Q. L! R # 返回ROC曲线相关值。返回FPR,TPR与阈值。当分值达到阈值时,将样本判定为正类,
* t0 p4 U, y- a/ P" x, {+ W6 t # 否则判定为负类。
3 ?' A8 t& S: f+ V- [$ h # y_true:二分类的标签值(真实值)。
' n2 N* K; Q% y7 @, m6 F: b # y_score:每个标签(数据)的分值或概率值。当该值达到阈值时,判定为正例,否则判定为负例。
1 V8 C6 B& h' h3 B, ?) b # 在实际模型评估时,该值往往通过决策函数(decision_function)或者概率函数(predict_proba)获得。
( p, j) F) C/ D4 h- J9 n' N # pos_label:指定正例的标签值。; |9 M0 b' e7 u# B2 L# X, a: c1 B
fpr, tpr, thresholds = roc_curve(y, scores, pos_label=1)
4 Y2 P3 z2 ~; X4 \! h% X; H/ ^ print(f"fpr:{fpr}"); N" R# v5 r# }7 R( H
print(f"tpr:{tpr}")9 R7 a) ~2 Y# `# H0 k
print(f"thresholds:{thresholds}")9 [8 C3 w+ `" C
# auc与roc_auc_score函数都可以返回AUC面积值,但是注意,两个函数的参数是不同的。
( G' F4 p7 p; r- j j( N print("AUC面积值:", auc(fpr, tpr))- M( b8 l' V8 b! e' }& w, }1 x5 q
print("AUC面积得分:", roc_auc_score(y_true=y, y_score=scores))& S; E, t$ S4 |* I& _6 O" c
#### 3.3.2 roc_curve函数的返回值
7 ~. r7 F5 v4 Y% t6 ^6 X- l 2 L0 ]# S0 t$ x7 ]7 _
结果:# o0 r# j; c2 ?5 i4 W( C0 G; T7 U
1.8 是怎么来的?9 Z; @( p; A/ O4 q' i' ~
1.8是阈值中最大值+1(0.8+1)得来的。为什么这么算?因为要使得最开始得到的所有阈值都不会超过这个值,才能过(0,0)和(1,1)这两个点。- g$ D1 B. i7 ?* y/ h$ j
3 Z7 y! @* E3 l( }+ {# ~4 T' n 4.3.2 roc_curve函数的返回值
+ Q, C' O& R. e& S8 O( ~; P ! p# g% K2 Y: w0 B" y
roc_curve函数具有3个返回值:8 K( {0 d3 j# r: z1 W* y9 S
" y# W4 Y% W9 T5 I& t% G T( J/ ]8 U fpr 对应每个阈值(thresholds)下的fpr值。5 {) ]& k0 t9 q& W1 m
tpr 对应每个阈值(thresholds)下的tpr值。
" P6 h' g5 i& Z3 E, W thresholds 阈值。 W- R5 N3 K: q: s& c1 z
roc_curve函数会从y_score参数中,选择部分元素作为阈值(选择哪些元素属于实现细节,会根据sklearn版本的不同,也可能会有所差异。),然后进行降序排列,作为roc_curve函数的第3个返回值(thresholds)。同时,根据thresholds中的每个元素(阈值),分别计算fpr与tpr。8 S, [* M; n8 A( n$ X9 D
iris = load_iris()
1 D+ ]) N1 E3 i X, y = iris.data, iris.target
: l, x* [2 O! Z, B2 a- a X = X[y != 0, 2:] Q; T4 q( q3 B! a- b- M
y = y[y != 0]2 U$ @- f; q# L/ U" Y. {" U; N; G4 R
y[y == 1] = 0
, j& Y* g: I! ^9 c( H) a, S y[y == 2] = 1, t0 T4 a! t5 T9 v6 R7 J+ ^6 x
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25,
* X3 C) G5 x4 ]1 U random_state=2)8 b/ A- s3 X# p0 i/ P2 @
# lr = LogisticRegression(multi_class="multinomial", solver="lbfgs")" h. {% a5 q2 L
lr = LogisticRegression(multi_class="ovr", solver="liblinear")
( N- M0 \8 i; E: N% r% ] lr.fit(X_train, y_train); H3 [& A, K7 ~* E! J
# 使用概率来作为每个样本数据的分值。2 A4 L0 s' {& W6 m
probo = lr.predict_proba(X_test)
2 D* @* ^: t7 j8 J% O1 C fpr, tpr, thresholds = roc_curve(y_true=y_test, y_score=probo[:, 1],
; b; m/ y7 O9 O2 G0 v$ T: R pos_label=1)
4 j0 Z8 b2 `6 K4 @; n: ~1 L display(probo[:, 1])
$ B' H s# ~" s( f # 从概率中,选择若干元素作为阈值,每个阈值下,都可以确定一个tpr与fpr,( Y9 T& ~- t% E. X
# 每个tpr与fpr对应ROC曲线上的一个点,将这些点进行连接,就可以绘制ROC曲线。, k( k4 h" F' w) j, C, U4 \
display(thresholds)0 V5 `; u7 a+ f
1 B5 U7 h. n# w0 \: h g 结果:
2 Z9 E" d% Z" Q- c
* b" c5 d$ S( W3 Z; L# Z( N6 X
% E8 _0 j+ y- J- p
) [" E c9 x7 c: h# L # 随着阈值的不断降低,fpr与tpr都在不断的增大。
9 \$ t# j5 b3 f, B fpr, tpr
7 \" U Y! }9 K0 Z B
( V! ?) n {4 Y ? 结果:; Q) A) n$ C [$ W
' R! f I9 i1 x/ o+ x" n3 x
" o& L5 ~# m2 O5 n) R
4.3.3 绘制ROC曲线
: t# x, A' V* q 有了fpr与tpr的值,绘制ROC曲线是非常容易的,只不过是最简单的一个plot而已。
( b" E/ u, [9 \0 ]+ s) o plt.figure(figsize=(10, 6))
2 p% h4 I' `4 g plt.plot(fpr, tpr, marker="o", label="ROC曲线")! a6 t. A4 r+ A# ^5 f* n6 p, ^3 @' ~/ c
plt.plot([0,1], [0,1], lw=2, ls="--", label="随机猜测"), S$ |- i S+ b ^" y" g
plt.plot([0, 0, 1], [0, 1, 1], lw=2, ls="-.", label="完美预测")
: t, g9 S4 j. R. a plt.xlim(-0.01, 1.02)( v$ v2 f6 R9 F F
plt.ylim(-0.01, 1.02)
% B( G- N6 N7 k4 { plt.xticks(np.arange(0, 1.1, 0.1))! |- z0 |% r$ F+ i1 C
plt.yticks(np.arange(0, 1.1, 0.1))
. k$ g. ?: d; e' E% T3 Y plt.xlabel("False Positive Rate(FPR)")2 n l+ j: a, L4 w3 a& _4 l
plt.ylabel("True Positive Rate(TPR)")
5 X+ D _ O9 X t plt.grid()- M$ `& Z8 F1 M# B2 E7 j$ j
plt.title(f"ROC曲线-AUC值为{auc(fpr, tpr):.2f}")% l% C8 P+ u; C- V( j* W- r v6 ^7 ?
plt.legend()
5 f$ }" Z o" @4 t. o6 t plt.show()
( }. U4 Z$ k' o" F# t. K
4 ` j( p3 q; C, S
( w2 s9 \$ P3 _
5、总结
1 {/ F" u7 Y4 R/ C
' x) [/ \! w- F+ J5 @$ ?* k5 ` 混淆矩阵的含义。' L0 o. W! y7 m: a
正确率,精准率,召回率与调和平均值F1的含义。
x! z& n7 v: j3 j6 `2 D ROC与AUC。
2 X! l: p5 ]9 E ) T6 d" d, O6 K8 {( Z
参考资料:# _5 s3 g) ?/ Q+ l4 f+ R3 c( s) @
1、https://blog.csdn.net/zuolixiangfisher/article/details/81328297
& ^; v' ]1 W' q0 g/ z 2、https://www.jianshu.com/p/2feb00839154
- k+ n" e. C4 z; d2 p1 K 3、https://www.cnblogs.com/kamekin/p/9788730.html4 P3 C6 R: |- s
4、https://www.jianshu.com/p/c61ae11cc5f6
: ~1 w% f- u. _9 `' L# e ————————————————) Y- J4 z) a+ J: D
版权声明:本文为CSDN博主「糖潮丽子~辣丽」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
/ h8 m4 D' H5 P' u' ?' z 原文链接:https://blog.csdn.net/qq_39783601/article/details/1056007001 G6 t) `0 o1 E2 U
7 g. p4 z- K4 U4 n% O0 o& d* U$ d' k
, r; E1 I9 S% x/ h& x
zan