在线时间 1630 小时 最后登录 2024-1-29 注册时间 2017-5-16 听众数 82 收听数 1 能力 120 分 体力 564647 点 威望 12 点 阅读权限 255 积分 174617 相册 1 日志 0 记录 0 帖子 5313 主题 5273 精华 3 分享 0 好友 163
TA的每日心情 开心 2021-8-11 17:59
签到天数: 17 天
[LV.4]偶尔看看III
网络挑战赛参赛者
网络挑战赛参赛者
自我介绍 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
群组 : 2018美赛大象算法课程
群组 : 2018美赛护航培训课程
群组 : 2019年 数学中国站长建
群组 : 2019年数据分析师课程
群组 : 2018年大象老师国赛优
+ @9 p: O. p, A7 _
详细讲解分类模型评估 分类模型评估8 P- _* | s- P" w" l8 w
' `+ e! F8 z$ B4 Z0 {) j 1、分类模型- }2 A- D, ]1 G u3 u/ o
主题:如何对分类模型进行评估9 o! X/ q+ l$ K0 p% @5 b( ^+ S6 ^
目标:
: {2 x# e: k* E# a 2、混淆矩阵
+ e0 q/ Z3 W" I$ x+ a: S z/ R 3、评估指标
: b- A1 J9 d! H/ v0 D4 Y! q `' K2 X 3.1 正确率
/ `+ F* w( w. l3 p& y* O3 G0 `. Q 3.2 精准率4 P( \0 u/ Q* I4 x6 |
3.3 召回率
( H, S, A q# E& a6 f! ~7 E1 M3 | 3.4 调和平均值F1& k- F% w# m* u# K, B3 a
4、ROC和AUC# [! s0 f0 C. \% W0 m& K
4.1 ROC曲线
4 b9 ^" x* G* ^" J* N1 D B2 b 如何画ROC曲线: g) p1 n$ y& \- [
4.2 AUC
! g: w( T3 b! Z. D/ ` 4.3 ROC曲线程序示例" }! o Z" l/ M' x( i1 o' `
4.3.1 roc_curve函数的参数
& R9 t3 h; T4 q4 |5 z: D, W 4.3.2 roc_curve函数的返回值: c, ?. M+ R# E+ `" y9 l, D7 z
4.3.3 绘制ROC曲线, ~' Y( o: @2 s8 B) G% l3 a
5、总结
/ G) Q5 \& m( l: J& w 1、分类模型
# `! U9 V3 ~0 @+ `" l ' J5 E0 u; T) y6 u! g& J: B
分类问题在我们日常生活中处处可见,比如我们对帅哥的分类,可能对帅哥分为非常帅和一般帅。比如我们平时刷淘宝,淘宝根据我们平时的喜好给我们推送产品,那我们就会把产品分为感兴趣和不感兴趣两类。
1 `8 h+ Q+ V. h3 ]2 ?5 t 上述所说的问题就是典型的分类问题,确切的说其实就是二分类问题。- t4 @0 ]( t1 G. O
能够解决这些二分类问题的数学模型就被称为二分类模型。! g0 j" R. Z. Z5 n2 l' S
用数学的方式表达就是,给定自变量X,代入到我们的分类模型F,会输出因变量y,y的取值为0或1,其中0代表负样本(一般帅的帅哥、不感兴趣的推送),1代表正样本(非常帅气的帅哥、感兴趣的推送)。/ q5 o' r c# }3 S
6 H" L/ V I; \ f 主题:如何对分类模型进行评估; z6 K% U( Z0 `0 Y4 ~. S, t9 D
8 ~! z- d# C" N& }6 q: A
目标:
: e0 P% Z5 ?) i( b% @5 Y' j# M
& {. R- F! a/ g6 T% \ 能够熟知混淆矩阵的含义。( \# C1 J8 Z2 ]6 M4 I# _( n
能够使用各种指标对分类模型进行评估。
+ @. x8 _0 X( t5 l- E2 s 能够独立绘制ROC曲线,并熟悉该曲线细节。2 i. |# c: H+ d8 o
能够对样本不均衡进行处理(扩展内容)。7 z2 l. u8 U4 W6 u
2、混淆矩阵; u8 E" [8 t) m
9 d0 C0 h; p% f. r- `% e K 混淆矩阵,可以用来评估模型分类的正确性。
$ x9 ]" j6 B T" a5 _0 A. ] 该矩阵是一个方阵,矩阵的数值用来表示分类器预测的结果,包括真正例(True Positive),假正例(False Positive),真负例(True Negative),假负例(False Negative)。1 d9 l$ \' O0 b8 i$ v o
4 {5 O' L6 N5 f4 g9 Y 矩阵的形状是2 x 2,其中, - 矩阵的左上角表示,预测值为1,实际值为1(True Positive,简称TP); - 右上角表示预测值为1,实际值为0(False Positive,简称FP); - 左下角表示预测值为0,实际值为1(False Negative,简称FN); - 右下角表示预测值为0,实际值为0(True Negative,简称TN);
* i! p7 l2 W# a& _ # O4 X v2 e) J* r2 [3 ^
真负例(TN)+ 假正例(FP)——每个类别真实存在的负例的数量7 }0 }# Y' R1 j+ ]- O
假负例(FN)+ 真正例(TP)——每个类别真实存在的正例的数量
1 J* n- k8 a# Y) a5 d& U( q2 c 真负例(TN)+ 假负例(FN)——每个类别预测的真负例数量2 P T, y2 j2 Z+ `2 Y+ [) o
假正例(FP)+ 真正例(TP)——每个类别预测的真正例数量, x- B# ?( Z% s$ K/ Z
其中:
# z% S' R) v0 {) X6 w8 D. m+ D
) Q" ~ t, z9 J TP:真正例,实际为正预测为正;' N3 J( q& {, T& W- x v
FP:假正例,实际为负但预测为正;
4 v8 }$ Q2 k" T" a FN:假反例,实际为正但预测为负;
1 H" `! Z$ X6 |' K2 y7 K TN:真反例,实际为负预测为负! Q, `0 K4 Y' S2 Z+ S9 l
接下来,我们通过数据来看下鸢尾花的混淆矩阵:# k$ h5 Y3 V$ r8 V- S# U' s/ ~4 D/ ~
import numpy as np/ v+ k4 Z/ k$ z) T; }
from sklearn.datasets import load_iris3 _# P2 N5 L3 u+ P% [& o
from sklearn.linear_model import LogisticRegression
5 u5 u# |7 v: Y5 ` from sklearn.model_selection import train_test_split
, R8 T% c+ v) |5 Z4 {7 U # 混淆矩阵3 e3 Y9 s8 a T0 q
from sklearn.metrics import confusion_matrix# p+ O1 G7 k4 m, ~8 u
import matplotlib.pyplot as plt
) E* u a g4 y8 }! w: z8 ` import warnings
# T- F0 c% f% ^" P2 f+ D$ R' {5 \
. {( ]* K# ?- s( x, H" z8 I plt.rcParams["font.family"] = "SimHei"# \" W7 U# \. {9 {' A0 e! R; ?0 [. @
plt.rcParams["axes.unicode_minus"] = False
. \, O; A& j$ L/ A+ C" n" b7 x) { plt.rcParams["font.size"] = 12
1 a+ w4 r6 @9 I; w warnings.filterwarnings("ignore")
9 v e7 n- r% }5 t : {0 @ ^$ S' Q
iris = load_iris() #导入鸢尾花数据集
: W0 x! u6 @) t/ H; u% n X, y = iris.data, iris.target1 h- F. _- H9 A* |7 H1 H% `, V
X = X[y != 0, 2:]/ e! a/ o8 s+ v9 M
y = y[y != 0]
) s$ T# L) j, A W: G6 |5 {7 Y y[y == 1] = 09 H% d! v- {, ]2 a; w8 Y
y[y == 2] = 1) }! |0 a- J) q" ~' h' Q% T
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=2)2 ^* O7 w6 g1 A: U( S
lr = LogisticRegression() #使用逻辑回归
1 H) u" Y) q; f& c; F) q5 F lr.fit(X_train, y_train)6 i3 U8 X1 n% k7 Q5 C/ P
y_hat = lr.predict(X_test)6 f5 r( j2 F1 {' P7 o
# 根据传入的真实值与预测值,创建混淆矩阵。5 S: d/ ^: P. x: B9 k: {
matrix = confusion_matrix(y_true=y_test, y_pred=y_hat)
4 Y; Q/ z" V7 E' w1 c# @8 H print(matrix)# u9 D6 G! Z# q* I$ G$ J! m# m; H
9 p- b. j$ n! j9 d, V# C$ y* k . V [' }6 H0 {2 W, u0 T
输出结果:5 R% c' K- r! t+ p& K, p2 w0 d' K4 L! n
6 ~+ M( }* u. V7 U8 P 我们还可以对其进行可视化操作:
7 w2 X+ f- N7 u4 ^( k/ Y mat = plt.matshow(matrix, cmap=plt.cm.Blues, alpha=0.5) #cmap 指定颜色图色系,alpha透明度
2 @1 ?/ Q( q: ~+ y" }6 f label = ["负例", "正例"]
4 F) j& g( r' M& m5 m ax = plt.gca()+ X0 o4 b5 A2 G* N
ax.set(xticks=np.arange(matrix.shape[1]), yticks=np.arange(matrix.shape[0]),/ k* z C+ R0 T( \7 ?# Q
xticklabels=label, yticklabels=label, title="混淆矩阵可视化\n",
! J9 f' L) Z) {) O x1 u/ N ylabel="真实值", xlabel="预测值")
9 R0 a/ X) \ R5 ` for i in range(matrix.shape[0]):9 `0 h# M, K7 n
for j in range(matrix.shape[1]):
0 V* \. u. Q6 J; Y$ L plt.text(x=j, y=i, s=matrix[i, j], va="center", ha="center")3 N+ Y) H3 i2 m1 T$ K2 v7 v
a, b = ax.get_ylim(); I, c9 [! N$ k' f
ax.set_ylim(a + 0.5, b - 0.5)
O$ v( M- A& b* J5 r plt.show()
& e$ H+ X( h7 R8 g0 R 7 p7 M4 r6 v; Q' ^1 a8 P8 Q
5 n3 l4 Q6 E5 h# d 代码解析:9 F8 ?9 Q4 l; W
matshow( ) 绘制矩阵,alpha 透明度& Z' p* O1 U4 ` T; Z
结果:# g* `7 ^2 f/ g9 C3 i
. l5 K; W! H* Z5 y 练习:
! i( D! G9 Q! N 5 `; z7 R+ C9 f4 I( Q& ^
关于混淆矩阵,说法正确的是( ABCD)。【不定项】
1 D4 @2 Y- S& b; t$ R; R A 混淆矩阵可以用来评估分类模型。/ H. f$ P% g6 U# |/ G, }/ y$ f% E7 f
B 混淆矩阵中,TP与TN的数值越大,则分类的效果越好。
, P, U) c( P6 M6 z j6 K1 S. F& W C 混淆矩阵一行元素的和代表某个类别的实际数量。
& S8 I2 W- L: R& o0 D( t& V7 N D 混淆矩阵一列元素的和代表某个类别的预测数量。* A6 p; G' j A( D
3、评估指标6 a( Y5 i: r7 f) [! E+ L+ J
4 f/ h- V; e4 U4 l 对于分类模型,我们可以提取如下的评估指标:
& @1 c5 H H& d" M: W 0 \% U( H0 |* P% l
正确率(accuracy)- Q3 s- o, S& J( B/ X
精准率(precision)
& M |& ?4 K9 X2 b% n3 Z) A: M 召回率(recall) i" c& e2 F: ^3 _/ F, h
F1(调和平均值)
% [$ |* O, Y$ i ?' { 3.1 正确率
" N" r+ N! T. n. n
. r+ f/ M# @. {( `/ I# b 正确率(准确率)定义如下:% @4 i0 z& I1 G2 A; S
衡量所有样本被分类准确的比例。
5 x) i# i* C; u( K' m Accuracy = (TP+TN) / (TP+FP+TN+FN)% Q0 Y! ]! I5 d$ m& M( y% c
+ b% X0 d: n* b0 T3 u8 E 预测正确的数量除以总数量。
, } m5 Q8 r, { 9 ^" \. A& T9 m
3.2 精准率9 T- T: P9 B3 a8 C4 ?$ }, s
5 y. ]6 o ], D& u3 \* Q, U 查准率(精准率)定义如下:
+ H" ]7 p3 F$ h$ A 衡量正样本的分类准确率,就是说被预测为正样本的样本有多少是真的正样本。# F1 x N8 h' t/ |) B3 G0 Z
Precision = TP / (TP+FP)
' G0 ^9 }' c& d, R+ d, O) g+ X" {
( a& Q/ ^( Z; |& n+ Z! d' N3 J% C 精准率只考虑正例。
5 X3 _" O/ x) G, D6 ]) |- Q
+ f& W+ r s6 H8 o2 j2 D 3.3 召回率
2 K# `! @+ p/ a
& Y* N9 ?; V3 [+ t! T
查全率(召回率)定义如下:
" _ A0 ^. {* C, J 表示分类正确的正样本占总的正样本的比例。
5 J8 ^! F- j3 D$ b* T( o$ p( T Recall = TP / (TP+FN). y! u5 u0 k# n' P$ `7 ]! ]8 n
: z O* C& p+ @: p9 J! U' Y1 \
5 e- M" b: L& g
3.4 调和平均值F15 _2 D) G m+ i, w. K' [ [ q$ J3 W
4 @$ { O6 n/ m7 x/ Z# W3 ` F值(F1-scores)调和平均值F1定义如下:
5 v6 b, I* {, i/ E 精确率和召回率的调和平均。0 `2 n& b" Z* x4 r+ w5 v& Q u
精准率Precision和召回率Recall加权调和平均数,并假设两者一样重要。
n( Z' A% F. b# v
- s4 m7 u# h v F1-score = (2Recall*Precision) / (Recall + Precision)6 J5 ?* t8 l+ W2 \( }/ |
/ S0 p: V+ Y- V
精准率和召回率是一对矛盾的度量。一般来说,精准率高时,召回率往往偏低;而召回率高时,精准率往往偏低。通常只有在一些简单任务中,才可能使二者都很高。. T# W X+ @4 \
最好的分类器当然是准确率、精确率,召回率都为1,但实际场景中几乎是不可能的,而且精确率和召回率往往会相互影响,一个高了另一个会有所下降,因此在实际应用中要根据具体需求做适当平衡。' u( B: Z% H) I7 P" Z/ t3 ?
让我们做个练习加深下印象吧!: g- Y0 | ?' J) s; F/ r
% a/ O" R- ^2 @$ |/ r ^, r
以下说法正确的是( C )。. C, H! Z' S j" r& v' u( A) `
A 使用正确率去评估一个分类模型,效果会比精准率更好。4 q$ K% [, V2 B" y) }4 f' B
B 使用精准率去评估一个分类模型,效果会比召回率更好。7 x% e, ?: w9 _5 f
C 精准率与召回率通常要联合使用。 E6 E/ O# x+ \/ d8 v
D 精准率与召回率如果有一个值较低,F1值也可能会较高。
+ ^2 G5 |/ z5 g# C, O; p 如果精准率和召回率我们只能选择重视一个,我们会更看重( C )。
6 ^6 Y" d. `& O4 _0 ~* p A 精准率。) W% x( ^1 v5 w2 j( e! c; o
B 召回率。) O3 @/ i4 _) W7 G/ i( _4 b
C 具体场景不同,重视谁也会不同。
! P7 M) I {( ~/ U( v& |2 a 接下来我们通过程序来说明下:4 v$ v) [! d, l: r) Z8 p |0 O
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score6 w5 j" h) G, K
) g( z' U1 Y7 Z9 d5 Z# r2 Z
print("正确率:", accuracy_score(y_test, y_hat))& ^8 ]& [$ F+ Z" R
# 默认将1类别视为正例,可以通过pos_label参数指定。
) c3 f8 c$ i( j+ d1 q print("精准率:", precision_score(y_test, y_hat))9 X+ }! K6 @/ \
print("召回率:", recall_score(y_test, y_hat))" E. S% z' W! `+ N+ c4 i. k; }
print("F1调和平均值:", f1_score(y_test, y_hat))2 P2 J5 b3 t; Q( B) o
# 我们也可以调用逻辑回归模型对象的score方法,也能获取正确率。
$ }. I; S, k m3 _) J% k( E, U # 但是需要注意,score方法与f1_score函数的参数是不同的。* a+ {7 H3 Z3 u6 f
print("score方法计算正确率:", lr.score(X_test, y_test))
+ p9 m( M0 d% x* P( i& I: ]
# v& S# l. T. }) v0 h: ^
s& v1 x( H1 o1 x, W5 i8 ] 结果:
* K9 T3 I" m( f- D- D) O
/ J7 S6 p' K8 z7 D. Q
除此之外,我们也可以使用classification_report函数来查看模型的分类统计信息,该方法会返回字符串类型,给出相关的分类指标评估值。
* F2 x! n. r& J6 l: o from sklearn.metrics import classification_report
. C$ s Y% ]1 {9 t8 i: i . A( ^! R! O" v0 H- }+ E4 C
print(classification_report(y_true=y_test, y_pred=y_hat))
! Z1 v3 [% I4 X @( F, d0 U
3 O1 j. ~4 J% ]
+ }2 b! [. o4 y/ X2 t1 ^9 n R5 { 结果:
5 c7 v4 h+ a- |
! X- f5 D( `9 j( ~% ^! d" J6 w$ q
Z% A+ L2 W5 R$ ]4 } 练习:. w4 R7 m1 m0 N( [& o
7 m. n" N" b6 o- q6 I" H- T
如果使用精准率与召回率评估二分类模型时,我们应该将哪个类别设置为正例? (B)7 Y0 _9 f: ~ X A
A 随意, L7 F9 M, k) @3 Q
B 关注的类别
3 O/ w0 U5 |% x( O8 C C 不关注的类别
/ m/ ] q* W* I/ N# n 4、ROC和AUC
& `* {) W2 i* y7 ]
$ h* t. d3 D) j ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。
8 [& P G2 H3 ]7 N( y 6 u" v/ J. f3 U9 B7 ?
4.1 ROC曲线
$ U$ t8 @9 i2 D6 [+ i! N
- S+ U( c+ i. _2 {) } ROC曲线(Receiver Operating Characteristic——受试者工作特征曲线),使用图形来描述二分类系统的性能表现。图形的纵轴为真正例率(TPR——True Positive Rate),横轴为假正例率(FPR——False Positive Rate)。其中,真正例率与假正例率定义为:
* d1 c' [( X( n. Z2 r0 ~ 9 W5 |! X7 s0 `
ROC曲线通过真正例率(TPR)与假正例率(FPR)两项指标,可以用来评估分类模型的性能。真正例率与假正例率可以通过移动分类模型的阈值而进行计算。随着阈值的改变,真正例率与假负例率也会随之发生改变,进而就可以在ROC曲线坐标上,形成多个点。
, G1 ^( i8 _5 a
; H2 `) o' v3 d1 v ? ROC曲线反映了FPR与TPR之间权衡的情况,通俗来说,即在TPR随着FPR递增的情况下,谁增长得更快,快多少的问题。TPR增长得越快,曲线越往上凸,模型的分类性能就越好。% Z4 v" ]0 o# l8 ^
+ k# |# {1 s/ E" [: _, v7 u ROC曲线如果为对角线,则可以理解为随机猜测。如果在对角线以下,则其性能比随机猜测还要差。如果ROC曲线真正例率为1,假正例率为0,即曲线为与构成的折线,则此时的分类器是最完美的。
( L% q3 `! H; t4 {# R8 e + _7 S' m$ [$ H/ \0 m! x& K
下图就是ROC曲线的一个示意图:7 w" J/ i6 b% H( a# o3 I: c: D
9 `1 h& U, w/ v9 N6 @ e ROC曲线横坐标是FPR(False Positive Rate),纵坐标是TPR(True Positive Rate)4 j4 J, Q% j7 ~, {' E
接下来我们考虑ROC曲线图中的四个点和一条线。
. d, G% R4 e o* U" E/ W; C$ ?
( p R5 Y% i1 E4 v& s! O* Q 第一个点,(0,1),即FPR=0, TPR=1,这意味着FN(false negative)=0,并且FP(false2 F2 |2 s+ b9 g3 ~
positive)=0。这是一个完美的分类器,它将所有的样本都正确分类。) l2 G+ {% P, Z( H* u4 @8 R; J
第二个点,(1,0),即FPR=1,TPR=0,类似地分析可以发现这是一个最糟糕的分类器,因为它成功避开了所有的正确答案。
3 V3 r# m& @( z/ D 第三个点,(0,0),即FPR=TPR=0,即FP(false positive)=TP(true
: w- ^9 W2 z/ {, p' \0 f. l8 M positive)=0,可以发现该分类器预测所有的样本都为负样本(negative)。
1 a: Q! ^. c. x V5 Z3 p* G0 C 第四个点(1,1),分类器实际上预测所有的样本都为正样本。经过以上的分析,我们可以断言,ROC曲线越接近左上角,该分类器的性能越好。
, J1 u, M; c, Z; ] 如何画ROC曲线:, b I9 @8 H/ z# R$ T1 K
' y \' _; \( ?' [4 V% v
对于一个特定的分类器和测试数据集,显然只能得到一组FPR和TPR结果,而要得到一个曲线,我们实际上需要一系列FPR和TPR的值,这又是如何得到的呢?我们先来看一下wikipedia上对ROC曲线的定义:! R; ?& k9 y4 G3 W
1 q) V/ w& E) G4 e5 d8 c A receiver operating characteristic curve, i.e. ROC curve, is a
; u \! ~2 S( j( Y graphical plot that illustrates the diagnostic ability of a binary0 k. _1 z2 x0 u( ^5 G) ]
classifier system as its discrimination threshold is varied. I S8 c7 u) Q* t, M! d! }" [% C
译:ROC曲线是由一系列因区分阈值变化产生的点,用于描述二分类模型的判断能力* A, Z1 f2 ?( d5 ?* D8 [2 a
这里的关键在于 “its discrimination threshold is varied” ,因为对于一个二分类模型,它的输出结果其实是判断这个样本属于正样本的概率值,假如我们已经得到了所有样本的概率输出(属于正样本的概率),现在的问题是如何改变“discrimination threashold”?我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率
. x" G! I. }8 l9 {1 B& h
9 g- ?6 Y, \* @3 W# U/ h
然后我们按照样本的score值,从大到小依次作为阈值,当样本score值大于等于阈值时则判定为正样本,否则为负样本。3 y! Y+ f' |. {* |& C) H. \
例如第一个阈值取0.9,这时只有id=1的样本被预测为正样本,其余都是负样本,此时TPR=1/1+9=0.1, FPR=0/0+10=0。还例如:对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。
: V$ v2 X2 Q m 9 V' P2 n4 Q! L/ d7 K( g
详细如下:
8 o: \' M) r/ o7 [ o) H) ~
& h7 \4 p! J; ~ g6 O! D0 | 由此我们便得到了一组(FPR,TPR)的值,可以绘制出ROC曲线:
# k0 a+ T5 s$ k7 }/ X! d+ n& S
" n0 z2 e3 a) `& S7 N7 `
当我们将threshold设置为1和0时,分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来,就得到了ROC曲线。当threshold取值越多,ROC曲线越平滑。- B$ Q2 f; ~* Y0 v3 n
9 y! K+ ^! W( R) T- `0 u: I3 U8 O 4.2 AUC$ p4 A8 r1 S' W% x4 c U9 M
7 v. t" ^, k8 l9 \2 J4 v8 j- X, l' w
AUC(Area Under the Curve)是指ROC曲线下的面积,使用AUC值作为评价标准是因为有时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而AUC作为数值可以直观的评价分类器的好坏,值越大越好。
+ ~" n" ~2 l, I0 ]- v
& h$ ` ]4 v' p. P1 d9 B# d6 d AUC是ROC曲线下的面积。( B. H; [4 B/ e: K0 M2 _
AUC的取值为[0.5-1],0.5对应于对角线的“随机猜测模型”。
. A T. _: g( W0 P9 r5 q AUC值是一个概率值,当你随机挑选一个正样本以及负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值,AUC值越大,当前分类算法越有可能将正样本排在负样本前面,从而能够更好地分类。' b7 G; ~* z0 j7 S2 Y
6 V! f; n7 e8 w( y" f- _ 从AUC判断分类器(预测模型)优劣的标准:6 l, }. |8 D, t2 z/ m' T* ]+ D5 i
0 b& k6 k9 g! U# P( m
% O: _/ l. }% ~4 }" W1 K, I. m
例如一个模型的AUC是0.7,其含义可以理解为:给定一个正样本和一个负样本,在70%的情况下,模型对正样本的打分(概率)高于对负样本的打分。; i4 n- F! s( P
\# ]' I' _! L2 j6 S
三种AUC值示例:' A/ V) s7 E. R8 ]+ F
5 V5 H3 m& {+ v. x
简单说:AUC值越大的分类器,正确率越高。! i; N7 H9 c8 V( T" C& d
2 G {7 k' d( a; S3 h: ^9 ]2 j
那么为什么要用AUC作为二分类模型的评价指标呢?为什么不直接通过计算准确率来对模型进行评价呢?
3 C: n: U) J1 E* q3 ? 因为机器学习中的很多模型对于分类问题的预测结果大多是概率,即属于某个类别的概率,如果计算准确率的话,就要把概率转化为类别,这就需要设定一个阈值,概率大于某个阈值的属于一类,概率小于某个阈值的属于另一类,而阈值的设定直接影响了准确率的计算。也就是说AUC越高说明阈值分割所能达到的准确率越高。
7 v. s7 @6 R0 [0 ^, [0 p+ Y9 U 9 H. L' z$ g1 K1 A: ?& Y
小练习:
7 ?/ s$ H" m, P3 c$ i6 p
+ x0 ?/ u5 u+ z6 n/ b# J 以下说法正确的是( ABD)。【不定项】8 k0 T$ {( \# b
A 随着阈值的降低,TPR与FPR都会增大。( Q. U6 d2 b- E5 Z' c" ~
B TPR与召回率的值是相同的。) o0 {- f! P3 g* O, _* y) ~
C 如果AUC的值非常低,例如,0.1,则该模型效果很差,也很难调优。
' B/ D/ \# Q# K, V6 W( L. P D 无论是什么分类模型,ROC曲线一定会经过(0, 0)与(1,1)这两个点。1 b4 e' ]8 a8 v3 P- ]; m
4.3 ROC曲线程序示例
. V( ]' I$ a- x0 z3 S; l
y, w+ y n9 m T- c 我们首先来看一个简单的程序示例,借此来说明sklearn库中,ROC曲线的实现细节。5 n- u* Q( ` D
0 B. X/ s! n$ a9 e0 d. ^) Z
4.3.1 roc_curve函数的参数
P8 ^# {# V& [, ` import numpy as np h4 n8 q7 K$ V8 D- E/ n
from sklearn.metrics import roc_curve, auc, roc_auc_score
% ^+ c% F: @$ q/ { y = np.array([0, 0, 1, 1])
- @& V; Z3 P( B2 L% c; W4 V scores = np.array([0.2, 0.4, 0.35, 0.8])
( j' {1 }) \/ |8 A' S& {0 Y- I # 返回ROC曲线相关值。返回FPR,TPR与阈值。当分值达到阈值时,将样本判定为正类,
+ h4 W$ l. O, X( J+ N5 h8 Y% Q # 否则判定为负类。( h3 a4 Z+ y) X" H
# y_true:二分类的标签值(真实值)。
( ?( {7 m6 y* D # y_score:每个标签(数据)的分值或概率值。当该值达到阈值时,判定为正例,否则判定为负例。! Z' ~6 i# m |* B! O
# 在实际模型评估时,该值往往通过决策函数(decision_function)或者概率函数(predict_proba)获得。3 Y4 M$ P+ _. J* G
# pos_label:指定正例的标签值。
H9 D F0 s m& ^7 I" b fpr, tpr, thresholds = roc_curve(y, scores, pos_label=1)
. ]- M1 A0 X$ v% @ print(f"fpr:{fpr}")+ h0 P- e0 j6 J/ r* h# Z
print(f"tpr:{tpr}")
|4 i# W O6 M6 f; ^6 } print(f"thresholds:{thresholds}")
% h7 R$ D- h% g F9 B: e3 b1 V: g6 ^ # auc与roc_auc_score函数都可以返回AUC面积值,但是注意,两个函数的参数是不同的。& J" Y/ x4 ~2 E* D5 h7 x) D; h9 J
print("AUC面积值:", auc(fpr, tpr))) w- O. q" K! U' O) b
print("AUC面积得分:", roc_auc_score(y_true=y, y_score=scores))! }7 y( X/ |2 T
#### 3.3.2 roc_curve函数的返回值. S6 V% j* ?. }5 d# _
5 k4 E2 ^* {" @7 L/ z! C1 M# H
结果:
0 p8 e1 m O0 w ~2 W" ?) I% V+ @
1.8 是怎么来的?1 n4 R$ E1 U/ f5 D5 ^9 X# o
1.8是阈值中最大值+1(0.8+1)得来的。为什么这么算?因为要使得最开始得到的所有阈值都不会超过这个值,才能过(0,0)和(1,1)这两个点。8 L; U+ q0 b2 D n+ K1 U1 X9 x
( Y: `& z# W. u
4.3.2 roc_curve函数的返回值+ C) |) k& ~2 W# }& a/ V7 R
& P9 a$ S/ i6 w+ Y! c
roc_curve函数具有3个返回值:% f7 ^6 z" t) R _
: B0 U0 g6 U/ {% h2 ^$ Q
fpr 对应每个阈值(thresholds)下的fpr值。6 H* K' y/ M5 v$ V% U
tpr 对应每个阈值(thresholds)下的tpr值。
6 `) I" ?2 n4 F5 h thresholds 阈值。
3 `" x* l! y+ u8 k l0 U8 [/ N" i roc_curve函数会从y_score参数中,选择部分元素作为阈值(选择哪些元素属于实现细节,会根据sklearn版本的不同,也可能会有所差异。),然后进行降序排列,作为roc_curve函数的第3个返回值(thresholds)。同时,根据thresholds中的每个元素(阈值),分别计算fpr与tpr。
( n! @& J, D: v/ N( N iris = load_iris()5 \& e; H# y8 K7 t6 S" N8 _/ Q1 x
X, y = iris.data, iris.target
6 U7 E! m/ J( K6 r# g& j X = X[y != 0, 2:], A6 w# K( f/ J, A- V
y = y[y != 0]
% t7 _; a% e) Z y[y == 1] = 0, x: \' N# G& g8 z1 m/ t) P
y[y == 2] = 1% Q& `" A. a7 D" D, D# S% E
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25,+ D. N" U7 M+ g; `5 s( l
random_state=2)
4 O" T7 ?( Q) i # lr = LogisticRegression(multi_class="multinomial", solver="lbfgs")5 ], q* x j$ q% A& K
lr = LogisticRegression(multi_class="ovr", solver="liblinear")& z4 w& F+ q* c$ L8 o% m* A
lr.fit(X_train, y_train)
4 T* `7 S, V5 x9 E0 h3 C # 使用概率来作为每个样本数据的分值。
9 r1 b0 }* T+ ^8 c+ z5 l( N6 W probo = lr.predict_proba(X_test)
: y( X9 q0 v8 f8 ~1 a fpr, tpr, thresholds = roc_curve(y_true=y_test, y_score=probo[:, 1],$ `7 }5 W; I/ R. p( u% g4 v
pos_label=1)
$ o# H% G9 Q4 P9 L6 p1 c display(probo[:, 1])
% d* S7 h- U' a3 J; _8 a # 从概率中,选择若干元素作为阈值,每个阈值下,都可以确定一个tpr与fpr,: d5 B& K5 l; ? T( |$ G5 Q, h5 x
# 每个tpr与fpr对应ROC曲线上的一个点,将这些点进行连接,就可以绘制ROC曲线。
/ f' Y; Q0 u+ x8 L9 s' f4 Z* ~ display(thresholds)
: J- R$ T5 u. L; T5 h I5 ~ ; O# E4 F; l1 E! |
结果:
3 H3 U4 |/ ?; a! A
- \. t+ Y4 Z* e3 H
8 d& q7 R" k( X
* E( Z; v, m) D) ~6 b9 K
# 随着阈值的不断降低,fpr与tpr都在不断的增大。
7 i, f% o# x% H" O' U/ b fpr, tpr+ z9 _7 i% z- s: x+ B# n8 L5 W$ k
- n# A9 y" f7 f9 h, [. F5 y% m 结果:
1 d# O2 b5 ~% J" f2 f9 H O- @9 R
- s$ U$ L9 ]; g3 k. o
C9 a% b7 @' q; z" W: j 4.3.3 绘制ROC曲线) u% f8 ]/ v* n
有了fpr与tpr的值,绘制ROC曲线是非常容易的,只不过是最简单的一个plot而已。
8 g9 B- \7 p! J' R9 X, Y' H plt.figure(figsize=(10, 6))
% P. {& F! Q5 a( ? plt.plot(fpr, tpr, marker="o", label="ROC曲线")
# x3 M) E$ t: K0 q plt.plot([0,1], [0,1], lw=2, ls="--", label="随机猜测"): j- O% W$ f* c
plt.plot([0, 0, 1], [0, 1, 1], lw=2, ls="-.", label="完美预测"). B& p" L4 p$ v9 a' d6 n
plt.xlim(-0.01, 1.02)# i% t/ R& C# @8 c3 l
plt.ylim(-0.01, 1.02)$ Y; b( z9 ~+ p. a, f ^0 P* i
plt.xticks(np.arange(0, 1.1, 0.1))3 Z2 ]$ X0 T8 O. F' j) `
plt.yticks(np.arange(0, 1.1, 0.1))5 d7 l' L) b3 S9 n( a i' J% V4 T
plt.xlabel("False Positive Rate(FPR)")
- C7 C7 N3 Q, [: y2 L2 e, j plt.ylabel("True Positive Rate(TPR)")
6 o7 F/ C1 \! Y2 Z9 B5 c1 m$ a plt.grid()
3 x* a: d* y. J! a w0 h4 K plt.title(f"ROC曲线-AUC值为{auc(fpr, tpr):.2f}")+ u3 M2 V8 z. _# U) z' ~ Q
plt.legend()# e/ N$ Q8 n3 Y- F: m' s
plt.show()
+ m5 E. G3 Q" d' X& f' ~$ _: Z
4 N) x8 i9 g0 D, x) b% e " }; g# p7 x; h* b2 ~
5、总结9 m/ r+ ], \6 G1 Z" [; @
+ {0 M6 ~9 a0 j
混淆矩阵的含义。9 X& X4 R9 p& Z8 X% R% _3 Y( L
正确率,精准率,召回率与调和平均值F1的含义。
- U; Y# {( s# C" {, s! _: y ROC与AUC。* g$ R- K7 g3 ]* w
& v/ }+ a+ T# E) W! a# ^7 T
参考资料:
* o+ R8 g# r: s. f4 {9 w 1、https://blog.csdn.net/zuolixiangfisher/article/details/81328297
5 l" a! n3 m ~$ M 2、https://www.jianshu.com/p/2feb00839154) f( I2 Z. P" L) h4 l$ i4 W
3、https://www.cnblogs.com/kamekin/p/9788730.html& |: _* I$ }. E% o
4、https://www.jianshu.com/p/c61ae11cc5f6
) c% B3 P) p1 L ————————————————
* Q$ r. u. R/ ] 版权声明:本文为CSDN博主「糖潮丽子~辣丽」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。- ` @+ A6 _% I5 ~2 n2 p; ~
原文链接:https://blog.csdn.net/qq_39783601/article/details/105600700. D3 v# Q- G, z6 v3 E' }
! d* A% U+ G4 R# Q% Y # B) F8 i2 ?# Y. R! t+ U! Q
zan