在线时间 1630 小时 最后登录 2024-1-29 注册时间 2017-5-16 听众数 82 收听数 1 能力 120 分 体力 563404 点 威望 12 点 阅读权限 255 积分 174244 相册 1 日志 0 记录 0 帖子 5313 主题 5273 精华 3 分享 0 好友 163
TA的每日心情 开心 2021-8-11 17:59
签到天数: 17 天
[LV.4]偶尔看看III
网络挑战赛参赛者
网络挑战赛参赛者
自我介绍 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
群组 : 2018美赛大象算法课程
群组 : 2018美赛护航培训课程
群组 : 2019年 数学中国站长建
群组 : 2019年数据分析师课程
群组 : 2018年大象老师国赛优
6 b& _" ]- I$ x% t 详细讲解分类模型评估 分类模型评估
! E2 G- U) M' {8 y
" d n8 c$ }; z. f B* b! Q! b 1、分类模型
: p0 n8 s V" U. O5 z 主题:如何对分类模型进行评估* O e9 V# C6 Y3 |* ^
目标:' s+ }4 E+ R8 s( q/ V
2、混淆矩阵2 F! z+ G0 C/ t* ]
3、评估指标
/ N% ~8 a' u/ c 3.1 正确率: g' ~1 z& p) F e
3.2 精准率
) j3 w a5 ?* S v! J 3.3 召回率
' g7 Q, S, J% j' B4 ^3 K 3.4 调和平均值F1! S1 J. A) k, \% M/ ~+ g: l1 e
4、ROC和AUC) n7 q) Z% L- } ]5 Q
4.1 ROC曲线
" K5 \" ^7 p/ b 如何画ROC曲线:
) A) {: p+ i3 c/ ~ 4.2 AUC' e$ O7 F3 N) |! |
4.3 ROC曲线程序示例; H' Y" G7 u) s: `* q
4.3.1 roc_curve函数的参数
0 U- _* F/ T6 J; @4 [4 `3 ?) J 4.3.2 roc_curve函数的返回值5 r# u9 U) }6 w9 S+ }
4.3.3 绘制ROC曲线
1 P! r8 u- n- h# J7 C4 | 5、总结
/ A/ T3 n8 c `# d8 x/ x; b 1、分类模型: i' O1 {! a, @. W ]& d; j
! J' ?4 Z) x0 C' c3 S! m4 g
分类问题在我们日常生活中处处可见,比如我们对帅哥的分类,可能对帅哥分为非常帅和一般帅。比如我们平时刷淘宝,淘宝根据我们平时的喜好给我们推送产品,那我们就会把产品分为感兴趣和不感兴趣两类。
$ W+ h `) `8 w* F, z6 X. P2 X 上述所说的问题就是典型的分类问题,确切的说其实就是二分类问题。
2 v) v/ f+ f( g 能够解决这些二分类问题的数学模型就被称为二分类模型。% b. z) r4 k7 }3 U2 j, S
用数学的方式表达就是,给定自变量X,代入到我们的分类模型F,会输出因变量y,y的取值为0或1,其中0代表负样本(一般帅的帅哥、不感兴趣的推送),1代表正样本(非常帅气的帅哥、感兴趣的推送)。+ N1 \' V7 N; r* y4 V" A, y
0 D% N; C9 G8 y% K% Z0 _ 主题:如何对分类模型进行评估
V% P/ Z- W$ g. [) r5 E' e! j3 W 1 f* M7 _& S6 ~6 W/ C( ^1 C! ^5 L
目标:
5 M" O! g$ n; R0 N# u p " } u0 M8 v9 ?& a, F2 J( m
能够熟知混淆矩阵的含义。
7 o R3 H' G$ h' H6 D+ Q- t3 H 能够使用各种指标对分类模型进行评估。
' R g1 p7 m$ D5 ` F 能够独立绘制ROC曲线,并熟悉该曲线细节。6 `3 R. J5 o5 U% J
能够对样本不均衡进行处理(扩展内容)。! Q6 [, W( G) D: M7 n
2、混淆矩阵8 t+ @6 Y5 ~# H; e/ S5 I; U; q5 ^
2 j g. N' m+ E6 m. U
混淆矩阵,可以用来评估模型分类的正确性。
7 J. x# H; ]8 _7 G2 D 该矩阵是一个方阵,矩阵的数值用来表示分类器预测的结果,包括真正例(True Positive),假正例(False Positive),真负例(True Negative),假负例(False Negative)。 ~3 W/ n) u3 C# T8 T! B" V, e
$ j# l, E b) l& n. W' ~ N
矩阵的形状是2 x 2,其中, - 矩阵的左上角表示,预测值为1,实际值为1(True Positive,简称TP); - 右上角表示预测值为1,实际值为0(False Positive,简称FP); - 左下角表示预测值为0,实际值为1(False Negative,简称FN); - 右下角表示预测值为0,实际值为0(True Negative,简称TN);6 z2 R! p+ l& `1 `( {: J
: J! i* z2 x' f: }' a 真负例(TN)+ 假正例(FP)——每个类别真实存在的负例的数量+ l. A0 m% `- [) R `
假负例(FN)+ 真正例(TP)——每个类别真实存在的正例的数量2 k6 O; r! S& F4 y7 x1 h
真负例(TN)+ 假负例(FN)——每个类别预测的真负例数量
3 t% ^9 ^3 \- O, l 假正例(FP)+ 真正例(TP)——每个类别预测的真正例数量
8 Y0 b o2 S& i 其中:
& }" k) D' `8 J6 l* j0 d! t* `. ? 9 _5 ~7 g+ h$ G% C4 a5 Z9 g
TP:真正例,实际为正预测为正;
2 L7 ]- M/ v. \& z( E6 ]! W6 ] FP:假正例,实际为负但预测为正;, r5 i3 D3 C% {7 j4 }5 V
FN:假反例,实际为正但预测为负;1 u- N0 D$ ~- u7 K/ K( i+ ^9 v
TN:真反例,实际为负预测为负
% n' Y2 t! W! G- d. z& @6 i 接下来,我们通过数据来看下鸢尾花的混淆矩阵:* a q2 T+ @* m+ c
import numpy as np/ f7 F: f1 x: M U3 Y$ ?
from sklearn.datasets import load_iris
& A* [' Q3 V( ?$ G7 h0 d from sklearn.linear_model import LogisticRegression0 B7 p" @! a! K1 }3 n. X$ `
from sklearn.model_selection import train_test_split# Y& k9 M6 k5 a+ @/ V- G
# 混淆矩阵# n/ Y6 Q; i4 v* `: B: r* @
from sklearn.metrics import confusion_matrix
- P9 \7 I! q: o' [ import matplotlib.pyplot as plt) U @6 m; x) @ E* S& P# ]8 `
import warnings
5 [8 M& K- b8 F7 w. D3 B
. U) N! s% e0 x& F$ B P3 R plt.rcParams["font.family"] = "SimHei"/ s# L- }( |% ]9 r
plt.rcParams["axes.unicode_minus"] = False
* j/ J. U7 S: q9 e# c* c+ A plt.rcParams["font.size"] = 12
5 A/ O6 k1 }- B, ~' H warnings.filterwarnings("ignore")
; B6 T; E7 u, Z3 m# R3 D % Z9 }% |! s$ V- ]
iris = load_iris() #导入鸢尾花数据集/ G% P! I) n# b
X, y = iris.data, iris.target
# W: G) p ^( g; H+ @ X = X[y != 0, 2:]( Y' {) O+ D3 ~3 p# _% O+ n
y = y[y != 0]
" `! J4 q$ ?3 ]! d2 @% T y[y == 1] = 0
. U) ^% l% [) z, `: m8 K# B* m0 k y[y == 2] = 1; e# ~3 E1 O2 N5 Q S, C
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=2)
, ^- m. o, D# ?- N% U lr = LogisticRegression() #使用逻辑回归
) a/ Y/ {( W5 ?& m; Z: i6 _ lr.fit(X_train, y_train)
* L( n' W( j) O6 d y_hat = lr.predict(X_test)
8 Y1 Z/ {+ o3 b# f # 根据传入的真实值与预测值,创建混淆矩阵。
6 Y3 r" D9 T1 n matrix = confusion_matrix(y_true=y_test, y_pred=y_hat)
) s6 {; h% O, ~; t! R( \ print(matrix)! a, C& }3 E# Y! b2 z
N" S! r6 l) t6 W& f
/ Q- p- M" v9 `7 i, ~+ [" d! ^0 E
输出结果:
# X' J8 K: P; |: T' o
2 Y% `5 M: W/ v$ f
我们还可以对其进行可视化操作:
/ k( }6 L _+ `/ K# `( e mat = plt.matshow(matrix, cmap=plt.cm.Blues, alpha=0.5) #cmap 指定颜色图色系,alpha透明度7 M7 Z! k3 j5 Q" q2 d& T
label = ["负例", "正例"] I5 Q$ X/ l7 F3 I" L3 T) ]6 L
ax = plt.gca()
0 J( \! S% A1 W% \1 @' B ax.set(xticks=np.arange(matrix.shape[1]), yticks=np.arange(matrix.shape[0]),
) r" j# q1 e" g( s% J2 Q- p xticklabels=label, yticklabels=label, title="混淆矩阵可视化\n",
, k# x d7 }: ~7 _; l. q ylabel="真实值", xlabel="预测值")
7 M" _1 K# _6 d3 a5 E/ ` for i in range(matrix.shape[0]):
" X/ k4 O( d: Z4 \8 N* c: b for j in range(matrix.shape[1]):# {9 g8 I# M& A: ]
plt.text(x=j, y=i, s=matrix[i, j], va="center", ha="center")" ^2 `6 y& V8 {9 ?
a, b = ax.get_ylim()% E; O G; v9 P3 F- r% v3 [0 s, r
ax.set_ylim(a + 0.5, b - 0.5)/ I. T, d1 G) g+ C
plt.show()
1 L$ i9 U2 O; q ( t* D( x: c# o( g' @6 N, P
/ }, _4 P, D" [+ e 代码解析:
v1 J Y) T) z( m6 `# \! M1 X matshow( ) 绘制矩阵,alpha 透明度/ i" c! m! x# f' v1 G; E; {5 x w
结果:5 ]* E \8 g$ |# f
* I4 A+ ]/ o% K9 u 练习:
& U6 t7 M5 O' A7 s% X 0 F/ F+ U0 [& w- G3 X' d! \9 V- T' `: I
关于混淆矩阵,说法正确的是( ABCD)。【不定项】4 j# o6 w6 O. v, ?2 F
A 混淆矩阵可以用来评估分类模型。
$ T/ @: {( i9 Z: A7 n) z# d6 ` B 混淆矩阵中,TP与TN的数值越大,则分类的效果越好。1 ], f. h) f( d% t: R" O3 G
C 混淆矩阵一行元素的和代表某个类别的实际数量。
8 d. R4 q6 A3 X; A" H u2 O D 混淆矩阵一列元素的和代表某个类别的预测数量。0 U( o. A1 P4 t) n3 E
3、评估指标
3 d0 ]8 L+ B1 e2 u% X- h1 r
- y5 I3 T; c) d7 u; _1 C 对于分类模型,我们可以提取如下的评估指标:& a& P: ^; L9 z
, }0 n0 y4 @, O: i7 A. V5 f
正确率(accuracy)
% {3 x$ k5 r- K* O0 w, o0 {, x! V 精准率(precision)
- J2 }. B' x6 w3 k& _% l 召回率(recall)
( U% ]( j" j; l2 v, o F1(调和平均值)
; Y7 O8 [ O* ~1 E) e 3.1 正确率
1 ~) P( b' ]6 @8 l7 s9 y3 l' v" m
) @/ H- T, G _8 p% y. {& B
正确率(准确率)定义如下:
- A' ~2 x* F! I, p0 f* a7 H3 r 衡量所有样本被分类准确的比例。$ q' J: l- u- V% `7 S! ^
Accuracy = (TP+TN) / (TP+FP+TN+FN)6 F) \5 a( e9 b
1 \/ D O/ o+ ~+ O* w
预测正确的数量除以总数量。; J- O( V" ^. C, f+ v8 v0 b
0 k B7 L4 W# B' U9 e+ J! s+ d/ v4 Q& h 3.2 精准率4 G# H5 ^5 B& B' ^$ R
$ g8 z: f, S" W, b! M5 P& I
查准率(精准率)定义如下:
! l* @$ H) M+ S0 f 衡量正样本的分类准确率,就是说被预测为正样本的样本有多少是真的正样本。: M0 O) ~# V5 D: E' Z3 ~: \) P
Precision = TP / (TP+FP)% }3 s# c) {1 a, h* O( K
5 k' S g" G( ?8 B9 Q5 h# `% { 精准率只考虑正例。/ D4 i/ v- H# \5 a( ?. M: ]2 z0 B/ r Y
4 m( J; @+ N7 e
3.3 召回率; B& {5 D; X4 o; k( u
8 i9 r- |' W6 z( @
查全率(召回率)定义如下:
( a; J9 c5 n: U. @3 H; ]- c; e 表示分类正确的正样本占总的正样本的比例。. `! S! ~: u, ] i
Recall = TP / (TP+FN)
8 F: V E; k/ V. o
" h" B7 w: z$ V4 N7 ], a, s3 H. {1 A 6 u' \$ B6 t- N" y6 U' [% l
3.4 调和平均值F19 P; C& C) K' r9 f- A
* f8 y6 A# o! B1 `* ` F值(F1-scores)调和平均值F1定义如下:
+ z. f, t2 o7 ^' m+ h6 o4 f% _ 精确率和召回率的调和平均。
/ q$ m- L4 X; T. p 精准率Precision和召回率Recall加权调和平均数,并假设两者一样重要。; V- j" k9 ~% Z
( {# H/ d" Q" z; |1 h F1-score = (2Recall*Precision) / (Recall + Precision)5 V, o: D+ c. T( A+ W: @
1 o$ p( ^0 {& [. R: Y! R* V
精准率和召回率是一对矛盾的度量。一般来说,精准率高时,召回率往往偏低;而召回率高时,精准率往往偏低。通常只有在一些简单任务中,才可能使二者都很高。
& \: T- U# [% N) S 最好的分类器当然是准确率、精确率,召回率都为1,但实际场景中几乎是不可能的,而且精确率和召回率往往会相互影响,一个高了另一个会有所下降,因此在实际应用中要根据具体需求做适当平衡。9 Z C2 m7 g: i ?
让我们做个练习加深下印象吧!) [' b* L: A2 {2 i( C
; g* W+ i) J# v
以下说法正确的是( C )。# o; Y- V5 O+ J! M0 P
A 使用正确率去评估一个分类模型,效果会比精准率更好。
' y4 g6 G/ R7 h8 d B 使用精准率去评估一个分类模型,效果会比召回率更好。' P& O) C# L: y2 ?( E/ A3 J; E
C 精准率与召回率通常要联合使用。/ k% |, v: e- e7 q. [! c) d7 {
D 精准率与召回率如果有一个值较低,F1值也可能会较高。: v: e: }$ x ? m' n" \
如果精准率和召回率我们只能选择重视一个,我们会更看重( C )。
1 g H) }3 M8 u0 J* Z A 精准率。
4 N+ u8 R6 a$ \ B 召回率。
0 q8 U/ ^. T$ _$ k+ l: w C 具体场景不同,重视谁也会不同。
6 I/ I) w' Q9 S; } 接下来我们通过程序来说明下:
/ u8 V$ r3 _" h* U) p5 `. e from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
6 D% u$ ~$ b! B0 }' _, ^9 p% A 9 @& _+ ?# N, o: L
print("正确率:", accuracy_score(y_test, y_hat))
& @) z2 p) w3 H' R0 I # 默认将1类别视为正例,可以通过pos_label参数指定。3 V; k5 P. g- B% { z
print("精准率:", precision_score(y_test, y_hat))
4 a8 B3 S5 p3 u0 o, A print("召回率:", recall_score(y_test, y_hat))5 N: n: N, _$ K c$ F6 Y6 |; W" {
print("F1调和平均值:", f1_score(y_test, y_hat))
2 _" o- s1 |+ b! s4 I3 h # 我们也可以调用逻辑回归模型对象的score方法,也能获取正确率。0 D: t. U/ H- D; E3 P. J- @
# 但是需要注意,score方法与f1_score函数的参数是不同的。5 R+ W8 g1 b. r4 n
print("score方法计算正确率:", lr.score(X_test, y_test))
- k* \! b+ d/ y# \# H
- D: w9 w0 `% K- w* y4 i4 _: q1 m2 Q
/ |" w' i' P. ~4 L6 D 结果:- U8 Q2 \1 @' R. t9 J/ T
; h% ]; ~1 w& j) C D
除此之外,我们也可以使用classification_report函数来查看模型的分类统计信息,该方法会返回字符串类型,给出相关的分类指标评估值。
' O. Y+ o- ?/ H* t from sklearn.metrics import classification_report
' |1 f2 [+ C- `# i; n5 m 5 l2 | ~0 V7 D4 B8 Z0 ~
print(classification_report(y_true=y_test, y_pred=y_hat))
- X& W$ G/ s% b# G4 S! Z% f( p . n5 c5 x2 W9 h! G, o
4 a. w+ i- _/ L8 j1 ^ 结果:; ^% O! }; x* ?
% M: X p7 v* m" e: e5 X - f; l6 A1 e' M
练习:
8 Y; G4 O/ ~# D3 B/ A, V
0 _ q% X& R9 a 如果使用精准率与召回率评估二分类模型时,我们应该将哪个类别设置为正例? (B)
' T. V3 }! b4 g9 h! P" B A 随意6 p# Q# U) ^& [1 ^/ g2 ?
B 关注的类别
. t: O$ b* a g C 不关注的类别0 P! N( h, g+ U! R
4、ROC和AUC
2 X" r0 |3 d2 E' |- I$ X
) V" y& w: `4 y/ k ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。8 ^" @6 {$ J5 k: _3 s# P
- ?8 Z$ D: m) k* I+ B 4.1 ROC曲线& A& C' z z' `: X/ O
/ i! Q5 C7 H& A+ r- n( e1 f ROC曲线(Receiver Operating Characteristic——受试者工作特征曲线),使用图形来描述二分类系统的性能表现。图形的纵轴为真正例率(TPR——True Positive Rate),横轴为假正例率(FPR——False Positive Rate)。其中,真正例率与假正例率定义为:1 s% h# l1 {! Y
9 ^6 l" h' D3 W4 ?6 c F, C ROC曲线通过真正例率(TPR)与假正例率(FPR)两项指标,可以用来评估分类模型的性能。真正例率与假正例率可以通过移动分类模型的阈值而进行计算。随着阈值的改变,真正例率与假负例率也会随之发生改变,进而就可以在ROC曲线坐标上,形成多个点。, S# i, s4 g* B! J# ]$ w: ^
5 O E1 |! i3 a, h' i ROC曲线反映了FPR与TPR之间权衡的情况,通俗来说,即在TPR随着FPR递增的情况下,谁增长得更快,快多少的问题。TPR增长得越快,曲线越往上凸,模型的分类性能就越好。
0 |8 }8 t- ~- G q0 h t$ p6 @1 U% \2 j& G1 U7 }$ K) R
ROC曲线如果为对角线,则可以理解为随机猜测。如果在对角线以下,则其性能比随机猜测还要差。如果ROC曲线真正例率为1,假正例率为0,即曲线为与构成的折线,则此时的分类器是最完美的。" d6 k9 O7 U( R/ y# E
, d3 J' ?2 F1 Z# M1 v) n 下图就是ROC曲线的一个示意图:
0 N2 n* f+ d+ @5 y. M
o* S2 j* }" `; `$ g7 }! F ROC曲线横坐标是FPR(False Positive Rate),纵坐标是TPR(True Positive Rate)/ o' {. |! Z3 r& P1 j
接下来我们考虑ROC曲线图中的四个点和一条线。( a8 P/ k2 C/ u
) O; Z8 `4 _) W
第一个点,(0,1),即FPR=0, TPR=1,这意味着FN(false negative)=0,并且FP(false/ m4 u7 |1 k( ?! s E( q# r
positive)=0。这是一个完美的分类器,它将所有的样本都正确分类。
* [( N" z. E: q3 ^8 ?4 e 第二个点,(1,0),即FPR=1,TPR=0,类似地分析可以发现这是一个最糟糕的分类器,因为它成功避开了所有的正确答案。
! S) b* c3 }; m- |. } 第三个点,(0,0),即FPR=TPR=0,即FP(false positive)=TP(true) I" o( H" D$ f% [' P1 Q7 a* e
positive)=0,可以发现该分类器预测所有的样本都为负样本(negative)。
) {5 Z& O V5 W) _ 第四个点(1,1),分类器实际上预测所有的样本都为正样本。经过以上的分析,我们可以断言,ROC曲线越接近左上角,该分类器的性能越好。8 g5 Z/ ~- W j6 m
如何画ROC曲线:
: A; X s( {. J4 o3 z2 n
/ s" Y5 W: l, J7 [. D 对于一个特定的分类器和测试数据集,显然只能得到一组FPR和TPR结果,而要得到一个曲线,我们实际上需要一系列FPR和TPR的值,这又是如何得到的呢?我们先来看一下wikipedia上对ROC曲线的定义:
% }, U% S5 P$ @ R/ Y1 _
1 Q- m2 b" ?" @% n7 v1 w/ a A receiver operating characteristic curve, i.e. ROC curve, is a
9 q s1 h* }7 L3 b( Z+ c6 L graphical plot that illustrates the diagnostic ability of a binary$ J4 D$ p. i4 h, Q
classifier system as its discrimination threshold is varied.$ r3 H& x. } g& i: y
译:ROC曲线是由一系列因区分阈值变化产生的点,用于描述二分类模型的判断能力
: r5 J. g+ q: H 这里的关键在于 “its discrimination threshold is varied” ,因为对于一个二分类模型,它的输出结果其实是判断这个样本属于正样本的概率值,假如我们已经得到了所有样本的概率输出(属于正样本的概率),现在的问题是如何改变“discrimination threashold”?我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率
! x/ i4 ~2 a8 o! {
# f: w$ z& {5 d" w2 h. ]
然后我们按照样本的score值,从大到小依次作为阈值,当样本score值大于等于阈值时则判定为正样本,否则为负样本。
6 x: x* ^( c e0 v. ]$ Z, o3 T 例如第一个阈值取0.9,这时只有id=1的样本被预测为正样本,其余都是负样本,此时TPR=1/1+9=0.1, FPR=0/0+10=0。还例如:对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。* X1 B! `, y% F% t
% m8 g$ ?' W, O9 B 详细如下:' k2 L# n& o' ]4 i3 U$ h
4 u% o2 M& b( F( {2 {5 h 由此我们便得到了一组(FPR,TPR)的值,可以绘制出ROC曲线:, A! I8 ]% F! J# Y' G, l7 X. @
* E+ Z: y3 y0 z0 H! |2 C" u
当我们将threshold设置为1和0时,分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来,就得到了ROC曲线。当threshold取值越多,ROC曲线越平滑。/ R* u# F: s- T9 ?' `
0 g. ?- s2 z1 {7 W 4.2 AUC
, M9 q7 v7 d: [3 C! T
+ o! E) V0 r1 g' g
AUC(Area Under the Curve)是指ROC曲线下的面积,使用AUC值作为评价标准是因为有时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而AUC作为数值可以直观的评价分类器的好坏,值越大越好。, A0 E+ D0 f& h0 o) y8 U& X
" z' K! e" \' B+ S$ v' v: V8 M AUC是ROC曲线下的面积。
% C; B8 u0 q8 v AUC的取值为[0.5-1],0.5对应于对角线的“随机猜测模型”。
, ]. q% \+ K% F: m: e AUC值是一个概率值,当你随机挑选一个正样本以及负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值,AUC值越大,当前分类算法越有可能将正样本排在负样本前面,从而能够更好地分类。
6 Y! y. d7 Z/ L
: k! x8 W9 h( m! e. B& | 从AUC判断分类器(预测模型)优劣的标准:! ]' P0 i! C9 I" V6 L2 w
3 d. L# n7 t- G" I4 s
8 d7 o6 U! V9 l: m" v 例如一个模型的AUC是0.7,其含义可以理解为:给定一个正样本和一个负样本,在70%的情况下,模型对正样本的打分(概率)高于对负样本的打分。! \$ D/ [& v8 c* q
4 K' p+ y+ K9 `6 v5 F; c
三种AUC值示例:
" b. y+ {7 k& @. @
- ]0 o3 ?& f" c1 J 简单说:AUC值越大的分类器,正确率越高。8 m5 ^& P1 X- p9 T) C! b( r6 E; b
$ ]9 R. X1 y+ v# T3 k0 Z
那么为什么要用AUC作为二分类模型的评价指标呢?为什么不直接通过计算准确率来对模型进行评价呢?
& g7 v3 z8 P% p. N 因为机器学习中的很多模型对于分类问题的预测结果大多是概率,即属于某个类别的概率,如果计算准确率的话,就要把概率转化为类别,这就需要设定一个阈值,概率大于某个阈值的属于一类,概率小于某个阈值的属于另一类,而阈值的设定直接影响了准确率的计算。也就是说AUC越高说明阈值分割所能达到的准确率越高。
+ t6 @" d$ b- U
6 e4 {' I0 q! P2 [# E" K 小练习:% Z# u/ N2 ]8 G
/ n6 Q D0 o: L4 [ 以下说法正确的是( ABD)。【不定项】
3 A \& \' k+ t9 `$ ~; h A 随着阈值的降低,TPR与FPR都会增大。. C9 Z- [- ]5 X& J# O+ L
B TPR与召回率的值是相同的。
/ A- [8 T, C6 R s& x& k& W( ~ C 如果AUC的值非常低,例如,0.1,则该模型效果很差,也很难调优。
* G# d! y; b* G$ ?) @! ^$ [8 E( o D 无论是什么分类模型,ROC曲线一定会经过(0, 0)与(1,1)这两个点。
% P" k9 v2 \) y! c" t+ `' k) ?( v, m, d 4.3 ROC曲线程序示例
7 F& F4 F( Z( h7 \5 l
2 z; N8 O N& P5 e 我们首先来看一个简单的程序示例,借此来说明sklearn库中,ROC曲线的实现细节。* e z+ ?: q) @5 P! a6 g# y
/ c0 n; ^& y$ X9 g8 ~% @+ P: A 4.3.1 roc_curve函数的参数9 s( V( y" I% Y, v% G4 ~
import numpy as np2 `, @1 `5 ~0 W& i3 A1 O
from sklearn.metrics import roc_curve, auc, roc_auc_score' s: u p3 _; s+ @7 y" V
y = np.array([0, 0, 1, 1])8 t# v% x, Z, k$ A* p1 G' s0 O7 L
scores = np.array([0.2, 0.4, 0.35, 0.8])" ~* M/ w* S' c7 N: u, ?2 Z
# 返回ROC曲线相关值。返回FPR,TPR与阈值。当分值达到阈值时,将样本判定为正类, Q2 }, U ^. q9 R+ F
# 否则判定为负类。% a2 V8 C5 [" S! _+ ^6 T7 r
# y_true:二分类的标签值(真实值)。 ~9 u" M' V: f+ i9 _1 q
# y_score:每个标签(数据)的分值或概率值。当该值达到阈值时,判定为正例,否则判定为负例。$ B% B- g, U3 h5 p1 P: S
# 在实际模型评估时,该值往往通过决策函数(decision_function)或者概率函数(predict_proba)获得。+ n6 f; R0 ]2 e3 {" M* M% z
# pos_label:指定正例的标签值。! v+ I! d! Y1 b# b; z- y: L
fpr, tpr, thresholds = roc_curve(y, scores, pos_label=1)
/ E8 f, k0 J+ o print(f"fpr:{fpr}")
* Z- T8 E. D# Q' [5 |# X \ print(f"tpr:{tpr}")
( n0 H+ B7 @5 y print(f"thresholds:{thresholds}")
e' l1 u6 S6 e* V4 F1 ? # auc与roc_auc_score函数都可以返回AUC面积值,但是注意,两个函数的参数是不同的。+ I" t* D6 @0 X3 Q. Y" I
print("AUC面积值:", auc(fpr, tpr))
$ z! X3 c- `3 B9 [* o print("AUC面积得分:", roc_auc_score(y_true=y, y_score=scores))
; h B- \3 ~! P( [+ I5 D #### 3.3.2 roc_curve函数的返回值/ F. C0 m" q, a* ]6 L
6 I" }1 [6 r. ]0 _1 d
结果:
- O7 _2 I9 Y0 u
1.8 是怎么来的?
8 w3 G9 s6 X6 ^/ x 1.8是阈值中最大值+1(0.8+1)得来的。为什么这么算?因为要使得最开始得到的所有阈值都不会超过这个值,才能过(0,0)和(1,1)这两个点。$ o. x8 s: e7 @. y
8 W$ Y& Y; _( B1 u, m 4.3.2 roc_curve函数的返回值
7 w. |9 W' B5 J. M# j b: U / Q* f3 y# X, {
roc_curve函数具有3个返回值:
* K# E) y. K' ^
8 x+ y# Z& t6 i9 o" R fpr 对应每个阈值(thresholds)下的fpr值。
" i1 K) f1 P2 x1 |6 l! l0 w: e tpr 对应每个阈值(thresholds)下的tpr值。
; [) o& P. h6 k2 N/ g \ thresholds 阈值。
& w& ^5 }8 E% j! |- X% ?9 ~ roc_curve函数会从y_score参数中,选择部分元素作为阈值(选择哪些元素属于实现细节,会根据sklearn版本的不同,也可能会有所差异。),然后进行降序排列,作为roc_curve函数的第3个返回值(thresholds)。同时,根据thresholds中的每个元素(阈值),分别计算fpr与tpr。
& w$ z% M. T: l# c" u/ y+ N% ? iris = load_iris()8 N2 {& B( F! p4 x7 s& {8 Y' Q
X, y = iris.data, iris.target
: d; D5 `6 ?6 v1 e" H X = X[y != 0, 2:]
4 R) ~' r( e5 X+ }/ [; v( ~ y = y[y != 0]
# S2 v8 s* _" X: N) E+ A# ]7 ?, @ y[y == 1] = 02 T& u" R# U( `* u. Y
y[y == 2] = 1
: B/ t$ p6 x6 W) k7 c2 t+ K, X. N0 [ X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25,: y) z# b& z1 l4 \" W3 o
random_state=2)
; _$ G) b5 U* w7 |& ~0 u4 ^ # lr = LogisticRegression(multi_class="multinomial", solver="lbfgs")" s S& B0 Z0 r
lr = LogisticRegression(multi_class="ovr", solver="liblinear")
4 ?$ @& B0 N4 _0 k# P! u! B lr.fit(X_train, y_train); \& B2 h, X/ ~/ N1 \$ y$ \( N
# 使用概率来作为每个样本数据的分值。1 q& w( s4 S! D5 Z! u0 C0 S
probo = lr.predict_proba(X_test)
. Z# }' f N- L8 m fpr, tpr, thresholds = roc_curve(y_true=y_test, y_score=probo[:, 1],
3 N; r: m- ~( }' e pos_label=1)2 P: f; S2 a" O8 |6 c
display(probo[:, 1])
* u5 M4 S# b4 v # 从概率中,选择若干元素作为阈值,每个阈值下,都可以确定一个tpr与fpr,
# Y6 ]1 g- @4 C: }9 S* ~/ V% V4 N; x3 E2 ` # 每个tpr与fpr对应ROC曲线上的一个点,将这些点进行连接,就可以绘制ROC曲线。! f+ z' R5 m; }# d
display(thresholds)7 B. ~/ p5 I* _
' G/ a# k- v7 g1 M7 q* t+ ?0 y
结果:
- o8 ]# \4 O& }9 [
: M8 _# W: y' \7 @3 g 8 {; m9 G/ t4 a5 A S
5 Q. N- j/ j2 x. O" E& `8 w # 随着阈值的不断降低,fpr与tpr都在不断的增大。
+ j1 y# U0 ?* T5 T/ _8 |# e/ {( o1 i fpr, tpr9 b% Y. B+ P3 z0 w- g
1 O: _4 [6 r8 p3 `" E" Y
结果:
( K4 n5 X$ Z0 t
+ F& j% [/ w+ F9 p2 Y* C 5 x# n1 h& i' g- Q% T, i5 T
4.3.3 绘制ROC曲线" a t" s" @# B8 W+ ^- n% U- ?; s5 Z
有了fpr与tpr的值,绘制ROC曲线是非常容易的,只不过是最简单的一个plot而已。) ]2 p6 B% z4 \0 B* o8 U- p
plt.figure(figsize=(10, 6)). c1 n& p0 z) e$ l! U
plt.plot(fpr, tpr, marker="o", label="ROC曲线")- Y* H' _2 Z4 E& ]
plt.plot([0,1], [0,1], lw=2, ls="--", label="随机猜测")) O, Q; I: q5 p$ \+ Z! I+ d5 v6 |
plt.plot([0, 0, 1], [0, 1, 1], lw=2, ls="-.", label="完美预测")" I- ~. ^* B Q1 t/ p
plt.xlim(-0.01, 1.02)
4 P% K9 T" L" Y* }- L _3 f; t7 e$ A plt.ylim(-0.01, 1.02)
y" K7 {4 _( o- ` plt.xticks(np.arange(0, 1.1, 0.1))
) {3 w4 u# q" p6 l/ z& Z; y- y plt.yticks(np.arange(0, 1.1, 0.1))
" M9 `. }4 P7 P* M9 Z plt.xlabel("False Positive Rate(FPR)")
9 i& }3 f4 u) F) U9 `8 Z plt.ylabel("True Positive Rate(TPR)")
: P; M# _' J, J7 Y4 |8 r# ~ plt.grid()8 t/ {% V; `* H# E9 |
plt.title(f"ROC曲线-AUC值为{auc(fpr, tpr):.2f}")/ C/ j; {7 w) T
plt.legend(); l+ N$ K% O3 F+ P2 r. z
plt.show()
( F4 F$ Q8 i2 V/ ?
9 u" S7 b! K% f9 Y
( }" K' c1 w3 l+ |' }& s% H
5、总结1 R; ^) z5 m6 B- X( {6 }
- Y% C- L7 Y. l2 o/ y/ m 混淆矩阵的含义。( h+ k6 |# n2 r# K
正确率,精准率,召回率与调和平均值F1的含义。8 B+ y4 b2 J6 h5 T0 F# D
ROC与AUC。& k$ e" n5 `2 A- t' |- i" V6 \1 {
3 K4 z5 e0 r$ L% E" j
参考资料:4 o- b* @% A3 L+ V$ D) ^/ Q' U1 J" ~
1、https://blog.csdn.net/zuolixiangfisher/article/details/81328297 |6 V% Q. J. q g$ l a/ H
2、https://www.jianshu.com/p/2feb00839154; N2 w/ }6 p2 X0 x' I, K9 Y+ r" B
3、https://www.cnblogs.com/kamekin/p/9788730.html
# j$ F, i7 f6 s# J( `* `) i* b, b& C 4、https://www.jianshu.com/p/c61ae11cc5f6) h$ t; @7 ? l1 u! p& d
————————————————
* Q7 d3 q" ]6 k$ z& o 版权声明:本文为CSDN博主「糖潮丽子~辣丽」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
4 r7 S# [' W0 C8 a2 G 原文链接:https://blog.csdn.net/qq_39783601/article/details/105600700+ e( u* _+ n, V
6 `8 `( i- O& H. U! I
4 @5 R& A- v u* T v) c
zan