在线时间 1630 小时 最后登录 2024-1-29 注册时间 2017-5-16 听众数 81 收听数 1 能力 120 分 体力 554198 点 威望 12 点 阅读权限 255 积分 171632 相册 1 日志 0 记录 0 帖子 5313 主题 5273 精华 18 分享 0 好友 163
TA的每日心情 开心 2021-8-11 17:59
签到天数: 17 天
[LV.4]偶尔看看III
网络挑战赛参赛者
网络挑战赛参赛者
自我介绍 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
群组 : 2018美赛大象算法课程
群组 : 2018美赛护航培训课程
群组 : 2019年 数学中国站长建
群组 : 2019年数据分析师课程
群组 : 2018年大象老师国赛优
, ?0 ^# L# X4 `$ i& Y7 U 详细讲解分类模型评估 分类模型评估
6 b4 n# `4 U, T# a9 P+ R- e n
0 y" a9 l2 B$ S, _( P( j5 L 1、分类模型7 m5 I9 p* T# R6 }3 H
主题:如何对分类模型进行评估
3 b2 L9 d; b9 K1 D5 ^ 目标:
, `( A3 G& M- w# t x 2、混淆矩阵' J2 Q A8 R3 i' ~
3、评估指标2 N2 L d; z; [- a) L% A- p
3.1 正确率
8 ?0 ^0 N. k0 g5 F8 ]2 d 3.2 精准率
5 B: W @- ^1 ? 3.3 召回率1 v1 x; b9 |4 ~% T5 Q8 Y: ]
3.4 调和平均值F1
5 X5 b9 b2 @$ V+ D1 X; `# ~; s* D 4、ROC和AUC8 ^! e6 e' |5 f2 s. s
4.1 ROC曲线5 \4 J& Z5 G. }. `: N' N; g* F" o
如何画ROC曲线:! i6 @1 ~3 {1 C" K8 b& {% @
4.2 AUC1 V5 H* ~7 s) X/ t! h( V# {
4.3 ROC曲线程序示例& o6 D( C7 O: ]0 v4 l5 ^
4.3.1 roc_curve函数的参数
% K% {9 ~1 P& O7 c" y- f, a 4.3.2 roc_curve函数的返回值0 m8 y6 ~$ v: S* S) d, F& a: a/ t
4.3.3 绘制ROC曲线 n! c6 k" {+ a* N* D4 F
5、总结
6 f# P2 u. @& R4 x8 w$ r 1、分类模型
5 X2 B% X$ H7 W' o
- C. n* s. ^1 [- D7 t1 f! } 分类问题在我们日常生活中处处可见,比如我们对帅哥的分类,可能对帅哥分为非常帅和一般帅。比如我们平时刷淘宝,淘宝根据我们平时的喜好给我们推送产品,那我们就会把产品分为感兴趣和不感兴趣两类。% r/ w5 k3 K/ v# h% r
上述所说的问题就是典型的分类问题,确切的说其实就是二分类问题。
8 z9 _7 s- T( K 能够解决这些二分类问题的数学模型就被称为二分类模型。
, H: O% S" P1 M5 G! I 用数学的方式表达就是,给定自变量X,代入到我们的分类模型F,会输出因变量y,y的取值为0或1,其中0代表负样本(一般帅的帅哥、不感兴趣的推送),1代表正样本(非常帅气的帅哥、感兴趣的推送)。
, w6 {% \4 D4 ^ 2 f! ], p- T1 w) N X
主题:如何对分类模型进行评估
+ c0 |; E' o& R# K
% u, r* l1 ]/ n4 ^ 目标:
1 R4 n3 Z! f9 f 9 d' U% f4 h$ _' ` @
能够熟知混淆矩阵的含义。! f* k. b! o+ |6 G, n/ g4 c
能够使用各种指标对分类模型进行评估。
8 q; j+ x' V! z; e7 o$ t 能够独立绘制ROC曲线,并熟悉该曲线细节。
+ f B2 v& s5 s! g( U 能够对样本不均衡进行处理(扩展内容)。
: G) P: L4 e5 o3 @; h7 Y 2、混淆矩阵$ _# s' r8 n' S# e* r
4 K: u' M2 q+ W9 R: i8 C- k6 `' c" S
混淆矩阵,可以用来评估模型分类的正确性。% D/ C0 X1 P% N! i6 a4 o
该矩阵是一个方阵,矩阵的数值用来表示分类器预测的结果,包括真正例(True Positive),假正例(False Positive),真负例(True Negative),假负例(False Negative)。& M7 ]& L* R D: c, m
- B: w2 D. N& n2 k) v4 i5 F
矩阵的形状是2 x 2,其中, - 矩阵的左上角表示,预测值为1,实际值为1(True Positive,简称TP); - 右上角表示预测值为1,实际值为0(False Positive,简称FP); - 左下角表示预测值为0,实际值为1(False Negative,简称FN); - 右下角表示预测值为0,实际值为0(True Negative,简称TN);/ Q2 A/ I4 W$ E/ C( K( }
9 ~. T: d& z, B8 M' p
真负例(TN)+ 假正例(FP)——每个类别真实存在的负例的数量
: |7 ?2 Y ]' k4 u 假负例(FN)+ 真正例(TP)——每个类别真实存在的正例的数量% v. {- m, R3 Z; K4 ]; }7 d6 X1 b
真负例(TN)+ 假负例(FN)——每个类别预测的真负例数量
) ~5 j+ ^2 s# G6 ]- Q; ~ 假正例(FP)+ 真正例(TP)——每个类别预测的真正例数量- s4 X% H5 U# ^2 f& N7 x6 t7 a
其中:
9 K# N. H" t& P8 Z6 D# Q , k& Z4 Y3 s! e/ h4 t
TP:真正例,实际为正预测为正;6 z' a% i& M3 j% e
FP:假正例,实际为负但预测为正;
_1 {0 F+ Q ?* ~8 f, t9 Z- {$ p FN:假反例,实际为正但预测为负; |( I! q% o) u8 u; Q2 F5 F
TN:真反例,实际为负预测为负- b+ C. g- E# L2 J
接下来,我们通过数据来看下鸢尾花的混淆矩阵:
; d a; q8 T& Y/ Q, H$ p import numpy as np, h2 r9 X& ~5 Z+ F1 i
from sklearn.datasets import load_iris
% {" F4 ?# y, S. {! }7 x7 o from sklearn.linear_model import LogisticRegression* A8 x0 ?+ ?$ h7 p3 G
from sklearn.model_selection import train_test_split
4 F- b0 Y( y1 v% Q4 Y # 混淆矩阵. y G! X7 T9 U) |3 B! H
from sklearn.metrics import confusion_matrix/ ^6 O- g: R p/ T
import matplotlib.pyplot as plt B: z1 B) Z6 {$ [$ q9 T, [
import warnings) p( d& d: L. b
* o6 l) k8 A, N+ _2 O9 M plt.rcParams["font.family"] = "SimHei"9 D. C" R: u( E7 N
plt.rcParams["axes.unicode_minus"] = False: d2 S7 x4 X) y8 U/ u/ f \
plt.rcParams["font.size"] = 12
: C$ K# G( i1 E+ k' F: m9 B warnings.filterwarnings("ignore")
. {4 g' z# g* i0 l/ k7 B % H! K! v; L f% Z% F
iris = load_iris() #导入鸢尾花数据集* c4 m+ u* z6 l; {$ z+ [
X, y = iris.data, iris.target
) {0 T1 i% H1 j- {, X. V7 ~' U, n/ |5 ~ X = X[y != 0, 2:]
( K2 d6 m9 L. U, @( L y = y[y != 0]) B* {9 Q: U' ]4 z* M+ f9 [
y[y == 1] = 0. n- w5 [& R( F; _# Q- z* B8 o3 M1 l
y[y == 2] = 16 G$ O8 m' z: G4 u
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=2)
- J/ Y$ m$ p" _3 S' b( |! ~, m8 O lr = LogisticRegression() #使用逻辑回归
3 [" }- r+ U) e2 ?' _. u# w9 p( h lr.fit(X_train, y_train)
6 h7 ~3 z% c& H y_hat = lr.predict(X_test)
, m' y- p& `0 j# E3 {- f # 根据传入的真实值与预测值,创建混淆矩阵。 e1 W% |2 p* L/ u
matrix = confusion_matrix(y_true=y_test, y_pred=y_hat)
/ I; u/ r+ R' l) _+ r$ t8 m& ^ print(matrix)
" R+ E$ K0 T7 r$ x1 ^. [ # n6 x; c4 Q* k) W/ B
0 F9 j1 M" [# n6 @8 x/ I: |0 F
输出结果:
5 ~. p8 V4 q3 S# e
4 f; j# s( }, b1 U9 Y2 e: k
我们还可以对其进行可视化操作:
( `5 O" Y/ s8 M$ y; c5 m1 W mat = plt.matshow(matrix, cmap=plt.cm.Blues, alpha=0.5) #cmap 指定颜色图色系,alpha透明度
; M* ]+ K* t' x) f9 Y- J. } label = ["负例", "正例"], i g! S( M3 j4 L3 v: p3 \, d! T
ax = plt.gca()
2 f$ J) r+ @& i0 o& {7 O ax.set(xticks=np.arange(matrix.shape[1]), yticks=np.arange(matrix.shape[0]),
, K( H- `) i! ^' d# D5 X/ M: | xticklabels=label, yticklabels=label, title="混淆矩阵可视化\n",3 l6 H4 g7 {) }1 \$ p9 J# W
ylabel="真实值", xlabel="预测值"). n! _; K T- M4 k- e. K) t
for i in range(matrix.shape[0]):9 g& q4 u, U( C1 `5 @' }
for j in range(matrix.shape[1]):
5 x q4 A) r3 I- O, F/ C plt.text(x=j, y=i, s=matrix[i, j], va="center", ha="center")
" o; V$ G. n9 M8 {3 p* d% _" d a, b = ax.get_ylim()
( }7 q( R( Z5 ]0 |' c* d. O ax.set_ylim(a + 0.5, b - 0.5); |/ l5 b3 l3 o% W7 n
plt.show(); _, x. t% u# F7 s1 O) A
7 R- M. J( ` M
/ M6 n/ w: t: Q* B/ A6 Q' j 代码解析:0 q" J- a' @, d. D0 g+ s% G
matshow( ) 绘制矩阵,alpha 透明度
' E9 [* \2 z9 `. y/ F* t- u 结果:
- Y% Q L5 `2 ]( A9 k3 D
- A6 Y3 b& v9 `% n1 K! ` 练习:, K0 B3 f% `4 v" M1 x3 m( ?; C
+ M; I( d! A2 Y 关于混淆矩阵,说法正确的是( ABCD)。【不定项】
% q; x v' c+ o5 F2 r `) C A 混淆矩阵可以用来评估分类模型。
& P% m& N* Y1 C7 z5 P, p5 ~ B 混淆矩阵中,TP与TN的数值越大,则分类的效果越好。
( E. @& U6 ~ `4 D9 f C 混淆矩阵一行元素的和代表某个类别的实际数量。8 l! }: [/ n$ K1 n! I
D 混淆矩阵一列元素的和代表某个类别的预测数量。
& m: `: E. [. P: I 3、评估指标) l/ X2 p) Z [" u" |
/ E' M; F8 K# b6 e* ~' o4 O 对于分类模型,我们可以提取如下的评估指标:; [3 c3 E* R1 {1 j2 {2 Z7 Y8 R e7 T
% H+ Y8 g; s, V) E P g$ g 正确率(accuracy). ]& L$ D) P5 Y5 F. Y9 e
精准率(precision)
8 Q1 C: m. D; q6 d" A 召回率(recall)
( D. A8 \9 i. N- b, j F1(调和平均值)8 f8 c @) D- k2 L7 ?
3.1 正确率 @! G0 y2 Q: p1 J
6 ]7 _' [% O- M8 W2 `9 O 正确率(准确率)定义如下:
S" C2 v5 x' ^; f" ` 衡量所有样本被分类准确的比例。
; ]8 @3 ^( O+ R* b Accuracy = (TP+TN) / (TP+FP+TN+FN)
1 F( x4 x- [1 U" k; z
- x" C* Q0 x1 j$ k 预测正确的数量除以总数量。
' q# s: u- q4 ?7 J# b
: D! g2 Q, x M( V3 d6 @% Q4 O 3.2 精准率
: X' N* s; g5 M9 f
3 W! h% v; e" y) q3 ? 查准率(精准率)定义如下:: [) R3 k+ v, f. l/ d! B) K! m
衡量正样本的分类准确率,就是说被预测为正样本的样本有多少是真的正样本。
. ]- y- e% V& s( L Precision = TP / (TP+FP)
; \# \1 J# i5 B. p+ P * A" |, a3 \: \6 C5 m( [! T
精准率只考虑正例。
; c" e* V4 f! D; ^9 |& ^: ]
3 O* ]3 t0 d% R# d 3.3 召回率/ \0 m+ K" E& v7 X8 A$ z2 k
$ z4 E; f4 ]4 T3 R- @' a1 v
查全率(召回率)定义如下:
. l+ h7 W) }- @% n 表示分类正确的正样本占总的正样本的比例。
3 M) y3 {: Z$ }: O Recall = TP / (TP+FN)
9 c; G; P" r) i/ U) p* k8 t6 Y
6 _2 i3 b3 v% ^$ a% [; ^$ R
+ y4 s, k/ o/ m9 z' f9 B/ [ 3.4 调和平均值F1
, p) ?7 H/ H* Z* l$ B5 H$ ^
# N7 |5 X1 e7 G. n F值(F1-scores)调和平均值F1定义如下:
/ g! t* ^$ t, y( H7 J; J# ?# R 精确率和召回率的调和平均。1 L% s+ o9 z: [% N
精准率Precision和召回率Recall加权调和平均数,并假设两者一样重要。
! w) ] f, P) j9 i8 V/ A 9 D+ W9 F" N# B3 E; H& w
F1-score = (2Recall*Precision) / (Recall + Precision)- d4 o0 T2 B8 G) n' F% {5 R
% Z! m& G- t! D7 K: P
精准率和召回率是一对矛盾的度量。一般来说,精准率高时,召回率往往偏低;而召回率高时,精准率往往偏低。通常只有在一些简单任务中,才可能使二者都很高。
) d* i2 g0 c" W [+ D; j+ u" B: Q; W 最好的分类器当然是准确率、精确率,召回率都为1,但实际场景中几乎是不可能的,而且精确率和召回率往往会相互影响,一个高了另一个会有所下降,因此在实际应用中要根据具体需求做适当平衡。- G* O+ n. T% i9 k" n7 H
让我们做个练习加深下印象吧!
9 _! T5 G: w N. j
$ E2 P8 D; e! G' q/ y1 u o; E 以下说法正确的是( C )。& R) ] T/ \, }# e- k) u
A 使用正确率去评估一个分类模型,效果会比精准率更好。
2 ^- u! {3 o! c& w# N B 使用精准率去评估一个分类模型,效果会比召回率更好。
! S E; y0 a- L( S" D C 精准率与召回率通常要联合使用。
# r) q' |- Y$ Y6 ^7 a7 ~ D 精准率与召回率如果有一个值较低,F1值也可能会较高。+ `. \! n/ m0 V8 Y) Z6 Q
如果精准率和召回率我们只能选择重视一个,我们会更看重( C )。) S; q' [' A( y& _0 ?
A 精准率。! b. Y5 M1 E; K
B 召回率。& _& v( @; P9 l+ Y5 @
C 具体场景不同,重视谁也会不同。7 K6 I8 ~, x i0 T, E
接下来我们通过程序来说明下:1 n5 i: `! @7 }& W$ ~- ]. G
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score) ^3 T$ e5 K# O* T
2 R8 W* {. z) X4 X8 b) M print("正确率:", accuracy_score(y_test, y_hat))5 h9 Q# J7 {! b/ o- i, b5 V7 s2 m! \
# 默认将1类别视为正例,可以通过pos_label参数指定。
# f% Z6 P+ O' ^$ x2 @5 t' O print("精准率:", precision_score(y_test, y_hat))
/ ~4 m: U- d) v7 _ print("召回率:", recall_score(y_test, y_hat))4 a( H* { A, B2 |. h
print("F1调和平均值:", f1_score(y_test, y_hat))
+ @9 K# S: V* w! w, ` # 我们也可以调用逻辑回归模型对象的score方法,也能获取正确率。
+ K v) `1 D+ A8 M # 但是需要注意,score方法与f1_score函数的参数是不同的。
/ r' m1 z8 }# w1 s3 ` print("score方法计算正确率:", lr.score(X_test, y_test)); v3 f! s2 `* ^( `1 _
+ F' B( F$ |* ?
- d: p8 f/ L3 ?, o8 [3 y8 a
结果:+ H8 j, \; K# W% B" [
/ N" U, M( Q2 ?, \2 W! s. x 除此之外,我们也可以使用classification_report函数来查看模型的分类统计信息,该方法会返回字符串类型,给出相关的分类指标评估值。
6 |6 T: f/ r$ \ from sklearn.metrics import classification_report
+ p9 Q: I4 B; ]: l( X% e
% _, A1 f1 A0 K4 V" s& s/ ^ print(classification_report(y_true=y_test, y_pred=y_hat))
" y# h4 V5 k6 J2 c0 E
4 j, _. D, c3 c* z K- A ' y! @2 T0 T0 c8 X
结果:' _: M: D; O/ J
6 W5 f) U6 s/ A$ \4 J9 D% `0 L
+ R. _% M: B( C' n# H 练习:) e- Z% B$ [' X4 | J- ^
: y4 \1 v F2 e3 k [' s) b 如果使用精准率与召回率评估二分类模型时,我们应该将哪个类别设置为正例? (B)
, F) H ?9 b" R' g1 @ A 随意* Q# I' L' v7 [* C5 i/ s; m
B 关注的类别
3 R' J7 U+ A7 T C 不关注的类别$ j( J/ l8 ~0 _5 s' w& J, o N7 t
4、ROC和AUC* y1 e5 @: U$ H* j/ ?
; A) X; `: R% l8 Y ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。! n0 Z# v2 j( q1 z" E9 _
; T3 A0 q) Y" V# }1 x 4.1 ROC曲线
' c( L' C- J6 y! m. c D8 ^
; B9 p! n! u8 R, M4 e3 F+ ]
ROC曲线(Receiver Operating Characteristic——受试者工作特征曲线),使用图形来描述二分类系统的性能表现。图形的纵轴为真正例率(TPR——True Positive Rate),横轴为假正例率(FPR——False Positive Rate)。其中,真正例率与假正例率定义为:8 A) `) G5 b' x& R3 `7 H( B
2 c* N6 W6 L# W. f2 q ROC曲线通过真正例率(TPR)与假正例率(FPR)两项指标,可以用来评估分类模型的性能。真正例率与假正例率可以通过移动分类模型的阈值而进行计算。随着阈值的改变,真正例率与假负例率也会随之发生改变,进而就可以在ROC曲线坐标上,形成多个点。0 k6 m8 K5 q5 O0 u
2 V* N) m& v& w/ g2 C
ROC曲线反映了FPR与TPR之间权衡的情况,通俗来说,即在TPR随着FPR递增的情况下,谁增长得更快,快多少的问题。TPR增长得越快,曲线越往上凸,模型的分类性能就越好。- @" F$ x3 W4 a0 {3 C
& n* N: J. O$ m. M/ g ROC曲线如果为对角线,则可以理解为随机猜测。如果在对角线以下,则其性能比随机猜测还要差。如果ROC曲线真正例率为1,假正例率为0,即曲线为与构成的折线,则此时的分类器是最完美的。
7 q8 W9 n' x2 L0 o; A
2 _! v* \4 e* @ 下图就是ROC曲线的一个示意图:
* c5 i5 f& J, G6 f: g0 Q
, _, A, R \3 N+ x
ROC曲线横坐标是FPR(False Positive Rate),纵坐标是TPR(True Positive Rate)
# o9 ^9 a4 M- Z* b3 k- C" b 接下来我们考虑ROC曲线图中的四个点和一条线。 B" w) f7 P5 m
, b! q0 H5 }8 f6 A# `! w X. v4 ?$ S 第一个点,(0,1),即FPR=0, TPR=1,这意味着FN(false negative)=0,并且FP(false
+ b; ?- M' c, c7 l6 i positive)=0。这是一个完美的分类器,它将所有的样本都正确分类。
5 B' J6 e( w1 R- R- P( [: r 第二个点,(1,0),即FPR=1,TPR=0,类似地分析可以发现这是一个最糟糕的分类器,因为它成功避开了所有的正确答案。& x |/ B" ]7 ?( o- e3 ^
第三个点,(0,0),即FPR=TPR=0,即FP(false positive)=TP(true; _: g8 W7 v* ^; Q( i5 n
positive)=0,可以发现该分类器预测所有的样本都为负样本(negative)。 b) `( U! A- V% y
第四个点(1,1),分类器实际上预测所有的样本都为正样本。经过以上的分析,我们可以断言,ROC曲线越接近左上角,该分类器的性能越好。: `- S1 p# u: \
如何画ROC曲线:
! y6 M0 f- X+ R$ R5 T
% J* ~# n$ u R6 i0 J/ V 对于一个特定的分类器和测试数据集,显然只能得到一组FPR和TPR结果,而要得到一个曲线,我们实际上需要一系列FPR和TPR的值,这又是如何得到的呢?我们先来看一下wikipedia上对ROC曲线的定义:. Z1 V p, w- w2 U; y
" m+ y& Z: ]( S [# a4 s0 I$ U A receiver operating characteristic curve, i.e. ROC curve, is a5 e7 u3 ~: w( e9 `
graphical plot that illustrates the diagnostic ability of a binary
6 N2 u: Q7 I: F' ]. A f& a classifier system as its discrimination threshold is varied.0 f. V0 }) b7 ]+ R( I
译:ROC曲线是由一系列因区分阈值变化产生的点,用于描述二分类模型的判断能力$ k7 e i5 Z, Z
这里的关键在于 “its discrimination threshold is varied” ,因为对于一个二分类模型,它的输出结果其实是判断这个样本属于正样本的概率值,假如我们已经得到了所有样本的概率输出(属于正样本的概率),现在的问题是如何改变“discrimination threashold”?我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率
" ]3 Q3 @3 N0 F$ Q
: H; t' x; j! ?3 \8 Y2 b
然后我们按照样本的score值,从大到小依次作为阈值,当样本score值大于等于阈值时则判定为正样本,否则为负样本。
5 a+ o/ Z0 y& K9 ~ 例如第一个阈值取0.9,这时只有id=1的样本被预测为正样本,其余都是负样本,此时TPR=1/1+9=0.1, FPR=0/0+10=0。还例如:对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。
1 c! `2 Z) H' m/ m
: P% a- d7 U2 c 详细如下:
" d' }4 w$ z5 C2 I2 {
5 u9 T6 k" W, x i' ?% K
由此我们便得到了一组(FPR,TPR)的值,可以绘制出ROC曲线:
# F3 O2 Y: v9 S4 h5 ]3 S+ f5 c
1 m. Y, L& r* B" D 当我们将threshold设置为1和0时,分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来,就得到了ROC曲线。当threshold取值越多,ROC曲线越平滑。
! o! H& N( t/ Z; p3 |: X3 f
% I* v+ Y2 v b0 ^! t0 u 4.2 AUC
! [* q9 @2 m! l( y# a
6 v3 a( P: v9 X$ ^. ]) R AUC(Area Under the Curve)是指ROC曲线下的面积,使用AUC值作为评价标准是因为有时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而AUC作为数值可以直观的评价分类器的好坏,值越大越好。$ x, P* g: K% t2 {. }
( U3 V. o& r/ ~
AUC是ROC曲线下的面积。4 h( g+ p* h9 y7 l3 U- x
AUC的取值为[0.5-1],0.5对应于对角线的“随机猜测模型”。
9 B9 s4 V3 _. ^" o" x AUC值是一个概率值,当你随机挑选一个正样本以及负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值,AUC值越大,当前分类算法越有可能将正样本排在负样本前面,从而能够更好地分类。 F. ~% }' l/ j
$ P+ d- A- A/ s$ m' F3 R; \ 从AUC判断分类器(预测模型)优劣的标准:( F3 B* `" `, @* q ^( |
1 I3 e8 G( a) j7 X+ V/ m6 r
, `( m/ u* v. S0 T% o' t 例如一个模型的AUC是0.7,其含义可以理解为:给定一个正样本和一个负样本,在70%的情况下,模型对正样本的打分(概率)高于对负样本的打分。# j$ C# X$ [% u- z! M5 L, ?( z
; C# R) i; A) e1 x- r
三种AUC值示例:
. ]( ?7 t, ?7 w$ |$ h3 p
9 c; c8 c1 _. t6 z. |* s6 [/ m 简单说:AUC值越大的分类器,正确率越高。' H% ?9 i1 k3 W* z: X6 S
/ ], @! K6 s8 z4 k( M9 e# z4 f% ^& Q( u 那么为什么要用AUC作为二分类模型的评价指标呢?为什么不直接通过计算准确率来对模型进行评价呢?& h, X% C% z) N5 s
因为机器学习中的很多模型对于分类问题的预测结果大多是概率,即属于某个类别的概率,如果计算准确率的话,就要把概率转化为类别,这就需要设定一个阈值,概率大于某个阈值的属于一类,概率小于某个阈值的属于另一类,而阈值的设定直接影响了准确率的计算。也就是说AUC越高说明阈值分割所能达到的准确率越高。: B! O% z4 ~ l7 K6 ?% {3 J
9 b$ C' M1 B# V: n( E9 x, X* E+ q 小练习:
8 H2 }4 a! P/ b) u c' Z8 f1 A 8 b5 N- l: z6 k2 B3 ^) j
以下说法正确的是( ABD)。【不定项】+ P, f& j/ a4 v! o4 ~8 {3 o0 ?( j
A 随着阈值的降低,TPR与FPR都会增大。4 f3 k8 w% {" f
B TPR与召回率的值是相同的。8 U1 ~* s9 s5 }5 v8 V1 ]$ f
C 如果AUC的值非常低,例如,0.1,则该模型效果很差,也很难调优。( n# M# j9 _+ k9 g& L4 q
D 无论是什么分类模型,ROC曲线一定会经过(0, 0)与(1,1)这两个点。 J8 {# e; V0 v9 R
4.3 ROC曲线程序示例; g5 d! |9 t" I
$ f5 X* }4 f. b
我们首先来看一个简单的程序示例,借此来说明sklearn库中,ROC曲线的实现细节。
7 a% g& `0 J1 I' v3 S3 ? / g; O+ p* Y) Q6 f
4.3.1 roc_curve函数的参数; j3 U' n" h, e0 W, \5 ~
import numpy as np& L( V* D/ j! A5 n- J
from sklearn.metrics import roc_curve, auc, roc_auc_score! t1 r+ E: I+ [/ X
y = np.array([0, 0, 1, 1])
( ] @' M: m- p# f# `: }# ] scores = np.array([0.2, 0.4, 0.35, 0.8])
" {% e# T4 H, e # 返回ROC曲线相关值。返回FPR,TPR与阈值。当分值达到阈值时,将样本判定为正类,. q! L1 d6 Z3 u( U- H0 P7 y& X* d& v
# 否则判定为负类。
$ T& z' a: b( U: w D # y_true:二分类的标签值(真实值)。
5 O4 V. P6 p- _, b+ n" w # y_score:每个标签(数据)的分值或概率值。当该值达到阈值时,判定为正例,否则判定为负例。
6 n [( V* ]7 @+ a # 在实际模型评估时,该值往往通过决策函数(decision_function)或者概率函数(predict_proba)获得。
$ w, G2 Z$ z7 G; f2 E, _7 G2 B" X # pos_label:指定正例的标签值。
5 J( P3 p8 v: U9 \% l fpr, tpr, thresholds = roc_curve(y, scores, pos_label=1)
& _, ^& `' V2 J; g( O% Y print(f"fpr:{fpr}")! p! }9 R! ~- a/ x& W+ Y4 g/ Q" Q
print(f"tpr:{tpr}")
1 i; h1 K3 U+ C" }5 F print(f"thresholds:{thresholds}")
K) S0 q! I* q, p5 L # auc与roc_auc_score函数都可以返回AUC面积值,但是注意,两个函数的参数是不同的。; w, G# ^- ]- p% K1 c
print("AUC面积值:", auc(fpr, tpr))
0 Y" V J2 r0 ^9 H print("AUC面积得分:", roc_auc_score(y_true=y, y_score=scores))
|6 V: @8 P7 y. ~; i! o4 @ #### 3.3.2 roc_curve函数的返回值) G8 l& \3 e1 f4 ], e0 k, Y) d
" K& H& Y% N4 W! ]+ d 结果:9 l- H! ^: V1 h4 o
1.8 是怎么来的?0 D# K2 r8 L6 r/ \
1.8是阈值中最大值+1(0.8+1)得来的。为什么这么算?因为要使得最开始得到的所有阈值都不会超过这个值,才能过(0,0)和(1,1)这两个点。
; n# e9 w7 U. f5 X5 H 3 P" l1 x8 a T" @( Q2 V
4.3.2 roc_curve函数的返回值1 Y% Z! o1 Y* I+ E# t# e: K
$ P0 }( G m7 z& U) x9 H: V
roc_curve函数具有3个返回值:
( o$ {+ _% S4 G4 u4 J ! p0 S( E4 O5 M5 K
fpr 对应每个阈值(thresholds)下的fpr值。
# R8 t$ T5 Y; u. U tpr 对应每个阈值(thresholds)下的tpr值。
. p8 @, X% R# R# d: q$ M thresholds 阈值。
! a3 b$ o( S; o; K roc_curve函数会从y_score参数中,选择部分元素作为阈值(选择哪些元素属于实现细节,会根据sklearn版本的不同,也可能会有所差异。),然后进行降序排列,作为roc_curve函数的第3个返回值(thresholds)。同时,根据thresholds中的每个元素(阈值),分别计算fpr与tpr。, c% V* r* i7 J/ u7 m
iris = load_iris()) G$ |- W( y& Q' b U! p
X, y = iris.data, iris.target5 q% L3 `" k. t9 n
X = X[y != 0, 2:]
) H" j& m, D. R& p/ K1 m y = y[y != 0]
C% `# x# T9 Y5 A) J0 r1 |; x, x4 t y[y == 1] = 0
/ e7 B) }( ^+ m8 U# ` y[y == 2] = 16 t" ]9 E; A: {+ N; S' \
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25,4 f8 K/ H" V- a
random_state=2)
, S! ^7 S |, \( E3 A* L # lr = LogisticRegression(multi_class="multinomial", solver="lbfgs")
+ g( ^& \# o* M- U3 Y0 ]6 g; D, }- _ lr = LogisticRegression(multi_class="ovr", solver="liblinear")4 ]; o* \0 G; F$ }$ J6 D
lr.fit(X_train, y_train)
; |6 `& C/ x" O # 使用概率来作为每个样本数据的分值。# h0 f* g- b8 x" ^6 k
probo = lr.predict_proba(X_test)
# D7 L: d& ]0 W0 y fpr, tpr, thresholds = roc_curve(y_true=y_test, y_score=probo[:, 1],
+ ~4 d8 f! z/ w5 ~ pos_label=1)
g" P) ~ V3 Y display(probo[:, 1])9 n: N4 k5 x7 ^; |/ g) n
# 从概率中,选择若干元素作为阈值,每个阈值下,都可以确定一个tpr与fpr,
4 G B, z+ p* a2 P: ~( g6 S8 K' J # 每个tpr与fpr对应ROC曲线上的一个点,将这些点进行连接,就可以绘制ROC曲线。 J6 t+ @ E: P# C. l. ] |
display(thresholds). ^( i/ W* y1 Y- h g1 e: c
9 R' A" m) N8 K A9 }& w! U2 u
结果:* S D% @) M* g
* v/ ]5 g' s- w! y2 ?: V
' O7 T3 p/ N6 W- S2 O
, F. ^0 x* E+ c# J- ^# u/ x
# 随着阈值的不断降低,fpr与tpr都在不断的增大。
) ^4 P6 m5 F4 ?3 s6 f! x, ? fpr, tpr. b. a0 _* o7 Q: h
/ d" F% y8 u# `, c 结果:
' ^ a8 J+ [2 @ Z, W+ m, e3 Q
' Y$ \6 ^ }; X) H! D
+ j. I3 y: E9 H4 G
4.3.3 绘制ROC曲线
; H) s4 j4 ]6 u {. D6 ^8 b 有了fpr与tpr的值,绘制ROC曲线是非常容易的,只不过是最简单的一个plot而已。
' X. \: h; H$ A% K plt.figure(figsize=(10, 6))
( K9 m" i1 E. Q3 E( @9 K5 H plt.plot(fpr, tpr, marker="o", label="ROC曲线")$ T. _* {2 V% p3 @0 L! O0 D
plt.plot([0,1], [0,1], lw=2, ls="--", label="随机猜测")$ t/ p9 c+ I. q' @" q8 ~
plt.plot([0, 0, 1], [0, 1, 1], lw=2, ls="-.", label="完美预测")6 N4 f1 w- M! P4 u5 A
plt.xlim(-0.01, 1.02)" N3 e3 P" G1 W, `9 _* K
plt.ylim(-0.01, 1.02)
6 z" {, @9 c& W) K' N% | plt.xticks(np.arange(0, 1.1, 0.1))2 _+ D' ]; W( w
plt.yticks(np.arange(0, 1.1, 0.1))+ \7 B, U+ s% O6 e
plt.xlabel("False Positive Rate(FPR)"): x1 f2 V- D* ?8 d
plt.ylabel("True Positive Rate(TPR)")
; U+ ?& B' b8 W4 t4 ~+ s) ` plt.grid()
" {, C6 i7 X% g( e plt.title(f"ROC曲线-AUC值为{auc(fpr, tpr):.2f}")
2 ^. a+ {1 n& W5 P! O3 D plt.legend()0 I( y$ O- q5 k& ?
plt.show()# n) S3 l1 R: w$ q# Z" `- }1 R
% P' l8 G; x: v) X( x- f
; D- {- e$ L/ ~3 p: ~$ n
5、总结( |5 _; j0 O: t% I2 [( \, O5 v
: Q& T0 V) l: o" x, S
混淆矩阵的含义。
7 G" o3 b D4 k" y. |9 d; y 正确率,精准率,召回率与调和平均值F1的含义。
/ H) T: B! S* Q* c/ X ROC与AUC。1 z+ z5 s( l& t% |) d' p% t2 ]' C/ p+ P& J
( Z# ?9 l$ t7 P$ e& a
参考资料:; f) M3 }! [9 \
1、https://blog.csdn.net/zuolixiangfisher/article/details/81328297
. ~4 C; r+ P: l! x3 w 2、https://www.jianshu.com/p/2feb00839154
' F3 L' t$ h- _7 h' W+ [( {( P1 a 3、https://www.cnblogs.com/kamekin/p/9788730.html
( O8 O& n; Z: H' z8 {) r0 v/ J 4、https://www.jianshu.com/p/c61ae11cc5f6
+ R. p H8 l: ~1 @5 ~, ? ————————————————* {& s7 x N/ M/ Z: w5 v
版权声明:本文为CSDN博主「糖潮丽子~辣丽」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
' ]0 q: \+ Q% b3 l$ @! O# S 原文链接:https://blog.csdn.net/qq_39783601/article/details/1056007005 ]" D4 W9 d3 M2 {# h! [6 b) D
; W' s& z: y+ l7 C7 c S
; _+ g [; E- r% _9 c
zan