在线时间 1630 小时 最后登录 2024-1-29 注册时间 2017-5-16 听众数 82 收听数 1 能力 120 分 体力 563420 点 威望 12 点 阅读权限 255 积分 174249 相册 1 日志 0 记录 0 帖子 5313 主题 5273 精华 3 分享 0 好友 163
TA的每日心情 开心 2021-8-11 17:59
签到天数: 17 天
[LV.4]偶尔看看III
网络挑战赛参赛者
网络挑战赛参赛者
自我介绍 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
群组 : 2018美赛大象算法课程
群组 : 2018美赛护航培训课程
群组 : 2019年 数学中国站长建
群组 : 2019年数据分析师课程
群组 : 2018年大象老师国赛优
: \- R6 g3 n/ k 详细讲解分类模型评估 分类模型评估+ y$ K; A2 G" b7 H6 @9 y! D
: }) j) U2 F9 d" x- H 1、分类模型6 i3 `- H! f7 M! X p
主题:如何对分类模型进行评估
2 U) ]4 F3 h6 u 目标:
* a. J9 L4 {; X* s6 I 2、混淆矩阵. _: `: X0 b5 B( r1 n8 }
3、评估指标! E% E) f y) E1 \- t
3.1 正确率
- Q/ K! s& H& k7 y4 h! _ 3.2 精准率7 v3 e, b/ x- ?* `6 ~4 q
3.3 召回率( m- g5 f/ q8 y6 u8 Y6 z. {
3.4 调和平均值F1
$ S# M# n* f+ T, ~ 4、ROC和AUC9 ?9 O* Y, G3 O3 {; D& C8 l9 N
4.1 ROC曲线
$ G) T4 y! M t# I | a d 如何画ROC曲线:
$ Q# f3 u7 m: V# F% `5 | X 4.2 AUC
& A7 h J! ^- ^4 u+ R! u 4.3 ROC曲线程序示例5 j! q# S5 p. n& f9 h, |/ O x% `
4.3.1 roc_curve函数的参数9 `4 \& |8 X$ ]- x$ E1 w( f2 e
4.3.2 roc_curve函数的返回值/ X: i9 x7 I+ p9 f7 p; z
4.3.3 绘制ROC曲线7 N$ k7 ^' p c6 c6 `$ I
5、总结
; M- G8 s3 U- F2 d3 |- H+ Z# w4 s 1、分类模型
7 T; }) @9 Z6 i1 ?
% E5 R0 u1 F1 @0 N r; a 分类问题在我们日常生活中处处可见,比如我们对帅哥的分类,可能对帅哥分为非常帅和一般帅。比如我们平时刷淘宝,淘宝根据我们平时的喜好给我们推送产品,那我们就会把产品分为感兴趣和不感兴趣两类。! K1 Z4 L5 @9 O1 U3 [" J
上述所说的问题就是典型的分类问题,确切的说其实就是二分类问题。
7 e9 E2 i/ d0 @( O 能够解决这些二分类问题的数学模型就被称为二分类模型。
4 F9 x; P7 f& V- q4 d 用数学的方式表达就是,给定自变量X,代入到我们的分类模型F,会输出因变量y,y的取值为0或1,其中0代表负样本(一般帅的帅哥、不感兴趣的推送),1代表正样本(非常帅气的帅哥、感兴趣的推送)。# E+ N' G) n5 t( j/ @/ f2 H
$ q* {* T. {; Z7 P+ g 主题:如何对分类模型进行评估
8 p0 g0 c: ]! ]# h
& j1 n- F: r! ~7 ^; p3 k 目标:3 h' X6 b2 T+ J5 L8 o" {
. g0 k7 V' ^9 Y 能够熟知混淆矩阵的含义。" I4 G- _, F! n$ G" y% {) ?1 C3 \
能够使用各种指标对分类模型进行评估。/ u5 A, a; O# N2 S- f: ]4 p
能够独立绘制ROC曲线,并熟悉该曲线细节。
' Y* ~- @. G6 V( E- W2 ]' ] 能够对样本不均衡进行处理(扩展内容)。% U6 \; i9 ?/ |$ E; ?4 [& {; a
2、混淆矩阵+ U7 I7 ~! A' P! X% l$ K
( p: u' ]7 \" w: |. w
混淆矩阵,可以用来评估模型分类的正确性。. ?% ?% t! V2 C/ \0 ]- q
该矩阵是一个方阵,矩阵的数值用来表示分类器预测的结果,包括真正例(True Positive),假正例(False Positive),真负例(True Negative),假负例(False Negative)。, J, M" q3 @: t) U
# t2 r. ^. a9 S! r 矩阵的形状是2 x 2,其中, - 矩阵的左上角表示,预测值为1,实际值为1(True Positive,简称TP); - 右上角表示预测值为1,实际值为0(False Positive,简称FP); - 左下角表示预测值为0,实际值为1(False Negative,简称FN); - 右下角表示预测值为0,实际值为0(True Negative,简称TN);
. F3 B# C/ J; Z6 E, a& Z 4 u, `( T9 V8 G( A
真负例(TN)+ 假正例(FP)——每个类别真实存在的负例的数量
4 ]* E6 A1 ^& |: Y& l6 {5 @7 X 假负例(FN)+ 真正例(TP)——每个类别真实存在的正例的数量" h; t3 M& K" g+ l5 k4 Q
真负例(TN)+ 假负例(FN)——每个类别预测的真负例数量
4 j; n; O0 g5 w: V& a5 Q+ L 假正例(FP)+ 真正例(TP)——每个类别预测的真正例数量
! x1 f4 [" K0 t2 ? 其中:
) E6 q8 A: Z2 [. k' A2 z, i/ M & \3 [6 N. R g
TP:真正例,实际为正预测为正;
4 u7 V1 ~$ N& l: {) I3 f& X FP:假正例,实际为负但预测为正;
% S6 }5 ^: V: I" t4 F( ] FN:假反例,实际为正但预测为负;+ ^9 i0 V4 D' {; f& L0 [
TN:真反例,实际为负预测为负
6 N# M/ u- L% t5 k, M* A 接下来,我们通过数据来看下鸢尾花的混淆矩阵:
l2 k0 d4 A& s4 S. p- N! y import numpy as np* ]5 b2 s1 h7 E# L
from sklearn.datasets import load_iris
. d+ l6 k& C5 r; r/ b from sklearn.linear_model import LogisticRegression% z( j& c, N1 X
from sklearn.model_selection import train_test_split
+ ?( d$ B& q; @5 E) S # 混淆矩阵
* a# c9 b- U/ T, d6 o from sklearn.metrics import confusion_matrix
9 q* I" U- f2 f import matplotlib.pyplot as plt
0 |6 d6 V' e2 d7 D; ?; x import warnings
) |$ f& G$ X9 A# V( x: W
& y3 ^6 q/ } _2 U4 ~6 H3 M* M plt.rcParams["font.family"] = "SimHei"
0 a& L1 g+ S( g9 [4 P% w plt.rcParams["axes.unicode_minus"] = False. t$ E( c3 Q. r' o" n$ _: a
plt.rcParams["font.size"] = 128 L2 r$ U b+ d# A6 L. P
warnings.filterwarnings("ignore")
, G' K% ~# z5 r) I* s+ ]! [ 5 i) v) {! g m K1 ?$ h
iris = load_iris() #导入鸢尾花数据集' O3 A3 F S/ T1 }! d$ `0 b
X, y = iris.data, iris.target; J# x0 ?2 s9 v6 o' ^; g. ~
X = X[y != 0, 2:]
* E4 r$ W- z5 q9 m1 Y/ x y = y[y != 0]
: s) v3 J) Q2 m8 _6 T y[y == 1] = 0
" w! a$ G7 a* P. Q y[y == 2] = 1
# c# o9 ~/ P! P; R1 {0 ^ X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=2)
4 v* P- T; k( e; e& a6 [ lr = LogisticRegression() #使用逻辑回归
' i0 _) A* { z lr.fit(X_train, y_train)( y: w5 [1 s0 j) ]7 u! M
y_hat = lr.predict(X_test)0 d: ~( c2 n$ Z$ l+ t1 v) ~1 d
# 根据传入的真实值与预测值,创建混淆矩阵。
5 A- \9 ^! b9 f: u matrix = confusion_matrix(y_true=y_test, y_pred=y_hat)
# R* E2 _4 B' |; v1 R print(matrix)
+ q& S; K( D& F. A f. n+ _ + I3 K1 }& J! ]4 _5 n9 J9 y
& J6 v2 E3 H6 f 输出结果:; V; E6 D |. s+ J
; F# M. l7 w: w4 w, K 我们还可以对其进行可视化操作:- g4 N3 c3 t$ l* O6 ?5 D
mat = plt.matshow(matrix, cmap=plt.cm.Blues, alpha=0.5) #cmap 指定颜色图色系,alpha透明度
& x# f$ ?8 v/ U. D9 k+ C2 K label = ["负例", "正例"]9 {. H3 L* l% d* E5 }9 W
ax = plt.gca()
0 R7 Y. U) F; Z. Y4 v3 u ax.set(xticks=np.arange(matrix.shape[1]), yticks=np.arange(matrix.shape[0]),
+ V3 ?; A' v- Y5 P( ?# m xticklabels=label, yticklabels=label, title="混淆矩阵可视化\n",. F( D" H8 D( t8 H- }
ylabel="真实值", xlabel="预测值")
' S5 I3 ^) V2 J& B for i in range(matrix.shape[0]):
% w- w5 T# }2 l5 ~0 o$ R for j in range(matrix.shape[1]):
) B4 T# b% Z+ A) C7 ~) L$ u plt.text(x=j, y=i, s=matrix[i, j], va="center", ha="center")
3 r6 \; t" Q+ o/ k: g8 l" c a, b = ax.get_ylim(): f' H6 W+ N$ {2 b! d
ax.set_ylim(a + 0.5, b - 0.5)
$ {! f+ v5 S- B! Y) X/ \/ a+ ~ plt.show()
1 \! t( p7 ], C0 k# {
1 O) T/ y3 P; T1 \2 s4 e* Q
. Z0 T, S3 D/ p% ]# Y9 k( o; D 代码解析:& ]) J( z" v. w5 Q/ @' H( m
matshow( ) 绘制矩阵,alpha 透明度0 D8 C, g% ~! G5 K
结果:
0 m/ V" l3 J5 G9 L2 l
& S" M' N8 }' \! `
练习:9 B% Y$ d2 @. }$ u ~
: Z* f3 @/ c! ] w( E) O
关于混淆矩阵,说法正确的是( ABCD)。【不定项】2 k' L w9 ?' K. D0 R' D
A 混淆矩阵可以用来评估分类模型。
, `8 k$ y1 v/ t1 T! W$ @" t2 r3 Z B 混淆矩阵中,TP与TN的数值越大,则分类的效果越好。
% B. m& o- i! D, N4 ^1 o, W o C 混淆矩阵一行元素的和代表某个类别的实际数量。6 [" N& V) ^% z
D 混淆矩阵一列元素的和代表某个类别的预测数量。
4 k. H% o8 G6 \) k 3、评估指标0 h9 R: G# h }; _
" U. j" B7 z. E9 F
对于分类模型,我们可以提取如下的评估指标:, q' i& L4 {: _
) T7 o# H8 W+ M5 R; s
正确率(accuracy)
( A- m6 c; u2 T- L- @ 精准率(precision)
1 Z/ W0 x) \1 @$ d4 B( u/ N 召回率(recall)
8 W6 {8 U5 N% t4 d F1(调和平均值)
- a2 X) p. F: {2 l, O2 w4 [- V 3.1 正确率! a+ T, [4 e# r6 d" I/ N
- M" l5 I. @- V$ I F1 D 正确率(准确率)定义如下:: t- L9 D( R1 J+ n
衡量所有样本被分类准确的比例。
: t* d- n4 P8 n4 g& n Accuracy = (TP+TN) / (TP+FP+TN+FN)
1 F7 ~& F; \9 f! q4 R
5 |& T1 t: v* K, b- [+ `! M 预测正确的数量除以总数量。
/ W# w1 a e( j# W0 h3 Y + J1 C5 p h1 i. K6 }
3.2 精准率
`0 |, K5 u2 ~: a5 ]% ]7 D
) W* v' n; |% @1 N3 w) Y9 N
查准率(精准率)定义如下:
8 k( J( o/ s4 ` 衡量正样本的分类准确率,就是说被预测为正样本的样本有多少是真的正样本。
5 a: v4 a$ A: {& `; V d7 h Precision = TP / (TP+FP)- z# C( T9 d8 T
4 \) q; I- n$ @* D
精准率只考虑正例。% `1 \- U9 h8 x; U. z: ^4 l
5 p. {8 [" P& B& V" m
3.3 召回率; Z! O' x1 {1 f) V$ k9 V4 s# d! X) u
5 I9 _; d5 l8 ^) L: Z
查全率(召回率)定义如下:5 a' `, F+ o7 P' f9 s: y
表示分类正确的正样本占总的正样本的比例。
+ b' P% l# |! [& P% P Recall = TP / (TP+FN)7 _7 _5 _' L2 o! U1 M( ^( ]/ y# \: Y
! Z: j& x: D b& @7 |% F
* x; g I! D& E3 x" w 3.4 调和平均值F1! b7 ?+ I( @3 `8 x0 p
2 `* C/ `, P4 d F值(F1-scores)调和平均值F1定义如下:
. t; }; b) ]# w/ a# K" J4 S' c: q 精确率和召回率的调和平均。
* J/ [" t9 t2 l6 K 精准率Precision和召回率Recall加权调和平均数,并假设两者一样重要。: Y1 L# f+ ^' k8 w$ S
) q3 P& ], e' ], _( Q F1-score = (2Recall*Precision) / (Recall + Precision)+ y4 s4 ~! o; q( F0 p
3 R f4 R, X$ B) h% [
精准率和召回率是一对矛盾的度量。一般来说,精准率高时,召回率往往偏低;而召回率高时,精准率往往偏低。通常只有在一些简单任务中,才可能使二者都很高。" p4 C8 |+ j9 h8 p
最好的分类器当然是准确率、精确率,召回率都为1,但实际场景中几乎是不可能的,而且精确率和召回率往往会相互影响,一个高了另一个会有所下降,因此在实际应用中要根据具体需求做适当平衡。" M+ `8 Q) U% w; J# c( _0 `% E
让我们做个练习加深下印象吧!
- |3 F, k& P" `0 Y: Z0 r ' k/ q+ Q* [8 M& T2 R% [+ I' V
以下说法正确的是( C )。- Z" Z* Y$ N7 G8 t; Z$ P0 G( A
A 使用正确率去评估一个分类模型,效果会比精准率更好。
/ ?! }, h/ F) ]; E, b B 使用精准率去评估一个分类模型,效果会比召回率更好。
0 u( X* Q* z! m% \, y+ l C 精准率与召回率通常要联合使用。, S2 V/ g" {7 m+ f6 [9 p, H, r
D 精准率与召回率如果有一个值较低,F1值也可能会较高。$ _4 r) g. W3 b# D
如果精准率和召回率我们只能选择重视一个,我们会更看重( C )。- U+ {$ Y; Q9 q7 P- I9 b) p
A 精准率。
4 G$ Z# O& p6 F" y B 召回率。
, a8 J4 @& q5 Z# T C 具体场景不同,重视谁也会不同。) N4 m* b! n! O" A2 h
接下来我们通过程序来说明下:
& \1 X7 F1 m0 q$ y- @3 X" [# \+ Q from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score9 N8 ~0 g9 A+ V- w, {! S: r- l
& G, s- H8 g" o; K& b/ m7 Z3 b print("正确率:", accuracy_score(y_test, y_hat))7 P! m7 }: E z3 E d. k# }
# 默认将1类别视为正例,可以通过pos_label参数指定。
4 b8 R( s! Q1 p0 X print("精准率:", precision_score(y_test, y_hat))
, M! Z4 T: x( Q( Q f print("召回率:", recall_score(y_test, y_hat))
Z) L5 c% p' N3 n* Q* } print("F1调和平均值:", f1_score(y_test, y_hat)) P7 h) Q! ~( ?/ g5 C4 P9 P
# 我们也可以调用逻辑回归模型对象的score方法,也能获取正确率。5 h: X: j3 j3 F
# 但是需要注意,score方法与f1_score函数的参数是不同的。
% K* o& L1 m, M. D$ z q$ D print("score方法计算正确率:", lr.score(X_test, y_test))3 I% B& D2 d3 P7 Z% u5 @; `' X
( ^! X; z p( ]& w. n9 d" U
! e/ L+ y6 B" I7 ^( [4 l 结果:. z' ?8 k: ^2 y/ w+ |
& u( r2 a' ]5 Y 除此之外,我们也可以使用classification_report函数来查看模型的分类统计信息,该方法会返回字符串类型,给出相关的分类指标评估值。
7 `* p- p1 r# Q9 { from sklearn.metrics import classification_report" Z) ^5 l' E$ M: d
5 i& F v. c3 T, { print(classification_report(y_true=y_test, y_pred=y_hat))
4 ?' U1 `( m. r2 c
. ~7 v6 w' G% L* s1 h7 b5 e$ H 4 S0 }) X5 L: j, A$ Y$ t- Q
结果:
5 q- u" @ y4 H! ?( o! s+ j
2 ]6 u; I# V1 A3 U, J3 W, D3 s ' ?0 }! ^; W4 f% l9 }
练习:
. w( Q. P6 B# g. T 0 l5 ?# d7 P( K5 ?# D5 \& V( Q& N
如果使用精准率与召回率评估二分类模型时,我们应该将哪个类别设置为正例? (B)5 e$ h. z! _" d6 H1 o
A 随意# x1 |/ x6 y; J4 T' u0 N% t
B 关注的类别! [" B6 |5 Z6 T" b$ h9 h
C 不关注的类别4 I+ p% n- B" z
4、ROC和AUC! O3 H0 O9 @- _( @1 E5 j
/ I9 c4 N# T9 y- @$ s$ i% A ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。
, Z- I- T$ m' W0 g1 q' }! c " q& y8 K8 F5 V/ M: N
4.1 ROC曲线
& v$ N9 V3 p; P# W8 A! Z
, e0 c; P* _3 k+ h3 Q& T1 X ROC曲线(Receiver Operating Characteristic——受试者工作特征曲线),使用图形来描述二分类系统的性能表现。图形的纵轴为真正例率(TPR——True Positive Rate),横轴为假正例率(FPR——False Positive Rate)。其中,真正例率与假正例率定义为:! A+ V4 d7 z8 l0 G/ g& E# E2 `7 j3 A
. @0 ?+ _ B* \; O& d0 x
ROC曲线通过真正例率(TPR)与假正例率(FPR)两项指标,可以用来评估分类模型的性能。真正例率与假正例率可以通过移动分类模型的阈值而进行计算。随着阈值的改变,真正例率与假负例率也会随之发生改变,进而就可以在ROC曲线坐标上,形成多个点。+ w& D2 z+ F/ C+ D& V5 u. e
; y* N* y$ J% R; L1 S ROC曲线反映了FPR与TPR之间权衡的情况,通俗来说,即在TPR随着FPR递增的情况下,谁增长得更快,快多少的问题。TPR增长得越快,曲线越往上凸,模型的分类性能就越好。* S# K4 \* T+ f; F# r
. O( B( Q1 A: X7 i* t, A ROC曲线如果为对角线,则可以理解为随机猜测。如果在对角线以下,则其性能比随机猜测还要差。如果ROC曲线真正例率为1,假正例率为0,即曲线为与构成的折线,则此时的分类器是最完美的。
) f' L' L7 c) ]
/ n1 S7 c* V9 ]4 v! X1 o f3 Z 下图就是ROC曲线的一个示意图:
8 [# O6 n) i' o. X
; r3 j; E1 @6 o& H; z. Z ROC曲线横坐标是FPR(False Positive Rate),纵坐标是TPR(True Positive Rate) O3 X* p/ Y; r# y
接下来我们考虑ROC曲线图中的四个点和一条线。) Q- D1 t3 ~" r2 y p7 J# H! e6 B
9 l, ^; R8 B5 [, K& ~7 n
第一个点,(0,1),即FPR=0, TPR=1,这意味着FN(false negative)=0,并且FP(false( C9 x/ T: D1 r0 n2 F% l
positive)=0。这是一个完美的分类器,它将所有的样本都正确分类。
4 t8 u- K0 J) y ?6 |6 M 第二个点,(1,0),即FPR=1,TPR=0,类似地分析可以发现这是一个最糟糕的分类器,因为它成功避开了所有的正确答案。4 x2 P. C+ ~3 P& U
第三个点,(0,0),即FPR=TPR=0,即FP(false positive)=TP(true
: [8 A/ t N$ G+ U5 g3 U positive)=0,可以发现该分类器预测所有的样本都为负样本(negative)。
5 Y4 `& F# `, O; ~ 第四个点(1,1),分类器实际上预测所有的样本都为正样本。经过以上的分析,我们可以断言,ROC曲线越接近左上角,该分类器的性能越好。
, \* _. v; T0 L' |: m& G3 Z 如何画ROC曲线:* i, l1 F4 U: x# X3 e
0 d: l! N, _: c f/ P% O 对于一个特定的分类器和测试数据集,显然只能得到一组FPR和TPR结果,而要得到一个曲线,我们实际上需要一系列FPR和TPR的值,这又是如何得到的呢?我们先来看一下wikipedia上对ROC曲线的定义:/ w6 y9 i" C1 }4 p7 }( \
* z$ o. E4 m7 N2 a
A receiver operating characteristic curve, i.e. ROC curve, is a% P% D. l0 V% Z* d
graphical plot that illustrates the diagnostic ability of a binary S+ e9 {0 k' m- F/ L( a% M( j
classifier system as its discrimination threshold is varied.
% E) J6 ^) p) L @. h- f 译:ROC曲线是由一系列因区分阈值变化产生的点,用于描述二分类模型的判断能力- b+ ]( F9 J- k2 ~+ i4 N: a+ C
这里的关键在于 “its discrimination threshold is varied” ,因为对于一个二分类模型,它的输出结果其实是判断这个样本属于正样本的概率值,假如我们已经得到了所有样本的概率输出(属于正样本的概率),现在的问题是如何改变“discrimination threashold”?我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率" Z) M/ R# T4 `2 T3 C
: }) y7 z1 C, l6 d, U2 A& _( g2 F
然后我们按照样本的score值,从大到小依次作为阈值,当样本score值大于等于阈值时则判定为正样本,否则为负样本。
/ x9 U" y) L+ d9 }3 X 例如第一个阈值取0.9,这时只有id=1的样本被预测为正样本,其余都是负样本,此时TPR=1/1+9=0.1, FPR=0/0+10=0。还例如:对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。
. ?2 v. T8 V! e! W2 u( Q! N7 n ! T g8 o7 ]! m- r8 F/ E# v+ ^. j
详细如下:6 o4 S8 Q. z( P6 K4 ]
2 h7 |; N* d g# G: ^
由此我们便得到了一组(FPR,TPR)的值,可以绘制出ROC曲线: ~9 M+ K! _/ i2 t- [, U5 \
9 ^+ a/ ]7 F+ F" D; [2 N- O 当我们将threshold设置为1和0时,分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来,就得到了ROC曲线。当threshold取值越多,ROC曲线越平滑。! ~! k3 K8 |5 [! I
! c; S& R. \+ s! Z. b 4.2 AUC/ e9 o' M5 s9 j7 p
7 _, F* D# z( t1 R* \ AUC(Area Under the Curve)是指ROC曲线下的面积,使用AUC值作为评价标准是因为有时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而AUC作为数值可以直观的评价分类器的好坏,值越大越好。
: y4 u: L, I y& C* e7 N
& @6 W* R% U' p0 J# I1 l" Q AUC是ROC曲线下的面积。
/ ]+ q- Q/ X; B( L% j: [4 ` AUC的取值为[0.5-1],0.5对应于对角线的“随机猜测模型”。
4 K6 ~' k; k5 P2 b4 c5 a$ g5 V AUC值是一个概率值,当你随机挑选一个正样本以及负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值,AUC值越大,当前分类算法越有可能将正样本排在负样本前面,从而能够更好地分类。7 R7 I- ?! j8 ~, @* X
; Y" Z9 d- I, l 从AUC判断分类器(预测模型)优劣的标准:
# t: Y# d9 k: n4 x+ Z
7 j$ X1 S, H% H' F6 R) L1 Z 6 h) ~7 B/ j% u t, ~
例如一个模型的AUC是0.7,其含义可以理解为:给定一个正样本和一个负样本,在70%的情况下,模型对正样本的打分(概率)高于对负样本的打分。3 z. e* c7 n% N( y2 {+ T
# h" f, w" `/ i, K: a
三种AUC值示例:# a s b( L3 a+ o3 o% e
$ Z4 g# |: f+ W6 h a
简单说:AUC值越大的分类器,正确率越高。
* Q& z) _) o* {3 ~: h0 }1 H2 e6 `
. K& S6 h# o2 ~% k' ]: X3 H5 r 那么为什么要用AUC作为二分类模型的评价指标呢?为什么不直接通过计算准确率来对模型进行评价呢? ^9 y4 M b! Z! m% H. I$ B. N. Z8 q
因为机器学习中的很多模型对于分类问题的预测结果大多是概率,即属于某个类别的概率,如果计算准确率的话,就要把概率转化为类别,这就需要设定一个阈值,概率大于某个阈值的属于一类,概率小于某个阈值的属于另一类,而阈值的设定直接影响了准确率的计算。也就是说AUC越高说明阈值分割所能达到的准确率越高。
6 c& _4 |- ?, V" Z
* ?9 |& v; c5 A1 q( M3 K* y& O @! L 小练习:
) d+ S9 c: J' i E- k6 M8 T( {* M 7 t5 }& @9 a* r" r* L' p+ ?
以下说法正确的是( ABD)。【不定项】4 q9 Y# x9 U; J
A 随着阈值的降低,TPR与FPR都会增大。
7 x3 G( b" v `- o9 y- ? B TPR与召回率的值是相同的。+ F2 s2 l3 Y8 h3 m/ B* X+ w6 v8 ~6 ]
C 如果AUC的值非常低,例如,0.1,则该模型效果很差,也很难调优。* q5 i+ Q) {5 Z$ V
D 无论是什么分类模型,ROC曲线一定会经过(0, 0)与(1,1)这两个点。# r6 R8 ^ A& ~* j1 C
4.3 ROC曲线程序示例& N1 {+ W( Y1 F" n5 O
" V2 j! N! t. n5 O: a2 L 我们首先来看一个简单的程序示例,借此来说明sklearn库中,ROC曲线的实现细节。
+ k* }. p6 R, z! D0 |" ` $ u1 Z* V* J: L+ d
4.3.1 roc_curve函数的参数
5 w6 ^: z6 l6 P import numpy as np
/ y, c2 o) V: }6 G5 C8 d: U" S from sklearn.metrics import roc_curve, auc, roc_auc_score& m3 j; A9 r4 G$ _' Q
y = np.array([0, 0, 1, 1])
; Z' G; O( o: i% w* C' I. B% l scores = np.array([0.2, 0.4, 0.35, 0.8])
% j, n7 x4 i5 `# u) l0 ~$ @1 P # 返回ROC曲线相关值。返回FPR,TPR与阈值。当分值达到阈值时,将样本判定为正类,3 v( K1 ~% r/ ]6 h. n, x, _
# 否则判定为负类。
1 S; \7 H- L6 n# k( W0 ^ # y_true:二分类的标签值(真实值)。$ g% L( e( X1 ?# n' r! {& g4 o
# y_score:每个标签(数据)的分值或概率值。当该值达到阈值时,判定为正例,否则判定为负例。
3 Q/ |" s; n4 A+ [% h4 p) W/ ? # 在实际模型评估时,该值往往通过决策函数(decision_function)或者概率函数(predict_proba)获得。3 T5 E. E% C V: [5 }
# pos_label:指定正例的标签值。; Q) A: @' Q4 x& L$ b5 O" q0 c
fpr, tpr, thresholds = roc_curve(y, scores, pos_label=1)
/ e" z0 d. ~, H2 e- G print(f"fpr:{fpr}")
M O: S; A0 m4 `) w1 s% X print(f"tpr:{tpr}")0 ~% ] o3 ? B# z
print(f"thresholds:{thresholds}")
. Y4 ^0 d3 o$ [) W W # auc与roc_auc_score函数都可以返回AUC面积值,但是注意,两个函数的参数是不同的。
: }' i9 p0 _6 \+ S- a print("AUC面积值:", auc(fpr, tpr))0 Z2 D3 l" f$ D3 c$ \
print("AUC面积得分:", roc_auc_score(y_true=y, y_score=scores))
|' b: x" w1 U) o9 _# w- ~5 l #### 3.3.2 roc_curve函数的返回值 J3 z9 F3 [# t! \0 R" i" L
/ [. a2 ^4 R. k6 F2 g1 R" X
结果:
% M3 d# d3 ^6 H3 p0 V ^8 D. M
1.8 是怎么来的?
4 I7 Q( c. F# x1 H 1.8是阈值中最大值+1(0.8+1)得来的。为什么这么算?因为要使得最开始得到的所有阈值都不会超过这个值,才能过(0,0)和(1,1)这两个点。' v' P# }3 V" q; e" ]& F
! M3 j/ s) n6 {# ?
4.3.2 roc_curve函数的返回值
& B: @, W# A' Q
( e2 n# b3 c$ u% d6 ~ roc_curve函数具有3个返回值:
& I& f+ O/ d, D9 `5 D% P8 |' U
" Y9 |! `& @# s fpr 对应每个阈值(thresholds)下的fpr值。 K( F. a: v8 Q; E2 v. L
tpr 对应每个阈值(thresholds)下的tpr值。
! @, D& v+ N2 N I" A thresholds 阈值。
8 Z, S5 u4 p+ i0 Y' ^: F roc_curve函数会从y_score参数中,选择部分元素作为阈值(选择哪些元素属于实现细节,会根据sklearn版本的不同,也可能会有所差异。),然后进行降序排列,作为roc_curve函数的第3个返回值(thresholds)。同时,根据thresholds中的每个元素(阈值),分别计算fpr与tpr。% p+ g5 N- `* g. }) K
iris = load_iris()
# Y9 i& v$ H7 } X, y = iris.data, iris.target/ d/ v8 q7 }$ w. d
X = X[y != 0, 2:]. \4 v5 |" r. d* p5 S* o/ m, R" @
y = y[y != 0]. h6 e! F5 g7 w" C- ^5 Z5 q( |
y[y == 1] = 0
3 ~9 K0 H8 l2 ^' W' H1 E Q y[y == 2] = 19 @# U! l I! p- L% G' H
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25,' j2 h# M: x* M2 s3 s. A
random_state=2)
3 y; U( V* W& F # lr = LogisticRegression(multi_class="multinomial", solver="lbfgs"); Z1 S6 G9 {. k- A
lr = LogisticRegression(multi_class="ovr", solver="liblinear")
0 K+ p. J3 ? F7 T$ K- j! U5 O) B lr.fit(X_train, y_train): P" G, V( s _1 g" i
# 使用概率来作为每个样本数据的分值。
& O& I" r, h+ F. k1 h0 z probo = lr.predict_proba(X_test)
R+ w7 ^3 i- \4 a3 D- W fpr, tpr, thresholds = roc_curve(y_true=y_test, y_score=probo[:, 1],
3 I o9 a, g& M0 w6 j pos_label=1)
/ z. r5 Q2 [' }; W6 e( ~3 p+ L8 E display(probo[:, 1])1 \2 h0 O- j7 J- r
# 从概率中,选择若干元素作为阈值,每个阈值下,都可以确定一个tpr与fpr,
9 Y1 R4 l# ?0 F" n, ?, d # 每个tpr与fpr对应ROC曲线上的一个点,将这些点进行连接,就可以绘制ROC曲线。
& e% }, l! t3 ^8 p display(thresholds)
' P4 S! L) e! [# q3 S7 Y 5 Y8 \0 ?% Y0 o) V# a" a
结果:: w1 l; M5 @6 z0 e0 [
) ~, M" U4 ~1 Q
' W6 W- @! v. P4 T! J- U
& [% c {8 d$ b& F0 U- U
# 随着阈值的不断降低,fpr与tpr都在不断的增大。( x7 C; q2 t9 ]" p( y* B' v
fpr, tpr7 [8 r! t' n; y Q- ]) W \( Q2 X
$ ]0 Y7 N! F0 ~: u2 I. X
结果:1 \9 Y7 |5 K% ?+ U, g
& q# K6 s* X2 X1 x) j- [* u
% d) }, [0 f7 c \4 M* t) P 4.3.3 绘制ROC曲线. n5 \" X) S1 ~( S( |7 |; W
有了fpr与tpr的值,绘制ROC曲线是非常容易的,只不过是最简单的一个plot而已。" j6 G+ N0 d) v. L
plt.figure(figsize=(10, 6))
, E* p9 w! X/ i: H; F plt.plot(fpr, tpr, marker="o", label="ROC曲线"), a- u% t8 J# t/ C- N* @( m4 I
plt.plot([0,1], [0,1], lw=2, ls="--", label="随机猜测")' U0 B6 s( |) j: S2 A$ _2 C
plt.plot([0, 0, 1], [0, 1, 1], lw=2, ls="-.", label="完美预测")* w& d' g5 u9 a' F5 g/ m# J- z
plt.xlim(-0.01, 1.02)) ?' _ m: U, w! p' L
plt.ylim(-0.01, 1.02)
2 B' m: u; }2 x) ?3 r$ M, v& a plt.xticks(np.arange(0, 1.1, 0.1))- J; C0 s. J* R7 ~! h3 i
plt.yticks(np.arange(0, 1.1, 0.1))5 l" |0 F- n8 J# F1 F% z
plt.xlabel("False Positive Rate(FPR)")$ H5 Y1 w1 g! F0 D* @7 c: w
plt.ylabel("True Positive Rate(TPR)"). m4 P6 n+ @+ Y3 `6 i4 B
plt.grid()
d7 Y7 f7 L- w; U plt.title(f"ROC曲线-AUC值为{auc(fpr, tpr):.2f}")
! D/ W+ M4 X) _* b plt.legend()- m* l# a4 Z5 d" R8 c" O1 \$ r2 ^" ^
plt.show()8 ~& U" s0 R+ l3 a* n
H' {- F9 {0 {' M* \ ?* m5 U: Y- {9 ~! k
5、总结
) W* L! t: |9 i& j
7 T) u9 l/ f, _* T 混淆矩阵的含义。( m3 q1 b/ ^7 O( V
正确率,精准率,召回率与调和平均值F1的含义。
: ~: j) u( x2 U% a Y* | ROC与AUC。
# w) }6 O) j3 G. K" c+ e
4 c% N* l' W* E/ [% @# P6 V6 P4 C) f 参考资料:
# l7 O, M i9 M* T! G9 V( X 1、https://blog.csdn.net/zuolixiangfisher/article/details/81328297; z. @) |: T8 o
2、https://www.jianshu.com/p/2feb00839154
( W! U* v& h5 ?' x$ F( I, m 3、https://www.cnblogs.com/kamekin/p/9788730.html5 |" C$ f" Y) ~; y# m5 I
4、https://www.jianshu.com/p/c61ae11cc5f6
! r6 w* H' n7 D$ }3 x" v$ |0 Q$ l ————————————————1 h6 u$ V7 X% z
版权声明:本文为CSDN博主「糖潮丽子~辣丽」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。3 r) t) k% N" G4 a% }* L
原文链接:https://blog.csdn.net/qq_39783601/article/details/1056007006 V, E# H# J. h9 ~+ D: D
2 K1 K2 L9 T: `. S4 @( z% W - B+ V% b2 W' S1 Y8 P# X3 `4 ?& F! T+ T
zan