查看: 2681|回复: 1

详细讲解分类模型评估

字体大小: 正常放大

杨利霞

5273 主题	82 听众	17万积分

TA的每日心情

	开心 2021-8-11 17:59

签到天数: 17 天

[LV.4]偶尔看看III

网络挑战赛参赛者

自我介绍: 本人女，毕业于内蒙古科技大学，担任文职专业，毕业专业英语。

群组: 2018美赛大象算法课程

群组: 2018美赛护航培训课程

群组: 2019年数学中国站长建

群组: 2019年数据分析师课程

群组: 2018年大象老师国赛优

电梯直达

1^#

发表于 2020-4-19 11:53 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

详细讲解分类模型评估分类模型评估

1、分类模型
主题：如何对分类模型进行评估
目标：
2、混淆矩阵
3、评估指标
3.1 正确率
3.2 精准率
3.3 召回率
3.4 调和平均值F1
4、ROC和AUC
4.1 ROC曲线
如何画ROC曲线：
4.2 AUC
4.3 ROC曲线程序示例
4.3.1 roc_curve函数的参数
4.3.2 roc_curve函数的返回值
4.3.3 绘制ROC曲线
5、总结
1、分类模型

分类问题在我们日常生活中处处可见，比如我们对帅哥的分类，可能对帅哥分为非常帅和一般帅。比如我们平时刷淘宝，淘宝根据我们平时的喜好给我们推送产品，那我们就会把产品分为感兴趣和不感兴趣两类。
上述所说的问题就是典型的分类问题，确切的说其实就是二分类问题。
能够解决这些二分类问题的数学模型就被称为二分类模型。
用数学的方式表达就是，给定自变量X，代入到我们的分类模型F，会输出因变量y，y的取值为0或1，其中0代表负样本（一般帅的帅哥、不感兴趣的推送），1代表正样本（非常帅气的帅哥、感兴趣的推送）。

主题：如何对分类模型进行评估

目标：

能够熟知混淆矩阵的含义。
能够使用各种指标对分类模型进行评估。
能够独立绘制ROC曲线，并熟悉该曲线细节。
能够对样本不均衡进行处理（扩展内容）。
2、混淆矩阵

混淆矩阵，可以用来评估模型分类的正确性。
该矩阵是一个方阵，矩阵的数值用来表示分类器预测的结果，包括真正例（True Positive），假正例（False Positive），真负例（True Negative），假负例（False Negative）。

矩阵的形状是2 x 2，其中， - 矩阵的左上角表示，预测值为1，实际值为1(True Positive，简称TP)； - 右上角表示预测值为1，实际值为0(False Positive，简称FP)； - 左下角表示预测值为0，实际值为1(False Negative，简称FN)； - 右下角表示预测值为0，实际值为0(True Negative，简称TN)；

真负例（TN）+ 假正例（FP）——每个类别真实存在的负例的数量
假负例（FN）+ 真正例（TP）——每个类别真实存在的正例的数量
真负例（TN）+ 假负例（FN）——每个类别预测的真负例数量
假正例（FP）+ 真正例（TP）——每个类别预测的真正例数量
其中：

TP：真正例，实际为正预测为正；
FP：假正例，实际为负但预测为正；
FN：假反例，实际为正但预测为负；
TN：真反例，实际为负预测为负
接下来，我们通过数据来看下鸢尾花的混淆矩阵：
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
# 混淆矩阵
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt
import warnings

plt.rcParams["font.family"] = "SimHei"
plt.rcParams["axes.unicode_minus"] = False
plt.rcParams["font.size"] = 12
warnings.filterwarnings("ignore")

iris = load_iris() #导入鸢尾花数据集
X, y = iris.data, iris.target
X = X[y != 0, 2:]
y = y[y != 0]
y[y == 1] = 0
y[y == 2] = 1
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=2)
lr = LogisticRegression() #使用逻辑回归
lr.fit(X_train, y_train)
y_hat = lr.predict(X_test)
# 根据传入的真实值与预测值，创建混淆矩阵。
matrix = confusion_matrix(y_true=y_test, y_pred=y_hat)
print(matrix)

输出结果：

我们还可以对其进行可视化操作：
mat = plt.matshow(matrix, cmap=plt.cm.Blues, alpha=0.5) #cmap 指定颜色图色系，alpha透明度
label = ["负例", "正例"]
ax = plt.gca()
ax.set(xticks=np.arange(matrix.shape[1]), yticks=np.arange(matrix.shape[0]),
      xticklabels=label, yticklabels=label, title="混淆矩阵可视化\n",
      ylabel="真实值", xlabel="预测值")
for i in range(matrix.shape[0]):
for j in range(matrix.shape[1]):
      plt.text(x=j, y=i, s=matrix[i, j], va="center", ha="center")
a, b = ax.get_ylim()
ax.set_ylim(a + 0.5, b - 0.5)
plt.show()

代码解析：
matshow( ) 绘制矩阵，alpha 透明度
结果：

练习：

关于混淆矩阵，说法正确的是（ ABCD）。【不定项】
A 混淆矩阵可以用来评估分类模型。
B 混淆矩阵中，TP与TN的数值越大，则分类的效果越好。
C 混淆矩阵一行元素的和代表某个类别的实际数量。
D 混淆矩阵一列元素的和代表某个类别的预测数量。
3、评估指标

对于分类模型，我们可以提取如下的评估指标：

正确率（accuracy）
精准率（precision）
召回率（recall）
F1（调和平均值）
3.1 正确率

正确率（准确率）定义如下：
衡量所有样本被分类准确的比例。
Accuracy = (TP+TN) / (TP+FP+TN+FN)

预测正确的数量除以总数量。

3.2 精准率

查准率（精准率）定义如下：
衡量正样本的分类准确率，就是说被预测为正样本的样本有多少是真的正样本。
Precision = TP / (TP+FP)

精准率只考虑正例。

3.3 召回率

查全率（召回率）定义如下：
表示分类正确的正样本占总的正样本的比例。
Recall = TP / (TP+FN)

3.4 调和平均值F1

F值（F1-scores）调和平均值F1定义如下：
精确率和召回率的调和平均。
精准率Precision和召回率Recall加权调和平均数，并假设两者一样重要。

F1-score = (2Recall*Precision) / (Recall + Precision)

精准率和召回率是一对矛盾的度量。一般来说，精准率高时，召回率往往偏低；而召回率高时，精准率往往偏低。通常只有在一些简单任务中，才可能使二者都很高。
最好的分类器当然是准确率、精确率，召回率都为1，但实际场景中几乎是不可能的，而且精确率和召回率往往会相互影响，一个高了另一个会有所下降，因此在实际应用中要根据具体需求做适当平衡。
让我们做个练习加深下印象吧！

以下说法正确的是（ C ）。
A 使用正确率去评估一个分类模型，效果会比精准率更好。
B 使用精准率去评估一个分类模型，效果会比召回率更好。
C 精准率与召回率通常要联合使用。
D 精准率与召回率如果有一个值较低，F1值也可能会较高。
如果精准率和召回率我们只能选择重视一个，我们会更看重（ C ）。
A 精准率。
B 召回率。
C 具体场景不同，重视谁也会不同。
接下来我们通过程序来说明下：
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

print("正确率：", accuracy_score(y_test, y_hat))
# 默认将1类别视为正例，可以通过pos_label参数指定。
print("精准率：", precision_score(y_test, y_hat))
print("召回率：", recall_score(y_test, y_hat))
print("F1调和平均值：", f1_score(y_test, y_hat))
# 我们也可以调用逻辑回归模型对象的score方法，也能获取正确率。
# 但是需要注意，score方法与f1_score函数的参数是不同的。
print("score方法计算正确率：", lr.score(X_test, y_test))

结果：

除此之外，我们也可以使用classification_report函数来查看模型的分类统计信息，该方法会返回字符串类型，给出相关的分类指标评估值。
from sklearn.metrics import classification_report

print(classification_report(y_true=y_test, y_pred=y_hat))

结果：

练习：

如果使用精准率与召回率评估二分类模型时，我们应该将哪个类别设置为正例？（B）
A 随意
B 关注的类别
C 不关注的类别
4、ROC和AUC

ROC（Receiver Operating Characteristic）曲线和AUC常被用来评价一个二值分类器（binary classifier）的优劣。

4.1 ROC曲线

ROC曲线（Receiver Operating Characteristic——受试者工作特征曲线），使用图形来描述二分类系统的性能表现。图形的纵轴为真正例率（TPR——True Positive Rate），横轴为假正例率（FPR——False Positive Rate）。其中，真正例率与假正例率定义为：

ROC曲线通过真正例率（TPR）与假正例率（FPR）两项指标，可以用来评估分类模型的性能。真正例率与假正例率可以通过移动分类模型的阈值而进行计算。随着阈值的改变，真正例率与假负例率也会随之发生改变，进而就可以在ROC曲线坐标上，形成多个点。

ROC曲线反映了FPR与TPR之间权衡的情况，通俗来说，即在TPR随着FPR递增的情况下，谁增长得更快，快多少的问题。TPR增长得越快，曲线越往上凸，模型的分类性能就越好。

ROC曲线如果为对角线，则可以理解为随机猜测。如果在对角线以下，则其性能比随机猜测还要差。如果ROC曲线真正例率为1，假正例率为0，即曲线为与构成的折线，则此时的分类器是最完美的。

下图就是ROC曲线的一个示意图：

ROC曲线横坐标是FPR(False Positive Rate)，纵坐标是TPR(True Positive Rate)
接下来我们考虑ROC曲线图中的四个点和一条线。

第一个点，(0,1)，即FPR=0, TPR=1，这意味着FN（false negative）=0，并且FP（false
positive）=0。这是一个完美的分类器，它将所有的样本都正确分类。
第二个点，(1,0)，即FPR=1，TPR=0，类似地分析可以发现这是一个最糟糕的分类器，因为它成功避开了所有的正确答案。
第三个点，(0,0)，即FPR=TPR=0，即FP（false positive）=TP（true
positive）=0，可以发现该分类器预测所有的样本都为负样本（negative）。
第四个点（1,1），分类器实际上预测所有的样本都为正样本。经过以上的分析，我们可以断言，ROC曲线越接近左上角，该分类器的性能越好。
如何画ROC曲线：

对于一个特定的分类器和测试数据集，显然只能得到一组FPR和TPR结果，而要得到一个曲线，我们实际上需要一系列FPR和TPR的值，这又是如何得到的呢？我们先来看一下wikipedia上对ROC曲线的定义:

A receiver operating characteristic curve, i.e. ROC curve, is a
graphical plot that illustrates the diagnostic ability of a binary
classifier system as its discrimination threshold is varied.
译：ROC曲线是由一系列因区分阈值变化产生的点，用于描述二分类模型的判断能力
这里的关键在于 “its discrimination threshold is varied” ，因为对于一个二分类模型，它的输出结果其实是判断这个样本属于正样本的概率值，假如我们已经得到了所有样本的概率输出（属于正样本的概率），现在的问题是如何改变“discrimination threashold”？我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例，图中共有20个测试样本，“Class”一栏表示每个测试样本真正的标签（p表示正样本，n表示负样本），“Score”表示每个测试样本属于正样本的概率

然后我们按照样本的score值，从大到小依次作为阈值，当样本score值大于等于阈值时则判定为正样本，否则为负样本。
例如第一个阈值取0.9，这时只有id=1的样本被预测为正样本，其余都是负样本，此时TPR=1/1+9=0.1, FPR=0/0+10=0。还例如：对于图中的第4个样本，其“Score”值为0.6，那么样本1，2，3，4都被认为是正样本，因为它们的“Score”值都大于等于0.6，而其他样本则都认为是负样本。

详细如下：

由此我们便得到了一组（FPR，TPR）的值，可以绘制出ROC曲线：

当我们将threshold设置为1和0时，分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来，就得到了ROC曲线。当threshold取值越多，ROC曲线越平滑。

4.2 AUC

AUC（Area Under the Curve）是指ROC曲线下的面积，使用AUC值作为评价标准是因为有时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而AUC作为数值可以直观的评价分类器的好坏，值越大越好。

AUC是ROC曲线下的面积。
AUC的取值为[0.5-1]，0.5对应于对角线的“随机猜测模型”。
AUC值是一个概率值，当你随机挑选一个正样本以及负样本，当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值，AUC值越大，当前分类算法越有可能将正样本排在负样本前面，从而能够更好地分类。

从AUC判断分类器（预测模型）优劣的标准：

例如一个模型的AUC是0.7，其含义可以理解为：给定一个正样本和一个负样本，在70%的情况下，模型对正样本的打分（概率）高于对负样本的打分。

三种AUC值示例：

简单说：AUC值越大的分类器，正确率越高。

那么为什么要用AUC作为二分类模型的评价指标呢？为什么不直接通过计算准确率来对模型进行评价呢？
因为机器学习中的很多模型对于分类问题的预测结果大多是概率，即属于某个类别的概率，如果计算准确率的话，就要把概率转化为类别，这就需要设定一个阈值，概率大于某个阈值的属于一类，概率小于某个阈值的属于另一类，而阈值的设定直接影响了准确率的计算。也就是说AUC越高说明阈值分割所能达到的准确率越高。

小练习：

以下说法正确的是（ ABD）。【不定项】
A 随着阈值的降低，TPR与FPR都会增大。
B TPR与召回率的值是相同的。
C 如果AUC的值非常低，例如，0.1，则该模型效果很差，也很难调优。
D 无论是什么分类模型，ROC曲线一定会经过（0， 0）与（1，1）这两个点。
4.3 ROC曲线程序示例

我们首先来看一个简单的程序示例，借此来说明sklearn库中，ROC曲线的实现细节。

4.3.1 roc_curve函数的参数
import numpy as np
from sklearn.metrics import roc_curve, auc, roc_auc_score
y = np.array([0, 0, 1, 1])
scores = np.array([0.2, 0.4, 0.35, 0.8])
# 返回ROC曲线相关值。返回FPR，TPR与阈值。当分值达到阈值时，将样本判定为正类，
# 否则判定为负类。
# y_true：二分类的标签值（真实值）。
# y_score：每个标签（数据）的分值或概率值。当该值达到阈值时，判定为正例，否则判定为负例。
# 在实际模型评估时，该值往往通过决策函数（decision_function）或者概率函数（predict_proba）获得。
# pos_label：指定正例的标签值。
fpr, tpr, thresholds = roc_curve(y, scores, pos_label=1)
print(f"fpr：{fpr}")
print(f"tpr：{tpr}")
print(f"thresholds：{thresholds}")
# auc与roc_auc_score函数都可以返回AUC面积值，但是注意，两个函数的参数是不同的。
print("AUC面积值：", auc(fpr, tpr))
print("AUC面积得分：", roc_auc_score(y_true=y, y_score=scores))
#### 3.3.2 roc_curve函数的返回值

结果：

1.8 是怎么来的？
1.8是阈值中最大值+1（0.8+1）得来的。为什么这么算？因为要使得最开始得到的所有阈值都不会超过这个值，才能过（0,0）和（1,1）这两个点。

4.3.2 roc_curve函数的返回值

roc_curve函数具有3个返回值：

fpr 对应每个阈值（thresholds）下的fpr值。
tpr 对应每个阈值（thresholds）下的tpr值。
thresholds 阈值。
roc_curve函数会从y_score参数中，选择部分元素作为阈值（选择哪些元素属于实现细节，会根据sklearn版本的不同，也可能会有所差异。），然后进行降序排列，作为roc_curve函数的第3个返回值（thresholds）。同时，根据thresholds中的每个元素（阈值），分别计算fpr与tpr。
iris = load_iris()
X, y = iris.data, iris.target
X = X[y != 0, 2:]
y = y[y != 0]
y[y == 1] = 0
y[y == 2] = 1
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25,
random_state=2)
# lr = LogisticRegression(multi_class="multinomial", solver="lbfgs")
lr = LogisticRegression(multi_class="ovr", solver="liblinear")
lr.fit(X_train, y_train)
# 使用概率来作为每个样本数据的分值。
probo = lr.predict_proba(X_test)
fpr, tpr, thresholds = roc_curve(y_true=y_test, y_score=probo[:, 1],
pos_label=1)
display(probo[:, 1])
# 从概率中，选择若干元素作为阈值，每个阈值下，都可以确定一个tpr与fpr，
# 每个tpr与fpr对应ROC曲线上的一个点，将这些点进行连接，就可以绘制ROC曲线。
display(thresholds)

结果：

# 随着阈值的不断降低，fpr与tpr都在不断的增大。
fpr, tpr

结果：

4.3.3 绘制ROC曲线
有了fpr与tpr的值，绘制ROC曲线是非常容易的，只不过是最简单的一个plot而已。
plt.figure(figsize=(10, 6))
plt.plot(fpr, tpr, marker="o", label="ROC曲线")
plt.plot([0,1], [0,1], lw=2, ls="--", label="随机猜测")
plt.plot([0, 0, 1], [0, 1, 1], lw=2, ls="-.", label="完美预测")
plt.xlim(-0.01, 1.02)
plt.ylim(-0.01, 1.02)
plt.xticks(np.arange(0, 1.1, 0.1))
plt.yticks(np.arange(0, 1.1, 0.1))
plt.xlabel("False Positive Rate(FPR)")
plt.ylabel("True Positive Rate(TPR)")
plt.grid()
plt.title(f"ROC曲线-AUC值为{auc(fpr, tpr):.2f}")
plt.legend()
plt.show()

5、总结

混淆矩阵的含义。
正确率，精准率，召回率与调和平均值F1的含义。
ROC与AUC。

参考资料：
1、https://blog.csdn.net/zuolixiangfisher/article/details/81328297
2、https://www.jianshu.com/p/2feb00839154
3、https://www.cnblogs.com/kamekin/p/9788730.html
4、https://www.jianshu.com/p/c61ae11cc5f6
————————————————
版权声明：本文为CSDN博主「糖潮丽子~辣丽」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_39783601/article/details/105600700

zan