博文

分类指标准确率(Precision)和正确率(Accuracy)的区别

已有 45831 次阅读 2014-4-15 11:18 |系统分类:科研笔记

分类是一种重要的数据挖掘算法。分类的目的是构造一个分类函数或分类模型（即分类器），通过分类器将数据对象映射到某一个给定的类别中。分类器的主要评价指标有准确率(Precision)、召回率(Recall)、F_b-score、ROC、AOC等。在研究中也有采用Accuracy（正确率）来评价分类器的。但准确率和正确率这两个概念经常有人混了。【没有耐心看下面内容的博友请看最后的结论】

准确率(Precision) 和召回率(Recall)是信息检索领域两个最基本的指标。准确率也称为查准率，召回率也称为查全率。它们的定义如下：

Precision=系统检索到的相关文件数量/系统检索到的文件总数量

Recall=系统检索到的相关文件数量/系统所有相关文件数量

F_b-score是准确率和召回率的调和平均：F_b=[(1+b²)*P*R]/（b²*P+R），比较常用的是F₁。

在信息检索中，准确率和召回率是互相影响的，虽然两者都高是一种期望的理想情况，然而实际中常常是准确率高、召回率就低，或者召回率低、但准确率高。所以在实际中常常需要根据具体情况做出取舍，例如对一般搜索的情况是在保证召回率的情况下提升准确率，而如果是疾病监测、反垃圾邮件等，则是在保证准确率的条件下，提升召回率。但有时候，需要兼顾两者，那么就可以用F-score指标。

ROC和AUC是评价分类器的指标。ROC是受试者工作特征曲线 receiver operating characteristic curve ) 的简写，又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性，它们都是对同一信号刺激的反应，只不过是在几种不同的判定标准下所得的结果而已[1]。ROC是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系，它通过将连续变量设定出多个不同的临界值，从而计算出一系列敏感性和特异性，再以敏感性为纵坐标、（1-特异性）为横坐标绘制成曲线。AUC是ROC曲线下面积(Area Under roc Curve)的简称，顾名思义，AUC的值就是处于ROC curve下方的那部分面积的大小。通常，AUC的值介于0.5到1.0之间，AUC越大，诊断准确性越高。在ROC曲线上，最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

为了解释ROC的概念，让我们考虑一个二分类问题，即将实例分成正类（positive）或负类（negative）。对一个二分问题来说，会出现四种情况。如果一个实例是正类并且也被预测成正类，即为真正类（True positive）,如果实例是负类被预测成正类，称之为假正类（False positive）。相应地，如果实例是负类被预测成负类，称之为真负类（Truenegative）,正类被预测成负类则为假负类（falsenegative）。列联表或混淆矩阵如下表所示，1代表正类，0代表负类。

		实际
		1	0
预测	1	True Positive (TP) 真正	False Positive (FP) 假正
预测	0	False Negative (FN) 假负	True Negative TN 真负

基于该列联表，定义敏感性指标为：sensitivity=TP/(TP+FN)。敏感性指标又称为真正类率(truepositive rate ,TPR)，刻画的是分类器所识别出的正实例占所有正实例的比例。

另外定义负正类率(false positive rate, FPR),计算公式为：FPR=FP/(FP+TN).负正类率计算的是分类器错认为正类的负实例占所有负实例的比例

定义特异性指标为:Specificity=TN/(FP+TN)=1-FPR。特异性指标又称为真负类率（True Negative Rate，TNR）。

我们看，实际上，敏感性指标就是召回率，特异性指标=1-FPR。

ROC曲线由两个变量绘制。横坐标是1-specificity，即负正类率(FPR)，纵坐标是 Sensitivity，即真正类率(TPR)。

在此基础上，还可以定义正确率(Accuracy)和错误率(Error)。 Accuracy=(TP+TN)/(TP+FP+TN+FN) , Error= (FP+FN)/(TP+FP+TN+FN)。如果把预测为1看作检索结果，则准确率Precision= TP/(TP+FP)。

结论：

分类正确率（Accuracy），不管是哪个类别，只要预测正确，其数量都放在分子上，而分母是全部数据数量，这说明正确率是对全部数据的判断。而准确率在分类中对应的是某个类别，分子是预测该类别正确的数量，分母是预测为该类别的全部数据的数量。或者说，Accuracy是对分类器整体上的正确率的评价，而Precision是分类器预测为某一个类别的正确率的评价。

[1] http://baike.baidu.com/view/42249.htm?fromTaglist

转载本文请联系原作者获取授权，同时请注明本文来自韩红旗科学网博客。
链接地址：https://blog.sciencenet.cn/blog-460603-785098.html

上一篇：关于co-citation的求证
下一篇：欢迎投稿《情报工程》期刊

收藏 IP: 168.160.24.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (1 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

韩红旗

扫一扫，分享此博文

hanhongqi的个人博客分享 http://blog.sciencenet.cn/u/hanhongqi

博文

分类指标准确率(Precision)和正确率(Accuracy)的区别

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (1 个评论)

韩红旗

全部作者的其他最新博文

全部精选博文导读

相关博文

hanhongqi的个人博客分享 http://blog.sciencenet.cn/u/hanhongqi

博文

分类指标准确率(Precision)和正确率(Accuracy)的区别

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

韩红旗

全部作者的其他最新博文

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (1 个评论)