lixiangdong的个人博客分享 http://blog.sciencenet.cn/u/lixiangdong

博文

对weka 度量分类模型优劣指标的说明

已有 10666 次阅读 2012-11-27 18:30 |个人分类:weka|系统分类:科研笔记| 指标, Weka, 精确度, 分类模型, 召回率

示例如下:
=== Detailed Accuracy By Class ===
TP Rate   FP Rate   Precision   Recall  F-Measure   ROC Area  Class
  0.93      0.002      0.989     0.93      0.959      0.997    体育
  0.93      0.01       0.939     0.93      0.935      0.97     城市
  0.92      0.023      0.868     0.92      0.893      0.978    娱乐
  0.93      0.005      0.969     0.93      0.949      0.991    房产
  0.84      0.043      0.764     0.84      0.8        0.954    新闻
  0.84      0.018      0.884     0.84      0.862      0.95     科技
  0.83      0.028      0.83      0.83      0.83       0.951    财经
指标说明(参考最下面给出的混淆矩阵):
1、TP Rate :true positive rate,TPR简称“真正率” ,即被模型预测为正的正样本比率。TPR = TP /(TP + FN) 正样本预测结果数 / 正样本实际数。以体育类为例,TPR=93/100= 0.93.
2、FP Rate:false positive rate, FPR简称“假正率” ,即被模型预测为正的负样本比率 FPR = FP /(FP + TN) 被预测为正的负样本结果数 /负样本实际数。以体育类为例,FPR=1/600= 0.0017≈0.002。
3、Precision:精确度,即被模型正确预测的样本与所有被预测为正的样本的比率。以体育类为例,被模型正确预测的样本数 = 93,所有被预测为正的样本为94,所以Precision=93/94=0.98936≈0.989.
4、Recall:召回率,即所有该类样本被正确预测的比例。  以体育类为例,总样本数为100,正确预测93个,召回率=0.93.
5、 F-Measure:在weka中F-Measure被定义为(2*Precision*Recall)/(Precision*Recall).  以体育类为例,F-Measure=(2*0.989*0.93)/(0.989+0.93)=1.84/1.92=0.958.
6、ROC Area:ROC曲线下的面积,即Area Under roc Curve(AUC)。这个指标来自医学AUC值介于0.5到1之间,值越大表示分类器越好。该指标与Wilcoxon-Mann-Whitney test 统计指标等价。参见:http://longmans1985.blog.163.com/blog/static/7060547520128194220344/

Correctly Classified Instances         622               88.8571 %
Incorrectly Classified Instances        78               11.1429 %
Kappa statistic                          0.87  
Mean absolute error                      0.2064
Root mean squared error                  0.3049
Relative absolute error                 84.2857 %
Root relative squared error             87.1311 %
Total Number of Instances              700     

=== Confusion Matrix ===
  a  b  c  d  e  f  g   <-- classified as
 93  0  1  0  5  1  0 |  a = 体育
  0 93  1  0  4  0  2 |  b = 城市
  0  0 92  0  6  2  0 |  c = 娱乐
  0  1  2 93  0  2  2 |  d = 房产
  0  2  7  0 84  1  6 |  e = 新闻
  1  1  2  0  5 84  7 |  f = 科技
  0  2  1  3  6  5 83 |  g = 财经




https://blog.sciencenet.cn/blog-713110-636818.html

上一篇:利用11月21日的方法,对韩新超发来的新浪新闻进行分类的结果
下一篇:当当上买了三本入门书
收藏 IP: 61.163.70.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-11 23:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部