lixiangdong的个人博客分享 http://blog.sciencenet.cn/u/lixiangdong

博文

weka中使用TFIDF进行特征选择

已有 11049 次阅读 2012-5-21 17:53 |个人分类:weka|系统分类:科研笔记| filter, TFIDF, 特征选择, 文本分类

我首先对训练集进行了中文分词处理,在不做特征选择的情况下,只进行向量化处理:
weka.filters.unsupervised.attribute.StringToWordVector in:9804
Number of instances: 9804
Number of attributes: 9302
产生的arff文件大约30M.
 
使用TFIDF进行特征选择,仍然使用这个训练集,代码很简单:
  StringToWordVector filter = new StringToWordVector();
  filter.setStemmer( new NullStemmer() );
  filter.setInputFormat(dataRaw);
  filter.setTFTransform(true);
  filter.setIDFTransform(true);  
  filter.setMinTermFreq(5); 
  filter.setWordsToKeep(500);
结果:
weka.filters.unsupervised.attribute.StringToWordVector in:9804
Number of instances: 9804
Number of attributes: 3540
产生的arff文件大约41M. 这个arff文件可以用来训练NaiveBayes或SMO等分类模型。
 
但需注意,用某种训练好的分类模型进行分类时,被测对象应该使用相同的量化方法,否则双方属性不同,weka会出错,如“Src and Dest differ in # of attributes!!”。
 


https://blog.sciencenet.cn/blog-713110-573453.html

上一篇:IDA的反编译插件hexrays decompiler
下一篇:使用独立测试集对分类模型进行评估
收藏 IP: 61.163.70.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-8 11:27

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部