|||
背景知识:VSM是普遍采用的文本表示模型,其步骤包括特征选择和权重确定。相关解释可以参考“http://www.blogjava.net/zhenandaci/archive/2009/04/19/266388.html”,不再赘述。
在这个链接的评论中有一个争议:TFIDF能否用于文本特征选择。作为一个初学者,我对他们的话语似懂非懂。下面试图从TFIDF的历史出发来分析这个问题。
要实现文本的自动分析,必须将无结构的原始文本转化为结构化的计算机可以识别处理的信息,即用特征词来描述和代替文本。0-1模型是最容易想到的表示方法,即当某特征词出现在文档中时,其值为1,否则则为0。后来发现使用[0,1]比{0,1}更有效,于是出现了几种计算特征词权重的方法:
(1)Luhn提出通过TF(Term Frequency,词频)来选择特征词[1]。
(2)Karen Sparck Jones提出IDF(Inverse Document Frequency,逆文档词频)[2](这篇文章晦涩难懂)。
(3)Salton等提出Term Discrimination模型,通过相似度计算特征词的DV(Discrimination Value)[3-4].
(4)Salton等提出TFIDF模型[5].
从上面的发展过程可以看出:(1)TFIDF计算的是指特征词在某篇文档中的权重,取值范围为[0,1],其中TF指该特征词在这篇文档中的词频;(2)这些方法研究目的开始于文献检索,所以其不仅要求特征词能够标识文本内容,更强调其区分文本的能力。
这时产生了另外一个问题,就是如果把所有的词都作为特征项,那么特征向量的维数过于巨大而无法实际应用,于是有必要进行特征选择(Feature Selection),也就是在不损伤文本核心信息的情况下尽量降低向量空间维数,以提高文本处理的速度和效率。如果用TFIDF来做特征选择,那么模型中的TF究竟指什么?
如果简单把TF看成是某篇文档中的词频显然不行,同一个词在不同文档中的TF存在差异。这样就剩下两种办法:(1)采用总词频,即选择特征词在整个文本集中的词频来计算;(2)计算每一文档的所有词的TFIDF值,选择高于一定阀值的词作为特征选项,然后将所有文档的特征选项进行汇总去重从而得到特征词集合。
感觉上前者似乎可行,后者则有重复计算之嫌疑。究竟哪种可行?还是都行?或者都不行?
短时间内估计做不了实证,只好签个日期先搁置。的确有很多人在用TFIDF做特征选择,对错烦请高手指点。
(xzl,2010.5.7)
参考文献:
[1] H.P.Luhn. A statistical approach to mechanized encoding and searching of literary infoamttion. IBM Journal of Research and Development, 1957, 1(4): 309-317.
[2] K. Sparck Jones. A statistical interpretation of term specificity and its application to retrieval. Journal of Documentation, 1972, 28(1): 11-20.
[3] G.Salton, Clement T.Yu. On the construction of effective vocabularies for information retrieval. Proceedings of the 1973 meeting on Programming languages and information retrieval, 1973: 48-60.
[4] G.Salton, C.S.Yang. On the specification of term values in automatic indexing. Journal of Documentation, 1973, 29(4): 351-372.
[5] G.Salton, C.Buckley. Term-weighting approaches in automatic text retrieval. Information Processing & Management, 1988, 24(5): 513-523.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-4-26 23:12
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社