||
两类相似性测度
武夷山
2009年第8期JASIST杂志发表了Nees Jan van Eck和Ludo Waltman合写的文章,How to Normalize Concurrence Data? An Analysis of Some Well-known Similarity Measures(如何对共现数据进行标准化?若干熟知的相似性测度之分析)。文章说:
有两类完全不同的相似性测度。关联强度(association strength)属于概率论的测度,the inclusion index、贾卡德指数等属于集合论的测度。共现数据最好采用概率论测度来标准化,也就是说,在科学计量学研究中要多采用关联强度指标。
所谓集合论的相似,测度的是两个集合的相对重叠程度。
所谓概率论的相似,测度的是在独立性假定(对象之出现在统计上是相互独立的)下,共现频度的观察值与期望值之距离。
上述两种测度都属于直接的相似性测度,间接的相似性测度包括Bhattacharyya距离法、余弦法、Jensen-Shannon距离法,等等。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 13:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社