|||
google新闻可以推荐相关的新闻给我,google reader可以基于我的订阅推荐相关的博文。今天我在思考,文献的推荐算法问题。顺手整理了一下思路。
1. 引用关系
如果两篇文献引用的参考文献相同,那么相关性必然很高
2. 关键词
Keywords:两篇文章的关键词如果相同,可能有相关性
MeSH词:收录到PubMed中的医学文献都被标引了MeSH词,如果相同可以作为参考依据
SCI Topic:被SCI收录的数据库都被标引了主题词,可以作为参考依据
以上方法也有缺陷,忽略了词与词之间的关系,比如父子级。
3. 余弦定理
方法来自吴军博士的书籍《数学之美》
取出文章所有的实词,对他们的TF/IDF值进行排序,计算两篇文献的向量夹角。
如果当两篇文献向量的夹角为0,说明是论文抄袭,
如果接近1,说明高相关,
如果接近0,说明不相关。
如果每篇文献都两辆比较,计算量大,不现实,可以采用矩阵运算中的奇异值分解(SVD)这是我能想到的所有方法,抛砖引玉,各位看官如果有更好的建议,可以留言给我。
原文链接:http://www.mednoter.com/archives/503.html
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-17 11:03
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社