吕小荣分享 http://blog.sciencenet.cn/u/xiaoronglv 体验即是生活,不要被浮云所累

博文

文献推荐算法

已有 4531 次阅读 2012-9-29 15:19 |个人分类:数据库|系统分类:科研笔记| 推荐算法

google新闻可以推荐相关的新闻给我,google reader可以基于我的订阅推荐相关的博文。今天我在思考,文献的推荐算法问题。顺手整理了一下思路。

1. 引用关系
如果两篇文献引用的参考文献相同,那么相关性必然很高

2. 关键词
Keywords:两篇文章的关键词如果相同,可能有相关性
MeSH词:收录到PubMed中的医学文献都被标引了MeSH词,如果相同可以作为参考依据
SCI Topic:被SCI收录的数据库都被标引了主题词,可以作为参考依据


以上方法也有缺陷,忽略了词与词之间的关系,比如父子级。


3. 余弦定理
方法来自吴军博士的书籍《数学之美》
取出文章所有的实词,对他们的TF/IDF值进行排序,计算两篇文献的向量夹角。
如果当两篇文献向量的夹角为0,说明是论文抄袭,
如果接近1,说明高相关,
如果接近0,说明不相关。

如果每篇文献都两辆比较,计算量大,不现实,可以采用矩阵运算中的奇异值分解(SVD)这是我能想到的所有方法,抛砖引玉,各位看官如果有更好的建议,可以留言给我。



原文链接:http://www.mednoter.com/archives/503.html



https://blog.sciencenet.cn/blog-679245-617850.html

上一篇:Evernote 一年
下一篇:技术会不会限制想象力?
收藏 IP: 101.68.78.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-18 03:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部