周苑分享 http://blog.sciencenet.cn/u/yaoqizhou 论春语秋,谈科说学,声传言教。

博文

诚邀合作、一起建立高影响力的大数据 精选

已有 5975 次阅读 2018-5-16 06:40 |个人分类:科技推广|系统分类:论文交流| 大数据, 论文搜索, 合作

 果你有论文被PUBMED索引,我们邀请你加入RELISH联盟,访问https://pubmed.ict.griffith.edu.au/register标注60篇文章与你自己论文的相关性,一起共建相关文献的标准大数据库,并成为描述该数据库论文的贡献作者。

        作为一个科学研究人员,我们在写论文或申请基金时,都必须全面收集相关文献、对该子领域的来龙去脉了解的清清楚楚。然而,随着科学文献的指数级增长,追踪我们各自领域所发表的文献变得越来越不可能。一般常用方法包括利用引用信息、使用关键词、以及现有的一些文献推荐系统,但这些方法往往会产生一个长长的清单,其中有许多不相关的文章。而一些相关的文章却由于没有用对关键词而没有找到。文献数量的指数增长需要更有效、更智能的文献搜索方法、能够在一次搜索中就获得全部应该有的相关文章,并且几乎不含有不相关的论文。

    jfa0842l.jpg    

        改进目前文献检索方法的最大障碍是缺乏一个能用于比较各种方法的标准数据库。现有的大多数方法都依赖于专家分类的文档作为训练数据库。例如,PubMed标准搜索引擎PMRA使用TREC2005专家注释的主题词来训练参数(1)。然而,两个文件可能属于同一个主题,但细节上并没有关系。使用用户回馈或者网上在线评估来比较方法更接近现实,但参与者通常很少,无法得出有意义的结论(2)。没有有效的比较就无法研究、开发新智能性搜索技术。

        这里我们邀请每位拥有PubMed索引文章的科研人员加入RELISHRElevant LIterature SearcH)联盟,一起共建一个整个科学社区都可以使用的、关于相关文献的开放数据集。每位贡献者将被邀请成为这个高影响力的数据库论文的作者。这个项目是基于我们最近在Nature读者来信中所描述的PubMed文献搜索引擎(3)。该引擎是目前流行的三种方法所组合而成的:PMRAPubMed的官方搜索引擎)(1),BM254)和TF-IDF5)。

        每位参与者的任务如下:访问https://pubmed.ict.griffith.edu.au/register,输入你的单位地址信息,然后输入你在PubMed中被索引的论文。我们的搜索引擎将推荐60篇可能相关文章,你负责标注这些文章是否与你的论文相关。我们定义:


相关(Relevant:推荐文章与你的论文相关,也就是说你有兴趣进一步阅读或会考虑在你论文中引用该文章。

部分相关(Somewhat:该推荐文章处于你论文的子领域,但关键细节上并不相关,不太可能在你论文中的引用。

不相关(Irrelevant:文章显然和你的论文不在同一个子领域。

        除了标注相关和部分相关的文章外,必须标注不相关的文章。这些不相关论文的注释对新方法的发展和训练至关重要。

        每个贡献者至少贡献一篇他自己论文的相关文章注释,而且越多越好。我们计划根据每个人注释论文的数量来排列最终论文作者的顺序。因为注释的是你自己的专业领域,整个过程将会比较快速、简单地完成。我们也希望每个参与者能转告同事和朋友。在PUBMED内各个科学领域的参与程度越高,RELISH数据库的影响就越大。只有建立成大数据才能进行深度学习,从而开发出有智商的文献检索方法。最终收集的数据将可以免费下载并在匿名化以及论文完成后正式发布,所有个人信息将仅仅用于论文和数据库的发表。

 

1.         Lin, J., and Wilbur, W. J. (2007) PubMed related articles: a probabilistic topic-based model for content similarity. Bmc Bioinformatics8

2.         Beel, J., Gipp, B., Langer, S., and Breitinger, C. (2016) Research-paper recommender systems: a literature survey. Int J Digit Librarie17, 305-338

3.         Brown, P., and Zhou, Y. (2017) Biomedical literature: Testers wanted for article search tool. Nature549, 31

4.         Sparck-Jones, K., Walker, S., and Robertson, S. E. (2000) A probabilistic model of information retrieval: development and comparative experiments Part 2. Inform Process Manag36, 809-840

5.         Sparck-Jones, K. (2004) A statistical interpretation of term specificity and its application in retrieval. J Doc60, 493-502



http://blog.sciencenet.cn/blog-472757-1114181.html

上一篇:打工:最好的圣诞礼物

10 武夷山 杨正瓴 张鹰 李剑超 周健 彭友松 黄仁勇 季维奇 高建召 杨建设

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2018-9-24 23:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部