数字科学交流团队分享 http://blog.sciencenet.cn/u/dsc70 武大

博文

从出版商系统获取180万份开放存取出版物用于文本和数据挖掘

已有 2316 次阅读 2018-7-11 22:38 |系统分类:海外观察

引用本文请注明出处

作者:Petr Knoth,Nancy Pontika,Lucas Anastasiou;译者:王一鎏;校译:陈铭

来源:http://blogs.lse.ac.uk/impactofsocialsciences/2018/03/22/releasing-1-8-million-open-access-publications-from-publisher-systems-for-text-and-data-mining/


文本和数据挖掘(Text and data mining, TDM)为我们更好地了解和分析学术研究成果提供了机会。然而,当今的学术交流体系还缺乏支持TDM发挥所有潜力的技术基础,更别说开放存取成果。为了解决这个问题,彼得·柯诺斯、南茜·潘缇卡和卢卡斯·阿纳斯塔修共同开发了一个工具包——CORE出版商连接器(CORE Publisher Connector),用来帮助文本挖掘者通过单一的机器接口访问内容。连接器旨在解决出版商应用程序接口的异质性问题,帮助文本挖掘者完成数据收集,并为所有公开发表的科学出版物提供一个中心点,以及高性能、不断更新的访问接口。

研究文献包含一些世界上最重要的信息,比如怎样治疗疾病、解决困难的工程问题、应对我们当今面临的许多全球性挑战。目前,研究文献的体量大约为11.5亿出版物,每年以150万左右的速率增加。现在系统性的阅读和全面的知识分析已经超出了人类所及。

尽管文本和数据挖掘为我们改进访问和分析研究成果的方式提供了机会,当前学术交流体系的技术基础还不能支持TDM发挥所有的潜力。此外,大多数国家的法律框架限制了研究文献的挖掘,包括针对非研究性质的挖掘。然而很少有人关注防止对学术论文进行大规模分析的技术。令人惊讶的是,由于技术限制,即使是挖掘开放存取论文也是困难的。

开放存取和研究论文的文本挖掘有一个共同点,它们都是为了提高人们获取科学知识的机会。因此,文本挖掘需要在大范围的文本中进行。事实上,许多文本挖掘任务,比如语义检索、推荐系统、问答系统、内容概括,都只有在尽可能多的出版物中运行时才能发挥全部的潜力。这意味着文本挖掘者必须投入足够多的时间、精力和资源来集成他们感兴趣的语料库。有些时候,由于技术和出版商平台的限制,这个任务是不可能完成的。根据2014年英国联合信息系统委员会(Joint Information Systems CommitteeJisc)的一个报告,文本挖掘者在数据收集阶段花费的时间可以占到整个调研时间的90%

为了消除这些额外的步骤,帮助文本挖掘者节约时间和金钱,我们开发了一个工具包——CORE出版商连接器(CORE Publisher Connector),用来帮助文本挖掘者通过单一的机器接口访问内容。

开发出版商连接器并不容易。尽管有人会认为从出版商接口获取开放存取科研成果的机器可访问性相对来说非常简单,但我们发现正好相反。我们对最大的开放存取和混合出版商进行了调查,问题包括:他们的机器接口;如何访问全文;他们是否强加了任何下载限制。调查之后我们很快认识到这个问题的复杂性。并不是所有的出版商都支持广泛采用的聚合标准,比如OAI-PMH协议,它通常会撤回自定义专有的API实现。我们还发现了将出版物元数据与全文链接起来时出现的问题,当机器试图聚合内容并生成元数据与全文匹配时会导致歧义。有些出版商根本不在他们的网站上支持机器接口,使情况更加复杂。具体来讲,他们只在网站上提供内容,通常与受限的机器人结合,只允许谷歌和少数的其他引擎访问。这阻止了平台和聚合器或者与通过计算机代理的内容提取有关的任务的交互。

针对这些调查结果,我们发布了一个新的基件——CORE出版商连接器。连接器由几个软件模块组成,每一个都可以从给定出版商获取内容,并提供给公众下载。它的同步是使用资源同步协议(the ResourceSync protocol)实现的。与只为获取元数据提供互操作性的OAI-PMH协议相比,资源同步协议允许任何类型的资源(包括元数据和实际数据)的共享,并在网上提供先进的同步机制。连接器收集的资源通过这里的资源同步协议获得。

截至目前,我们已经发布了超过180万份全文的开放存取文章。为进一步扩大出版商连接器的覆盖率,我们计划从其他几个出版商增加更多的软件模块。

CORE出版商连接器的目标是:

无缝访问出版商的内容。连接器试图解决出版商间应用程序接口的异质性问题,为文本挖掘者的数据收集提供帮助。

提供通用的中心点以获取所有可用资源,这是成千上万的开放存取科学出版物的一个大型语料库。

提供最新的高性能访问接口。语料库将持续更新,易于覆盖所有开放存取科学文献。

在初始版本中,我们开发了四大出版商:爱思唯尔、斯普林格—自然、FrontiersPLoS的连接器,调查了他们的API是如何工作的,并把我们的发现和他们各自网站上的信息相比较。在一个专门的目录中,我们展示了我们的聚合方法以及每个出版商的特点(包括他们的缺陷和解决方案),并对出版商现有的机器接口提出改进建议。目录还包含了实现出版商连接器的代码。值得注意的是,我们发现在调查中从一些出版商处获得的技术信息,不完全与现实相符。因此,我们还需要为其他的主要出版商开发连接器。然而,没想到我们的工作受到了包括泰勒·弗朗西斯和哥白尼在内的出版商的热烈欢迎。他们在会议上看到关于出版商连接器的介绍后,主动要求加入。

通过CORE出版商连接器而获取的超过180万份开放存取文章,开启了开放存取领域新纪元。我们现在可以很容易地估计每个出版商金色和混合开放存取出版物的数量,并监测未来的增长。例如从我们目前调查的这些出版商来看,所有发表的文章中有7%是可用的金色或者混合开放存取出版物。此外,我们定义了一个有效的吸引出版商的工作流程架构,良好的开端是成功的一半。我们现在提供通用检索器的安装,将来它的覆盖率会提高,因为现在给每个出版商安装新模块的过程已变得更加简单。通过这项工作,我们希望激励出版商创造一个更加统一,不那么异质化的系统。这个系统将减少耗时,降低复杂性,并能为文本挖掘实践扫除障碍。总的来说,我们的目的是为文本挖掘者提供一个无忧的界面,使他们能专注于内容,而不是通过什么特别的办法才可以获取。

这项工作有两个创新点:它构成了第一个主要出版商金色和混合开放存取内容的系统聚合,获得了像COREOpenAIRE这类聚合器至今还没有捕获到的内容。这项工作使近200万份文章从主要出版商手中解放出来,参与包括TDM在内的一系列活动。它也是第一次将资源同步协议作为一个有效的技术来分发大量学术文献的实践。

这项工作是由开放CORE聚合器的团队在OpenMinTeD项目中进行的,旨在为欧洲各地的文本和数据挖掘者创建电子基础平台。CORE是全球的聚合服务,它从3600多个数据源和成千上万的期刊中获得了超过830万条元数据记录。大多数的记录都包含了文章全文链接。此外,由于CORE已经从出版商连接器中吸收了内容,它现在直接拥有一千多万份开放存取文章全文,成为世界上最大的全文聚合器。全文可以通过CORE的应用程序接口(RESTResourceSync)获得,并作为数据集下载。




https://blog.sciencenet.cn/blog-521339-1123552.html

上一篇:学术出版整合的新目标
下一篇:聊聊数据引用那些事儿
收藏 IP: 171.214.137.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-7 22:28

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部