|
引用本文请注明出处
作者:Tim Vines;译者:周伊;校译:陈铭
来源:https://scholarlykitchen.sspnet.org/2018/05/28/whats-up-with-data-citations/
当一篇发表文章引用了另一篇文章时,学术生态系统往往依赖于Crossref来实现两者的联系。如果没有这些联系的稳定记录,我们往往会忽视文献的结构。例如,过去的研究是否支持当前的研究?新研究的进展与哪些其他研究相关?哪些研究领域更加独立?对于作者来说,引文既是一个重要的使用度量指标,也是一种标准的信用制度。只有每个出版方都加入Crossref,才能使这些数据的获取成为可能。
Crossref的复杂程度令人咂舌,引用网络仅仅是其表层。发表的文章只是对研究的文字描述,在字数的限制下,需要简洁以保证读者的可理解性。研究的真正内容是研究过程中涉及的原始数据、处理数据以及附带的代码。在更深入,更完整的网络中,一篇文章会与其数据集相连,同时数据集会与引用这篇文章的其他文章相连。
越来越多的数据与文章一起发表,所以其联系客观上已经存在。但研究者的文章和数据之间的联系还未公开记录,数据未得到重复利用。例如,2017年仅Dryad数据存储库就收到了4538个数据包。由于Dryad只接收与已出版文章相联系的数据集,因此在Crossref中应该产生4538个数据引用记录,尤其应该包含“被提供”关系来表明某数据集是由某篇引用文章产生的。然而,在Crossref中(不仅仅是2017年)总共有4752个数据引用,其中PeerJ学术期刊占3804,eLife科学期刊占另外678。对应的PeerJ在Dryad中有69篇文章,eLife有210篇,所以还有4473篇文章和数据集间尚未建立联系。
这其中的障碍在哪里?出版商们当然非常配合,从以Wiley和Elsevier为代表的众多出版商实施《数据引用原则联合声明》这一点上可以看出来。
其中一个障碍是语义问题。由于参考元数据总是会传递给Crossref,因此在Crossref中链接文章及其相关数据集最简单的方式就是研究人员自己引用自己的数据。然而,作者(和期刊)往往对此感到困惑,为什么不引用数字或表格,而要引用数据呢?除非出版商和期刊能重新指导学界始终引用他们自己的数据集,否则这种方法似乎不太可行。除了重新指导作者之外,出版商可以要求排版人员必须确保引用元数据始终传递给Crossref。生产系统变得越来越复杂,因此文章和数据集链接的自动识别和管理确实非常必要。当然,这种额外的排版工作需要额外的资源支持,这也是为什么它还没能实现的原因。但出版商非常了解数据引用协议,因此“缺乏资源”实际上不是充分理由。
为什么数据引用不能成为优先事项?对出版商期刊的引用可以增加影响因素,从而提高最终收入,因此让排版人员仔细策划文章引用会起到激励作用。正如前面所提到的,没有开放数据这样的激励存在,数据集和文章之间的良好链接就无法为增加收入提供明确路径。因此,在排版阶段投入额外资源以保证数据引用的正确是一项必须推行的事情。
忽视数据引用是目光短浅的。有着强大的资助,开放科学才会逐渐有动力。很快,重新使用已发布的数据将变得司空见惯。期刊或出版商将会得到额外的引用功能,例如可以重复使用大量数据集,他们的文章和数据之间也会建立良好的联系。此外,数据引用有一天可能成为期刊绩效指标(因为开放数据的论文往往更加强大,对研究界更有用),数据标准较弱的出版商将会被淘汰。
Crossref的成功证明了学术出版能够摒弃商业差异并造福所有人,每个人需要做的是将引文网络扩展到数据集。首先出版商要推动在参考文献中建立数据引用,并在排版阶段对其进行适当标记。其次,引用了数据集DOI的文本和数据可用性声明需要被标记,这样文章及其数据集间的链接对于Crossref就是可见的,并且作者可以获得存储其数据的权限。这两个步骤只涉及生产协议的改变。对出版商来说是一小步,对整个开放科学来说则是一次巨大的飞跃。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 21:05
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社