数字科学交流团队分享 http://blog.sciencenet.cn/u/dsc70 武大

博文

驾驭漂移:数字科学记录的持久性挑战和dPID的前景

已有 1555 次阅读 2024-4-15 11:27 |个人分类:STM出版|系统分类:海外观察

引用本文请注明出处

作者:Christopher Hill, Philipp Koellinger, and Erik van Winkle

译者:丁晓

校译:檀湘琦

来源:https://scholarlykitchen.sspnet.org/2024/03/14/guest-post-navigating-the-drift-persistence-challenges-in-the-digital-scientific-record-and-the-promise-of-dpids/

互联网上的持久性:一个全球性问题

对于科学记录数字版本的需求已成为共识,但问题在于,目前互联网的功能无法很好地满足这种需求。除了链接中断的问题,还有内容漂移(content drift)的问题,即URL解析后不再链接到最初的内容。Jones等人(2016年)的一项研究表明,链接失效或内容漂移影响了ElsevierarXivPubMed Central语料库中几乎所有的互联网参考文献。参考文献年代越久,问题就越严重。1997年的URL如今几乎都已失效(见图1)。即使是只有三年历史的URI参考文献,也有50%受到链接失效和内容漂移的影响。

image.png

1 来自Jones et al. (2016), Scholarly Context Adrift: Three out of Four URI References Lead to Changed Content, PLOS ONE, 11(12).

在这篇文章中,我们将讨论当前解决现有互联网技术缺陷的方法,找出仍然存在的瓶颈,并提出解决方法。我们在此讨论的对科学记录主干网络(backbone)的升级将大大有助于解决复制危机(replication crisis)以及出版商在发现虚假研究方面面临的日益严峻的挑战。

持久标识符:DOI面临的挑战

当然,互联网的持久性问题是众所周知的。目前的解决办法是为数字内容设置持久标识符(persistent identifiersPIDs),PID能够实现(人们对科学记录的)长期引用和访问。数字对象标识符(Digital Object IdentifierDOI)系统的开发提供了学术记录数字版本的PID解决方案,并且取得了巨大的成功。

DOI已成为学术信息PID的事实上的标准,甚至有人认为DOI是合法科学的保证(其实不然)。出版物、预印本、科学数据集和其他学术内容的DOI注册量已超过1亿。DOI对于学术数据库和索引服务(如Web of ScienceScopusDimensions等)至关重要。

然而,我们目前用于识别和解析学术内容的“黄金标准”(gold standard)仍未达到理想的持久水平。一个真正的PID应该始终解析出相同的结果,但DOI并非如此。根据KleinBalakireva2020年)的一项研究,约有50%DOI请求无法解析到目标资源。该研究详细说明了DOI请求行为在不同网络中的不一致性:当用户在使用电脑和使用手机尝试解析DOI时,可能会得到截然不同的响应。

对于出版商来说,获取、更新DOI记录也是一项繁琐而昂贵的工作。CrossRefDataCite都有类似的收费方案,即创建的DOI越多,收费就越高。如果出版物的URL发生变化,DOI出版商就负有更新DOI数据库的责任,但并非所有出版商都能始终如一地快速更新。换句话说,DOI系统依赖于平台运营商和PID提供商之间难以强制执行且价格高昂的社会契约和信任,这就限制了DOI系统的可靠性和可扩展性。

此外,在未来潜在的FAIR(可发现、可访问、可互操作、可重用)科学世界中,包括发表的手稿在内的每一件研究成果都需要一个全球唯一、持久、可解析的标识符。为实现这一目标,在未来十年内必须产生数万亿个PID,并需要维护数万亿个PIDURL的映射,这在目前的DOI系统中是难以想象的。

随着DOI的爆炸式产生(或者是更糟糕的DOI发行的紧缺),链接失效、内容漂移、科学记录(手稿、数据、代码等)碎片化和解析不一致等问题也将愈发普遍。不采纳FAIR科学的社会成本甚至会更高:欧盟委员会的一项研究发现,仅欧洲经济每年因没有采取FAIR原则来规范研究数据而付出的代价就超过100亿欧元。这一估算还不包括对研究质量、技术进步和经济增长放缓的不利影响。

dPID:分布式生态系统的分布式架构

目前,针对这些问题的技术解决方案已经被开发出来,但尚未在科学生态系统中被广泛应用。在过去二十年里,一些开源社区和万维网联盟(World Wide Web ConsortiumW3C)工作组已经解决了互联网缺乏持久性的根本问题。他们的核心理念是“PID不应该询问这个位置存储的是什么内容”相反,应该询问“具有这个数字标识符的内容是什么?”对这样一个基础性问题的轻微调整就能产生深远的影响,从而推动确定性解析功能的实现。

确定性解析是指PID应保证解析到其索引资源。长期以来,确定性解析一直是一个难以实现的目标,但随着相关技术的成熟,这一目标终于有望实现。这种新型PID技术被称为去中心化持久标识符(decentralized persistent identifiersdPIDs)。除了确定性解析之外,dPID还具有许多令人惊讶的优点,可以大大改进科学研究的推进、传播和评估方式。

创建dPID的行为使底层内容可以在一个开放的对等计算机网络(peer-to-peer)上被提供,资源库、图书馆、大学和出版商均可参与内容的策划和验证。同时,在无需开发或使用基于API的服务的条件下,它还能在不同实体操作的不同服务器上存储具有相同标识符的冗余副本,同时自动维护和更新DOI记录。当资源库或期刊计划脱机或需要在不改变内容链接的前提下更换内容所有者时,dPID还提供了一种适当的方式来实现数据向新主机的过渡,从而增加了一种内置的保护内容方式,否则这些内容有可能永远丢失。

dPID不仅仅是单个文件的标识符,相反,dPID能够访问定位链接的文件夹结构,几乎可以无限拓展。这种文件夹结构中的每个文件都可以从基础dPID进行唯一定位,从而使数字研究对象将所有相关的项目片段(如手稿、数据、代码)链接在一起。dPID还具有可版本化功能,这意味着索引内容可以在不会覆盖原始版本的条件下随时间而改变。PID所有者会对更改进行记录、打上时间戳并进行数字签名,从而为对PID执行的任何修改提供可追溯和可验证的来源,同时确保旧版本的内容同样可解析。

dPID的可版本性和可追溯性使研究人员能够创建透明的跟踪记录,记录他们是如何进行科学研究并得出最终结果的,这与最佳开放科学实践保持一致,并有助于解决复制危机以及虚假研究给出版商带来的巨大挑战。编辑、审稿人和读者不仅可以看到提交的稿件本身,还可以看到稿件的整个形成过程,包括带有时间戳的分析计划、数据、代码、实验日志、草稿等。

具有持久性的解析还能让学者们只需一行代码就能直接通过dPID在其编程和计算环境中检索开放数据集,或者向托管数据的服务器发送容器化计算工作。后一种技术被称为边缘计算(edge-computing),对于不能公开共享的敏感数据集或超大型数据集尤为重要。例如,下载1PB的数据(如气候建模数据)可能要花费超过10万美元的出口费,即使在最佳条件下也需要几个月的下载时间,这对于资金充足的学者来说也是一个不可承受的负担。

虽然这在技术上很容易实现,但从01应用和推广dPID这一新的公共基础设施却很困难。幸运的是,我们可以利用现有的身份验证解决方案,而无需从0开始,即既可以重复使用现有的基础设施,又可以从其现有的网络效应中获得收益。这都得益于研究社区利用ORCIDOpen Researcher and Contributor ID,开放研究者与贡献者身份识别码)和RORThe Research Organization Registry,研究机构注册中心)在科学家及其组织身份验证层面所做的充分准备。

此外,将具有可信性的溯源与网络的开放性相结合,能使期刊、图书馆或数据管理人员随时间的推移添加新信息,不断丰富研究对象。这些dPID数据拥有丰富多样的性质:例如FAIR元数据(如本体和受控词表)、开放式同行评审报告、开放数据的数字验证徽章、可重复性等。这种方案有很多好处,包括为开放科学实践建立更好的衡量标准和激励机制。此外,由于在内容可寻址网络(content addressable networkCAN)上读写无需支付特定费用,因此可以确保公平访问,并可节省大量成本。

dPIDDOI的兼容性

需要注意的是,dPID是一种新的PID技术,而不是新的PID标准。这一点很重要,因为PID标准的泛滥并不可取。事实上,DOI可以将自身添加为dPID的同义词来“升级”为dPID。这样,DOI就可以简单地解析为链接到dPID文件系统的资源。这种向后兼容性不仅可以摆脱手动更新DOI记录的需要,还可以解锁上述新功能,使DOI真正具有持久性。单个DOI可以展开为完整的文件系统,为机器可操作的数字对象提供单个PID,并确定性地解析到其映射资源。

除了这些特性之外,dPID技术还有助于维护科学生态系统中所有利益相关者的自由和主权。平台运营商、资源库、出版商和图书馆都能控制其公开共享的内容。重要的是,dPID技术完全基于开源软件,任何人都可以在自己的硬件设备上免费运行。

dPID引起了PID界的极大兴趣。2023年国际数据周(International Data Week 2023)成立了一个dPID工作组,来自全球各地的不同组织参与其中。该组织由DeSci基金会主办,旨在发挥自身作为推动力、社区枢纽和共享知识库的作用,并向任何有兴趣参与的人开放。

目前最为重要的是实现科学记录完全可由机器操作这一理想。科学数据作为研究的主要产出,其重要性日益显著,数据量迅速增长的同时,互操作性的提升也需紧随其上。随着人工智能和伪科学的泛滥,一份关于手稿来源和背景的可信跟踪记录显得弥足珍贵。鉴于其特性,dPID及其提供的确定性解析是值得探索的方案。

dPID背后的技术栈

为了让读者深入了解技术细节,在此简要介绍一下dPID所基于的核心技术。这些协议和基于软件的解决方案已经与万维网联盟(W3C)的正式规范一起被开发出来。它们是免费且开源的,任何人都可以参与代码的改进。

  1. IPFSInter Planetary File System,星际文件系统)允许通过内容标识符共享和访问数据。内容哈希值用于识别和解析每个文件。IPFS形成了一个内容寻址的点对点存储网络,允许用户根据实际内容的数字指纹来存储、检索和定位数据。该指纹由加密哈希函数(如SHA-256)生成,可将任何内容转换为固定长度的字符串。改变内容中的任何内容(如一个单词、像素、逗号)都会产生不同的哈希值。SHA-256可以生成1077种不同的哈希值,其数量是地球上原子数量的数十亿倍。因此,两个不同的输入产生相同哈希值的概率接近于零。由于所有数据都被保证具有唯一的指纹,数字内容可以通过不同的指纹来访问,因此不会发生内容漂移。此外,检查从IPFS网络收到的内容是否与哈希值相符也很容易,这也消除了从未知网络节点下载内容的风险。有了IPLDInterplanetary Linked Data,星际联结数据),IPFS不仅能处理文件,还能处理任意数据结构。这确保了手稿、数据、代码等科学记录或组织和个人PID之间关系的持久性。它还为减少科学记录的碎片化、获得更好的元数据和分析提供了可能。

  2. 去中心化标识符(Decentralized IdentifierszDID)。DID是用于可验证的去中心化数字身份的一种标识符。DID可以标识DID控制者决定的任何目标(如个人、组织、事物、数据模型、抽象实体等)。这种设计使DID控制者能够证明其对DID的控制,而无需任何其他方的许可,从而实现可信任的交互。

  3. 区块链技术创建了持久记录。区块链是一种分布式账本,其中包含通过加密哈希值安全链接的不断增长的记录(区块)。与区块链相关联的智能合约可在该加密分类账上自动记录IPLD文件夹结构的根哈希值,以及时间戳和更新记录的个人或实体的ID,从而创建高度持久、开放和可信的元数据。



https://blog.sciencenet.cn/blog-521339-1429753.html

上一篇:非营利性的学术出版也许并不会更便宜
下一篇:转换协议不起作用了,接下来会发生什么?
收藏 IP: 111.172.106.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-20 01:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部