国际科学编辑isechina的官方博客分享 http://blog.sciencenet.cn/u/isechina

博文

数字学术记录正处于危险之中

已有 631 次阅读 2024-4-28 18:14 |系统分类:科普集锦

在过去,学术记录的保存依赖于由不同机构在多个地方存档的实体印刷出版物。原则上,这适用于数字保存,许多组织致力于保存学术记录。然而有证据表明,目前的数字存储标准可能无法确保学术作品的持续准确记录,这令人担忧。

我们已经习惯了学术记录的数字化可用性。现在几乎所有的学术期刊都可以通过电子方式访问,它们在网络上的可用性被认为是理所当然的。然而,如果我们不能持久地访问这些资源,那么问题就来了。

作为Crossref的首席研发人员,笔者进行了一项实验,以确定数字存储的数量。为了确定土地的真相,我们查看了750万份doi,并将它们与主要学术档案的公共记录进行了对照:Cariniana, CLOCKSS, HathiTrust, Internet Archive / FATCAT, LOCKSS, PKP PLN, Portico和Scholars Portal。

大多数这些存档只指定它们保存了一卷或一期,而不是一个特定的条目,因此我们必须在工作本身的元数据和存档提供的容器级信息之间进行协商。最令人担忧的是,32.9%的Crossref成员在使用我们的数据集时,似乎没有任何适当的数字存储,这与Digital Preservation Coalition的建议背道而驰。

当然,这些档案并不全面。我们检查的材料完全有可能出现在其他地方,比如Figshare。许多材料也存储在“绿色OA”机构存储库中。

然而,作为一个起点,这些档案提供了相对较好的覆盖范围,并使我们能够评估情况。我们的研究结果揭示了一个数字化未来岌岌可危的学术格局。

在我们研究的3个或更多的档案中,只有0.96%的Crossref成员被检测到保存了75%以上的内容。8.5%的成员似乎在2个或更多的档案中保存了超过50%的内容。然而,57.7%的成员只达到了我们可以检测到的单个档案中有25%的材料的阈值。

图1:Crossref构件的保存状态

当我们看出版物本身而不是成员时,情况也好不到哪里去。在7,438,037件被检查的作品中,有2056492件作品(27.64%)似乎没有保存下来。13.98%的出版物被排除在外,要么是因为太新(发表于当年),要么不是期刊文章,要么是因为没有足够的日期元数据供我们识别来源。

我们可以从这个数据集解决的另一个问题是:哪些类别的Crossref成员做得好?哪些还有改进的空间?

虽然我们可能期望在Crossref会员中收入最高、资源最丰富的出版商拥有最好的数字保存实践,但只有Elsevier在这一类别中得分。与此同时,“较小”的成员(即使是出版收入为5000万美元的成员)的情况也更糟。年收入低于100万美元的出版商很少拥有最高水平的稳健数字保存。相当一部分(约28%)具有doi的学术期刊文章似乎完全没有保存下来

那么,我们能从这项工作中得出什么结论呢?

事实上,数字存储是一项持续的活动,而不是一次性工作。虽然存储缺陷不太可能在不久的将来得到解决,但现在采取行动将改善这种情况,并有助于保护数字学术记录。

作者简介

Martin Eve教授:

Martin Paul Eve, Crossref首席研发人员,伦敦大学伯克贝克分校文学、技术和出版教授。



https://blog.sciencenet.cn/blog-3387871-1431854.html

上一篇:【CVIA综述】经皮三尖瓣介入治疗/从解剖结构到器械研发和临床研究
下一篇:【CVIA社论】女性怀孕史在评估心血管风险时的重要性
收藏 IP: 49.73.14.*| 热度|

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-13 05:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部