Springer Nature 科研服务分享 http://blog.sciencenet.cn/u/SpringerNature 汇聚施普林格、Nature Portfolio、BMC、Discover、帕尔格雷夫·麦克米伦和《科学美国人》等深得信赖的品牌

博文

中国开放数据现状及其对基础设施、自动化和合作的影响 |《中国开放数据白皮书2025》 精选

已有 847 次阅读 2026-3-6 12:29 |系统分类:观点评述

本文摘自《中国开放数据白皮书2025》,原文作者:Graham Smith 施普林格·自然研究数据创新总监

开放科学已从遥远的理想愿景转变为可实现的期望,但《2025开放数据现状报告》(The State of Open Data 2025)显示,阻碍研究人员的并非缺乏开放理念,而是“意愿与实践之间的差距”。研究人员对开放科学保持强烈支持态度,同时对其实施方式提出越来越严苛的评判。这一点在中国尤为重要,因为中国的数据密集型、人工智能(AI)驱动的研究正快速发展,研究人员、科学机构和国家层面正在开发标准和平台以支持开放科学的下一阶段发展。

施普林格·自然(Springer Nature)在中国的开放数据合作策略基于一个简单原则:政策设定期望,但付诸实践需要基础设施保障、高质量的数据和科研评价认可。这与《开放数据现状》十周年报告提出的三项行动高度一致:

  1. 改革科研评价,弥合学术信用缺口;

  2. 投资于实用的、人工智能驱动的解决方案和互操作性;

  3. 按区域和学科协调,构建适用的支持系统。

查看并下载《中国开放数据白皮书2025》,了解详情

一、实用的 AI 驱动支持:让共享更容易、更具互操作性

报告的第二项建议强调,应从“政策密集型”方法转向“具体解决方案”,包括加强存储库集成、采用共享元数据和标识符标准,以及利用负责任的 AI 支持元数据创建、质量检查和规范化。Springer Nature 在这一方向采取了两种互补方式:

  • 扩展集成式存储库工作流程;

  • 试点 AI 驱动的指导工具,帮助作者在关键决策时做出正确选择。

其中一个案例是 Open Science Assistant。这是一款 AI 驱动工具,从稿件出发,帮助作者完善数据可用性声明和数据共享方案。它能够识别潜在的基础数据集,指出作者数据可用性声明描述中的不足,建议合适的共享选项,并协助撰写更清晰完整的声明。整个工作流程实现自动化与政策合规及编辑专业知识的结合,而非取代人工判断。这是一项重要的工作,因为不完整或不清晰的可用性信息仍是数据复用的障碍,也是作者和编辑团队的摩擦源。

报告同时指出,研究人员在数据相关任务中采用人工智能工具的速度正在显著加快,尤其是在数据处理与元数据生成方面。随着人机协作成为常态,重点不在于“更多 AI”,而在于构建基于信任和完整性的内容与工作流程,使开放数据更加无缝、互操作且可靠。

二、基础设施:规范共享标准并提升数据质量

报告强调,对数据共享实践的支持应包括期刊与存储库的集成以及统一标准,以减少作者负担并提高数据质量。Springer Nature 通过集成式存储库工作流程,使数据存储成为投稿过程中的内置步骤,而非额外任务。

自 2022 年以来,我们在 Nature 系列期刊实施了该举措,在完全自愿的前提下,约有 10% 的作者,超过 1,200 篇论文通过该集成路线实现了数据共享。这一实践证明可在无需新规的情况下推动有意义的行为改变。

值得注意的是,基础设施不仅关乎数据共享的数量。报告指出,强制性变革的风险之一是出现“数据倾倒场”,即数据虽被共享但不可复用。期刊到数据存储库的集成、统一的共享 标准和数据质量检查均有助于避免这一问题,通过鼓励更好的数据可用性声明、更清晰的共享链接和一致的元数据,将“可获取”转化为“可使用”。

三、数据出版:弥合数据共享的学术认可缺口

报告明确指出,应改革科研评价,使数据共享获得应有的学术认可,前提是共享的数据集可引用、可发现、机器可读和可衡量。调查显示,“学术认可缺口”仍是最大的结构性障碍之一:多数研究人员认为数据共享获得的认可过少。

数据出版在此发挥重要作用。数据论文赋予数据集正式的可见性和可引用性,创造更清晰的激励和认可路径。在中国,我们正与中国科学院计算机网络信息中心(CAS CNIC)及其通用数据存储库 ScienceDB 合作,探索相关举措,包括帮助识别合适的数据集,并支持基于 ScienceDB 共享数据集撰写和推广数据论文,降低作者工作量,同时强化数据生成工作的学术认可。

四、合作与区域协调:中国的实践

第三项建议强调,应按区域和学科协调,构建反映本地环境、学科规范和数据主权需求的共享基础设施、标准和培训。这在中国尤为重要,中国在数据共享标准和平台方面进展迅速,国家和机构层面的努力正在为 AI 驱动的研究生态系统奠定基础。

Springer Nature 在中国的工作以合作为基础,包括与 CAS CNIC 签署的谅解备忘录,以及与中国科学技术信息研究所(ISTIC)的持续合作(包括开放科学研讨会活动)。这些合作确保基础设施、自动化和认可机制符合本地需求,并能实现可持续扩展。

展望:从合规到赋能

在全球范围内《开放数据现状报告》得出明确结论:未来十年不在于说服研究人员开放数据的重要性,而在使将放数据可操作化,使其成为默认且高效的路径,并辅以实用的工具、可互操作的基础设施,以及认可高质量数据共享的激励机制。

在中国,这一发展趋势已在进行中。我们的目标是通过以下方式推动开放科学在实践中落地:

  • 为研究人员提供人工智能驱动的数据共享实践支持;

  • 强化能够统一共享规范并提升数据质量的基础设施;

  • 扩大数据出版,弥合学术认可缺口;

  • 通过长期合作在中国研究生态系统中构建以上举措。

点击下载《中国开放数据白皮书2025》报告,了解更多内容



https://blog.sciencenet.cn/blog-3432244-1524637.html

上一篇:图解《自然综述》从实验室到临床的助攻之路:让科学发现惠及社会
收藏 IP: 183.194.158.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-3-6 17:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部