英论阁Enago官方博客分享 http://blog.sciencenet.cn/u/Enago

博文

甄别出版中的数据检查和数据共享两个不同概念 | 英论阁Enago

已有 1075 次阅读 2022-12-28 10:15 |个人分类:学术科研|系统分类:科研笔记

在带有互联网数字化技术深刻烙印的信息时代,学术出版业正在经历两个重要的运动,一个称为开放获取(Open Access,简称OA),另一个称为数据共享(Data Sharing)。了解这两个运动的原因和关系,对于广大科研人员具有重要的现实意义。

从系统工程的观点来讲,一个产品或事物通常可以用质量和成本衡量其属性。例如,发动机产品包括四大属性,分别是性能、耐久性、封装性、成本。前三个属性综合起来即构成质量。成本加上利润就构成价格。纵观学术出版这一事物,它的所有运动其实也都是围绕质量和价格这两个元素进行的。运动不一定就是正确的,它只是代表一种时代声音或潮流。正确辨析学术出版运动中的正确因素和错误,了解它们的来龙去脉,是每个科研人员应当具备的能力。

当出版行业产生了垄断集团和价格暴涨现象后,就爆发了开放获取运动,即期刊订阅用户由于不满订阅价格的持续巨幅增长和出版商利润的暴增而奋起反抗,以拒绝缴费订阅的方式抗议,并倡导期刊免费向公众开放。这一行为造成出版商从订阅用户那里收不到钱,转而向作者收取OA期刊的昂贵版面费(或称论文处理费),给广大论文作者造成了不公平的境遇。

当学术出版中频繁出现数据造假或无法实现可再现性时,为了增强出版质量,期刊要求作者补充数据和方法信息,以便让同行评议审稿人和读者检查监督,这称为数据检查(Data Checking)运动。遗憾的是,作为期刊质量控制的数据检查运动莫名其妙地被数据共享运动所混淆,以至于目前所谓的“数据共享”其实包含两方面含义:数据检查,数据共享。实际上,这两方面的目的截然不同,应当视为两个不同的运动。

数据检查运动的目的是为了便于审稿人检查数据而防止数据造假,以及便于读者找到充足的数据和方法信息而能够复现论文的结果和结论。由于数据检查运动的目的是提高期刊论文质量,期刊有权强制性要求作者上传提供充足的数据备查。多数作者也对这一合理要求表示理解并能够予以配合。至于备查的数据格式和说明,如果在论文里面已经标记注释清楚,对于作者来讲并不是很大的数据管理负担,例如期刊要求作者上传全部图表对应的Excel格式的数据。有证据表明,带有数据检查要求的论文比没有这种要求的论文能够获得更多的被引用次数,原因大概是由于人们认为经过补充数据检查的论文更加可信。

数据共享运动的目的是为了把论文中没有发表的数据拿出来给别人用,以便全世界不再为相同或相似的科研项目支付经费而节省资金,或者以便让别人有机会做出自己尚未做出或没有能力做出的科研结论。数据共享运动的这两个目的在正当性上是非常有争议的。而且,在不谈数据共享报酬或回报的情况下奢谈这两个目的,就是在假设每个人都具备非常崇高的觉悟和全世界没有科研竞争的压力。因此,目前的数据共享运动基本上就是一个无法实现的、脱离实际的、乌托邦式的狂想。

下面仔细分析数据共享运动的这两个目的。在全球范围内为了实现科研经费节约而共享数据,其主要论据是“所有纳税人有权利使用当初用纳税人的钱资助产生的科研数据”。申请科研经费的目的是为了创造数据。对于公共基金资助的科研项目,杜绝科研经费重复使用和浪费当然是一个美好的想法。但是,要想实现它,需要以下四个机制予以保障,才能让人敢用、能用、自觉用、用得起。

第一,共享的数据必须具有防伪造篡改的第三方监督认证资质,以便所有人都能够放心使用而不会无辜背负学术造假的恶名。
第二,共享的数据必须具有标准完整的说明,包括试验方法、材料、设备、流程、输入和输出的参数数值、假设条件等,以便所有人都能够像数据产生者那样准确无误地使用数据。这要求共享数据的提供者必须具有源动力、自觉性和纪律性以及可遵循的标准化流程。源动力和自觉性来自共享数据后能够获得报酬、作者署名或致谢。纪律性来自科研项目验收时对共享数据的检查机制。
第三,需要建立一个全球化检索系统,查找经费申请人所申请的科研项目是否过去已经被别人发布过共享数据。发布过的就不予经费支持。这就好比论文查重,能够防止用过和没用过共享数据的人去申请重复的科研经费。
第四,消除数据共享的储存成本。将数据(尤其是大规模原始数据)储存在公开数据库的费用可能很高。在版面费高居不下的今天,向作者身上强加数据共享储存费用,无疑是雪上加霜和不道德的。有人提出作者通过贡献共享数据来换取版面费的豁免。但是,有些期刊没有版面费,而有版面费的期刊从赚取版面费改为售卖数据,会在期刊、作者、读者之间形成一个新的复杂收费——共享数据使用费。

由此可见,这四个机制目前在国内外是完全缺失的,而且构造的难度极大。因此,与其总是呐喊空谈数据共享,不如脚踏实地多谈一些如何逐步建立这四个保障机制。上述分析是针对公共基金资助的科研项目的数据共享。对于私有资金(例如企业资金)支持的科研项目和政府的机密项目,当然不能实现数据共享,而必须强调数据保密。

为了让别人有机会做出自己尚未做出或没有能力做出的科研结论而共享数据,即公布自己的数据让别人拿去有机会发论文,这要求从科研成果评价体系中彻底废除竞争制度和对论文的质量和数量要求,才能使得数据共享者没有私心地、对数据不做手脚地、诚实主动地共享数据供别人使用或“为别人做嫁衣”。很多研究人员的资金有限,所以他们尽可能从同一组数据中产出很多篇论文。如果共享数据,他们重复利用数据的机会就势必变小。所有做过科研的人都明白,标记不清或篡改数据是一件防不胜防的事情,必须依靠自觉的学术道德和有效的监管检查机制才能防止。生存的压力、竞争的机制、人的私心、追求公平公正是目前全世界无法消除的东西。抛开这些因素而不谈共享数据的回报机制,是天真的、不现实的、不道德的做法。对于公共基金资助的科研项目来讲,数据制造者目前并没有从项目经费中获得足够多的劳务报酬以至于他们有义务共享自己制造的数据无偿给别人使用。很多数据是花费了很大的人力物力获得的,包含很高的经济价值。很多作者担心共享数据后不能获得回报或甚至不被通知,而且当然不愿意让别人不劳而获。另外,反对共享数据的人有一个比较充分的理由,即如果强迫一个不愿意共享数据的人去公开数据,那么这种数据是不可靠或不完整的;如果他愿意共享数据,所有人其实可以随时联系他索取数据并商谈合作条款,而并不需要他在无人索求时先主动把全部数据都交出来,即主动共享数据其实是没有必要的。因此,与其总是奢谈共享数据去无私支持别人发表论文,不如多谈一些如何设计一个全球化机制让所有人都能够公平地从数据共享中获得知识产权报酬或回报。如果在配套机制不到位的情况下,基金会或期刊强迫作者们共享数据,那么势必会造成共享数据的蓄意破坏甚至恶意作假。总之,只有当公平解决了数据所有权和数据格式标准化问题后,数据共享才是一件正确的并能够实现的善事。

关于数据检查和数据共享的期刊实践,PLOS的做法颇具代表性。PLOS相信数据检查便于复现研究工作,数据共享便于产生新的再分析结果。PLOS要求论文作者必须在投稿时递交最小数据集,它包含元数据和复现研究工作时所需的数据;并澄清说无需提供研究时搜集的所有原始数据,而只需提供与研究相关且重要的基本数据。PLOS要求将数据提供在论文或补充材料中。如果数据储存在公开知识库里,则须提供链接或存取信息。

需要指出的是,有些作者是积极参与和支持数据共享运动的。目前数据共享的方式有两种。第一种方式是把研究数据发表在“数据期刊(data journals)”,例如Nature 旗下的Scientific Data、Elsevier旗下的Data in Brief、BMC旗下的GigaScience。数据期刊目前越来越普遍,专门发表数据而非论文,发表的内容包括详细的数据收集处理方法和软件选择等。数据期刊并不对数据进行分析和检查,而是为同行评议和引用提供原始数据。发表在数据期刊上的文章可以被独立引用。第二种方式是把研究数据上传到数据库,例如Elsevier出版社的Mendeley Data免费数据存储库。它能存储来自所有学科的开放数据,无论其格式,包括原始数据、处理数据、表格、代码、软件程序等。上传到数据库的数据会被赋予一个可以被独立引用的DOI号码,并且链接到期刊的相关论文,使读者能够轻松查找和重复使用共享数据。其余的著名数据共享存储库包括Zenodo、DataCite、Dryad、Figshare。

综上所述,开放科学(Open Science)从资源共享、合作共赢的理念上讲是具有进步性和值得提倡的。但是,脱离全球化利益保障机制而空谈开放合作甚至设置强制性不合理要求,无疑是乌托邦式的幻想,同时在科技伦理上也是不负责任和不道德的运动。另外,需要注意数据检查和数据共享是两个不同的概念,需要甄别对待。


*学术道路中,论文发表的语言难题就交给英论阁博士硕士学科专家,2000+名母语编辑、平均19.4年经验,为您的SCI发表之路保驾护航!科学网读者专属润色9折

SNbanner__2022-12-28+09_41_37.jpeg

英论阁英文润色 术翻译  期刊投稿支持

请关注英论阁微信公众号
EnagoChina

image.png

更多科研出版干货就在
SCI论文学术交流平台
EnagoAcademy


EnagoSubscription.jpg




https://blog.sciencenet.cn/blog-681387-1369464.html

上一篇:【免费网课】母语人士如何修改一篇科研论文 | 英论阁Enago
下一篇:试验研究设计的三种类型和十大误区 | 英论阁Enago
收藏 IP: 221.216.117.*| 热度|

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2023-6-7 13:49

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部