|
数据都必需被检查,并非每篇文章都需要同行评审
同行评审被认为是学术出版的金标准,但同行评议已经越来越吃力,这种建立在有限科研活动时代,纸质媒介发表规模限制时代的产物,今天可能已经到了需要彻底改革的时期。专家每年花费超过1亿小时进行同行评审并不能有效发现数据造假统计错误等基础问题,而有一些问题依靠软件和模式可以解决。
要修复同行评审,请将其分为几个阶段 (nature.com)
同行评审不是检测错误和有问题数据的最佳方式。专家审稿人很少,他们的任务很多,他们不可能彻底检查每篇文章的数据,尤其是在数据没有共享的情况下。美国Surgisphere 公司研究人员在2020 年撤回备受瞩目的 COVID-19论文等丑闻表明,结果未经证实的论文是多么容易从裂缝中溜走。
作为一名研究同行评审的元研究人员,我对人们对同行评议概念的模糊性认识感到震惊。这种认识将严谨性的评估与期刊中值得留出空间内容策划混为一谈。虽然严谨评估是保持科学记录直截了当的关键,但同行评议作为论文发表判断标准的做法是在印刷空间有限的纸质传媒时代形成的。
对于大多数论文来说,检查数据是否有效比评估作者主张是否合理更重要。是研究数据,而不是论文结论,将成为给定主题的证据基础。未被发现的错误或捏造的研究结果会长期损害科学记录。
我不否认专家评审对许多事情至关重要,但并非所有已发表的研究都需要由专家来审查。质量控制的许多唾手可得的技术方法完全不需要专家,甚至不需要人工都可以完成。只有在确认数据一致之后,才值得让专家们来评估论文的结论。如果让同行评审员浪费大量时间评审那些显然是数据错误的研究论文,这是多么可笑的事。但是这种情况现在已经司空见惯!
将同行评审分解为质量控制的模块化分步骤进行,可以改进学术发表的过程,同时减轻审稿员的负担。每篇文章都可以接受基本的检查——例如,所有数据是否可用,计算是否成立,分析是否可重复。但是,领域专家的同行评审将保留给引起社区兴趣或被期刊认真选择过的稿件。专家可能是评估论文结论的最佳人选,但每篇文章都引起他们的注意并不现实。更高效、更广泛适用的质量控制解决方案将使审稿人能够更有效地利用他们的时间,处理数据合理的论文。
一些基本的验证工作完全可以通过算法有效执行。2015年,荷兰的研究人员开发了statcheck,这是一个开源软件包,可以检查心理学文章中引用的P值是否与测试统计数据相匹配。SciScore 是一个检查生物医学手稿严格标准的程序,例如随机化、实验盲法和细胞系认证——已经筛选了数千个 COVID-19 预印本。GRIM,SPRITE和Carlisle方法等测试已被用于标记临床文献中数字不一致的结果。
分步骤同行评审并不是一个新想法,但其实施仍然受到缺乏数据标准化的阻碍。自动化方法在非结构化文本或表格上运行时的准确性和效率受到限制。例如,Statcheck之所以能够完成它的工作,是因为美国心理学会有一个广泛使用的描述统计结果的惯例。
这种标准化审查方式,目前仍然是少数例外而不是规则,可以更广泛地应用于数据、代码和元数据。当这些以系统格式共享时,检查它们变得比审查文章的劳动强度更低。据估计,专家每年花费超过1亿小时进行同行评审;如果他们抽出一些时间来就如何在他们的领域构建数据达成一致,他们可能会对质量控制产生更大的影响。
尽管如此,检查数据并不能保证它们是按照报告收集的,或者它们代表了观察到的公正记录。为此,认证必须向上游转移,从结果到数据采集——而不是仔细审查手稿,质量控制应该针对实验室和设施,正如提高临床前数据质量(EQIPD)等框架所建议的那样。这可以提高结果的透明度和信任度,并为防止错误而不是发现得太晚留出空间。
大多数流程级质量控制仍然处于闭门状态,但一些社区已采取措施改变这种情况。例如,基因组学中的各种联盟为数据收集和元数据设定了集体标准。粒子物理学长期以来一直由独立团队对数据进行盲分析。可重复性中心,如柏林夏里特医学院的QUEST中心已经建立,以监督其机构中多个研究小组的过程。
除非机构和资助机构给予它们目前通过期刊同行评审享有的地位,否则这些系统性的努力不会成为科学过程的组成部分。如果这些组织奖励研究人员对其结果的特定方面进行认证,他们就可以为这种模块化服务的蓬勃发展创造一个市场。
从长远来看,这可能会使科学论文更值得信赖,并且可能比目前的系统更可行,在目前的系统中,同行评审消耗了研究人员数亿小时,但收效甚微。为了最大化利益,质量控制应该针对数据和过程,然后再转向文字和理论。辨别哪些数据是有效的是科学的基础,应该通过系统的方法而不是专家意见来处理。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 04:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社