博文

问学者们：提高同行评议中的信任

已有 5599 次阅读 2020-11-15 10:11 |个人分类:科学交流|系统分类:海外观察

引用本文请注明出处

作者：ANN MICHAEL, ROBERT HARINGTON, RICK ANDERSON, TIM VINES, JASMINE WALLACE, LETTIE Y. CONRAD, DAVID SMITH, HASEEB IRFANULLAH, CHARLIE RAPPLE, KARIN WULF, ALICE MEADOWS, PHILL JONES, TODD A CARPENTER

译者：田峥峥校译：罗婷

来源：

https://scholarlykitchen.sspnet.org/2020/09/17/__trashed-2/

下周是2020年同行评议周。询问学者们一个有关同行评议的问题已经成为我们的传统。2016年，我们问了关于“同行评议的未来”；2017年，我们想知道“同行评议是否应该改变”；2018年，我们考虑“同行评议的多样性”；去年我们探讨了“不同主体如何评价同行评议的质量”。

今年的主题是“同行评议中的信任”，所以我们向一些专业人士咨询：什么会提高同行评议中的信任？

Robert Harington: 有许多交错的因素有助于提高同行评议中的信任，我想强调的是存在于科学类和数学类期刊中的一个因素——双盲同行评议。

科学和数学领域的大多数期刊都采用单盲同行评议，审稿人知道作者的身份。期刊采用双盲模式可减少同行评议过程中的偏见。虽然在相对较小的领域或学科，利益相关者完全有可能弄清楚谁是谁，但双盲同行评议引入了一个暂停键，这在本质上应该有助于评审人员和编辑克服无意识的偏见。

在考虑无意识的偏见时，我们实际上是在讨论作者身份中某些可能会影响，甚至是无意识影响审稿人对作者作品反应的部分，例如国籍、种族（或阅读名字时推测出的种族）、知名度、资历、机构声誉等。确实很难想出不采用双盲同行评议的原因。

我听到的争论可以归结为“质疑是否存在需要解决的问题”，因为采用双盲同行评议需要付出额外的努力。在数学领域，有些人可能会争辩说那些在特定研究领域的人身份已知，或者可以通过预打印平台arXiv被辨别。在我的书中，消除哪怕是最轻微的无意识偏见都是必要的，因此，虽然我理解在提及改变时要谨慎，但这改变是为了响应一个基本认识，即“我们都容易受到无意识偏见影响”。双盲同行评议帮助引导我们走向一个更公平的发布途径，且增加了同行评议中的信任。

Rick Anderson: 我想我会很痛苦，我在这个问题的前提下往后退一点：之于同行评议，信任多大程度上是一个需要解决的问题？我知道有很多人在质疑同行评议的必要性、有效性和可信性，但根据我的经验，这些声音不是来自科学研究群体的核心之外，就是处于其边缘。当然，这并不是说主流科学群体中没有人质疑同行评议的可信度，但是根据英国非盈利科普组织“科学的意义”（Sense About Science）的2019年同行评议调查，有90％的研究人员认为同行评议可以提高研究质量，有85％的研究人员认为同行评议在保持对科研成果发表的适当控制上至关重要。

因此，我认为我们需要弄清楚的是，整个学术界和科学界是否真的存在同行评议的信任危机。如果是这样，那么我们需要找出是什么导致了这场危机。我认为这些问题的答案将在很大程度上帮助我们找到解决信任危机的方法——当然，除非它们告诉我们这场危机已经被严重夸大了。

Tim Vines: 同行评议就像公共交通工具，没有人真正喜欢使用它，但是大多数用户勉强承认它对文明社会至关重要。当然，无论如何，总是会有讨厌它的人，他们可以在Twitter这样的平台上做很多事情来削弱民众的支持。进行彻底的改革，以解决厌恶者的抱怨并不会有好的结果，因为厌恶者很少能充分了解过程的细节，并去推荐可行的变更。就好比用电动代步车代替所有的公共汽车，电动代步车在阳光普照的圣地亚哥非常好用，但在遇到一些陡峭的山坡和大雪时，它们便很快不再令人感到愉悦了。

也就是说，从业人员可以做很多事情来防止对同行评议品牌的自我伤害。总的来说，我们知道我们需要做什么：使同行评议最一致、更具帮助性、更严格。太多研究人员（特别是在医学和生命科学领域）在实验设计和统计方面是很糟糕的，因此，如果没有合适的统计学家的认可，包含数据的文章不应被接受、发表。这是一件很棘手的事，即使是在权威期刊上，也有太多有致命缺陷的文章被发表了。仅靠人力，我们无法实现普遍的统计审查，因此我们需要更好的自动化系统来划分出统计有缺陷的文章，并需要更好的系统来提高可重复性。

期刊还需要能够拒绝更高比例的文章，不必担心受到出版商和最终付费订阅图书馆的强烈抵制。更好地传达少量好文章之于大量不好文章的价值的讯息将会对此有所帮助。出版商还需要在未彻底进行同行评议流程的期刊的审计和改革中扮演更积极的角色。在开放获取方面，从更注重文章录用和发表的文章处理费转向更注重优质评议体验的投稿费用也将是一个至关重要的转变。最终，当每个研究人员都拥有出色的审阅经验（无论结果如何）时，同行评议中的信任就建立起来了；我们需要做的就是使它成为规范。

Lettie Conrad: 信任是出版商与用户群体关系中一个微妙的组成部分，尤其是当我们依赖价值和信誉的交换时，它对完成我们的核心使命或目标至关重要，同行评议也是如此。出版商相信编辑能够促进高质量文章产生；审稿人相信作者能够提供可靠的想法与分析；作者相信每个参与其中的人都能诚实地开发与展示他们的作品。论及对产生忠诚和诚实的同行评议互动的支持，我想到的是可以通过令人愉快的、富有成效的数字信息体验来建立和维持这些编辑关系中信任的机会。

这需要记住研究过程中的人为因素，并提供个性化的、省时的互动方式。同行评议中的信任包括关注我们投资于（或未投资）编辑、作者和审稿人关系中大大小小的方面。我们是否有机会以一种表示尊敬的方式与我们的期刊进行交流？我们是否认识到我们只是用户所遇到数千个界面中的一个？我们是否在努力为忙碌的专家节省时间、减少其沮丧感？我们可以通过一些小的、日常的举动来提高同行评议中的信任，比如清晰的沟通、对评审过程中出现的任务进行标记。

当然，确保道德审查的政策和程序是基础性的。但是，当建立评审工作流程时，建立和维护信任应该成为我们为作者、编辑和审稿人设计的数字体验的一部分——也应该被视为我们日常工作的一部分，以此促进科研交流生命周期的发表阶段。作为一个在日常学术活动中身居作者、编辑和审稿人之职的人，我已经开始投资那些在整个发表过程中对我的工作表示尊重并感到信任的期刊。

David Smith: 我想答案取决于提问者的问题。

在这里，我个人关心的不是审稿是否应该匿名或诸如此类难解的程序性讨论，

而是事实上，在提高研究成果的信噪比方面是否存在一个更为根本的挑战：“坏演员”。

我一直在关注Elizabeth Bik（她的Twitter账号@MicrobiomDigest和博客Science Integrity Digest）和她已发表研究中对图像操纵的研究。坦白地说，她的发现确实非常令人担忧。她有一些明显是操纵研究结果的例子：凝胶、细胞图像、污点、图、图表、信号痕迹，你所能够想到的，她都有例子。这些例子无法用好的且清晰的结果来解释。在我看来，这些是个人或者可能是团体故意从事科学欺诈的例子。而这些虚假的研究结果，或者说是虚假的科学，正在被纳入各个级别的期刊中。

同行评议目前还不能处理这个问题，因为它建立在同行们真诚展示他们研究的前提下。期望评议者成为识别这类操纵的专家是不现实的。而且，从总体上看，我们目前缺乏处理这类不诚信行为的工具。这个问题需要被解决。我个人认为，被发现从事这种行为的学者应该被永久性禁止以后参与学术研究，但这样的立场需要到位的工具和过程，以坚定和公平地检查这类行为并在正确的场合实施惩罚。如果这个问题得不到解决，我们就会面临一个腐蚀科学文献内核的大问题。这就相当于精英运动中的兴奋剂——如果你不能相信你所看到或理解的是真实的，那么所有这些的价值都会受到质疑。正如今年反复表明的那样，我们不需要更多这类的事情了。

Haseeb Irfanullah: 学术出版是完全关于信任的。编辑相信作者会提交真实的研究用于发表。作者相信编辑会将稿件寄给有能力的同行评议人。编辑和作者相信同行评议人会提出建设性的、公正的建议，当然，也会准时将评议人的评论发出去。评议人相信作者会感激他们的评论并采取相应的行动。而且，一个同行评议人也相信世界上某个地方的某人会审阅他的手稿，就像他志愿为不知名的同行研究者做同样的事情一样。

那么，在一个如此基于信任的系统中，我们为什么需要在同行评议过程中讨论信任呢？没有同行评议的掠夺性期刊、已发表论文的撤回以及研究中的“复现性危机”都是动摇我们信任的罪魁祸首。

然而，所有这些问题都需要学者、他们的机构和学术出版商来解决。我们可以让他们意识到这些问题，我们可以构建他们的知识体系、专业知识和技能来避免破坏信任，如果他们不遵守，我们甚至可以惩罚他们。

但是，如果放眼学术界之外，非学术的大众了解同行评议的过程吗？他们会感激同行评议人为真实、可信的研究提供的服务吗？

2019年8月，皮尤研究中心(Pew Research Center)的一项调查显示，美国民众对科学家的信任度低得令人不安。就研究结果而言，如果数据公开，约60%的美国人会更信任研究结果。超过一半的受访者表示，由独立委员会审查的研究结果更值得信赖。

出于专业原因，在过去的12年里，我一直在关注气候变化方面的演讲。我们已经看到并且现在还在看到，政客、石油公司、甚至政府如何通过展示相悖的研究结果来进行宣传，以证明气候变化是一个神话。我们还看到，在这次COVID-19大流行期间，科学证据被最高领导人忽视、甚至嘲笑。

所以，当我们讨论如何去提高同行评议过程中的信任时，我们也应该问问自己如何提高对研究和研究人员的信任。我们需要不断地教育和再教育人们为什么我们需要依赖科学过程，尽管它们有局限性和不确定性。而且，如果我们不能让科学家引导我们的政府，我们至少应该让一些能够根据科学证据采取行动的政治家掌权。

Charlie Rapple: 我绝不是同行评议方面的专家，就已经取得的改进而言，我可能远远落后于时代。我在自然科学领域尤其没有同行评议的经验。但是，从我发表和评议过的“行业期刊”的角度来看，我思考了两个可能的改进：提供给审稿人一份清单，并将该清单与文章一起发表，以及表明审稿人评审经验/资格的信息。

该清单既可以指导评议人，又可以告知作者/读者评议的范围和性质。例如，几年前，我与他人合作了一篇文章，总结了我参与的一项市场研究。它包括许多调查结果（X％的受访者说Y）和解释。我们没有为评议提供数据，因此，审稿人可能会凭借信任度审核数据——诸如此类的事可能要被作为“评议本质”清单的一部分被强调——“本文中的数据点是否得到了验证？”

这些年来，我还评议了几篇文章，并从那些审阅过我自己文章的人那里（非常感谢你们！）学习。作为一名审稿人，我变得更加严格了。我质疑数据点，质疑解释，建议修改措辞，将观点或推论与数据的实际显示分开。回想起我所审阅过的最早的文章，我并没有这样做。我不知道我应该这么做！一个清单本可以引导我提供一个更严格的审查。

就审稿人的经验而言，我认为作者/读者和编辑都会从审稿人受到的良好“训练”中受益。当我开始评审的时候，我根本没有接受过培训。我收到了“给审稿人的笔记”，但这些更侧重于解释流程（如何采集和提交你的反馈），以及诸如排字规格这样的东西。我对一个“好”的评议的理解来自于我收到的对自己作品的评议。也许有些期刊会把训练潜在的评议人作为一件理所当然的事？如果是这样的话，将它与任何自主研究一起披露出来就太好了（比如同行评审认证平台Publons Peer Review Academy提供的）。Publons可以很好地提供有关审稿人经验水平的一些信息（例如：完成了多少评审，有多少不同的头衔，超过了多少年）——我认为如果可以列出“培训/资格”，并在每篇文章旁边公开（匿名，如果需要的话）该信息，这将是有益的。

Karin Wulf: 对于作者、他们的同事、编辑、审稿人、出版商、传播者和公众来说，信任是整个评审过程中的镇定剂，要单独找出一件能改善它的事情是非常困难的。也许是这个“大流行”年过于猛烈，但从我的视角来看，有一件事情可以增进信任，即它提醒我们所有人，我们是多么依赖彼此，多么依赖彼此的专业知识，来完成我们的工作和增进知识。从一个审稿人的角度来看，当编辑就我的评审与我交流的时候会帮助我想起自己在这个过程中的角色。不总是这样，但编辑通常会让审稿人知道提交的结果；有时他们甚至会（匿名地）总结所有的评议，这样我就能知道我的评议是如何做出贡献的。也许尤其是在胁迫之下，使您在过程中的位置清晰可见，突显了我们的相互依存以及相互负责和相互信任的重要性。

Alice Meadows: 我坚信提高同行评议（或几乎所有事情）信任的最佳方式是增加透明度。让人们更容易找到关于同行评议过程的信息，并确保信息清晰、准确和全面。我最近为几篇文章的科研发表选择做出了贡献和帮助，从我的第一手经验来看，至少对于期刊投稿来说，情况并非总是如此！

通常情况下，您必须进行非常艰苦的搜索才能找到征稿信息，而当您这样做时，它通常是冗长和充满专业术语的。当然，这也通常是针对作者的，但我认为，同样重要的是，如果不是更重要的话，读者也要了解他们正在阅读的研究是如何被评议的。有多少审稿人？他们是如何被选中的——是作者推荐的，还是编辑亲手挑选的，还是通过算法确定的？评审的最低要求是什么？是简单的复选框操作还是更为广泛的评审？不要仅仅认为开放同行评议是公开的就认为它是透明的！一方面，开放同行评议没有明确的定义，即使在一个出版商或期刊中，也可能有多种变化，例如，审稿人会被给予是否签署和/或发表他们评议的选择。作为作者和读者，这些只是我想知道的信息类型的几个例子。

我的优势是：1）我的母语是英语；2）我在出版行业工作过，所以对流程有很好的理解；3）我不是在技术领域工作，那里的指导原则可能要复杂得多。对于许多（如果不是大多数）作者和读者，情况并非如此！最后但并非最不重要的是，我在这里使用了期刊出版作为示例，因为这是我最熟悉的工作流程。但是，所有形式的同行评议在其流程方面都应该同样透明——从录用决定、到申请批准、到会议提交、到出版等等。

Phill Jones: 同行评议，就像学术基础设施的许多其他组成部分一样，遭受着对它期望过高之苦。与其他质量控制和评估机制（如资助审查或影响因子）一样，随着学术界对日益稀少资源的竞争达到非理性化水平，与成果相关的风险已急剧上升。其结果是，沮丧的研究人员（他们看到职业生涯的制定和决策失误的严谨程度不亚于赌注）和期刊编辑（他们抗议自己已经尽了最大努力）之间出现了脱节。

当然，两者都是正确的，因为同行评议从来就没有打算做出被要求的那种判断。它从来没有被设计用来检测不恰当的分析工作流和统计数据的不良使用，尽管一些期刊在这些领域有专家评审员支持。它当然不能发现数据处理中的错误或对数据的完全欺诈性操纵。即使在一些领域，手稿中有足够的信息可供同行进行评估，大多数审稿人的繁忙日程也意味着他们确实没有足够的时间找出所有的问题。简而言之，期望研究人员“坐在桌子旁边”完成学术记录质量控制的重要工作是不现实的。

如何才能改善这种情况呢？让我们停止要求同行评议做所有的事情，并将过程构建成能在更合适的阶段提供反馈和纠正的学术工作流程。更进一步来说，让我们把它作为日常工作的核心部分，而不是在空闲的20分钟内才去做的事后思考。开放的研究方法可以给研究人员在协议、分析算法、数据集、假设、预印本等方面的早期反馈，从而真正起到帮助作用。当我们不再对同行评议提出那么多要求时，我们可能会因为它能实现目的而感到更舒服。

Todd Carpenter: 作为一些论文的审稿人和少数出版物的编委会成员，我审阅了相当数量的文章和提案。评议可以是一个有趣的过程，但绝不是一个简单的过程。特别是随着领域发展，文献数量增加，以及解决问题的分析方法变得更加复杂，同行评议论文的复杂性和投入都在增加。

回想过去，我们经常要在出租车里花相当多的时间去市区外的机场，我当时和一位研究人员交谈，他描述了他们的审查过程。之所以会出现这种情况，是因为他们说自己一个月要读几十份甚至更多的论文。

考虑到我在阅读和审阅一篇论文上所花的时间，我想一个人怎么能在一个月内花12倍于我的时间来做同行评议呢？我错过了什么？所以我提出了这个问题：“你会花多长时间来审阅一篇论文？”这么说吧，我做错了，或者至少是没有效率，或者太彻底了。或者，也许我对于在高吞吐量环境中同行评议应该或可能是什么的想法过时了。2018年Publons和Clarivate发布的一项研究报告称，2016年花花在同行评议文章上的时间的中位数为5小时。显然不是每个人花的时间都像我一样长，但其他人花的时间肯定比我少得多。这让我注意到评议的组成要素是什么，以及“通过同行评议”需要哪些条件。

就其在出版中的重要性而言，同行评议是一个惊人的非标准化术语和过程。有几十种不同的出版评审，从出版人员的编辑审查到双盲或三盲的同行评议，以及每种开放和封闭版本。在所有这些变化中，不清楚的是流程中究竟包括了什么，选择了谁来审查论文，或对评论反应的期望或结果。一些审稿人对整篇论文进行了彻底全面的审查，包括其过程和结论，而另一些审稿人则对摘要、结论、方法和参考文献中收录的作者进行更为粗略的审查。甚至关于同行评议的术语在应用和理解上也不一致。虽然同行评议已经存在了一百多年，并在二十世纪中期开始广泛应用，但直到今年7月一个STM工作组才发布了同行评议的分类体系。

期望的清晰、关于这些期望的沟通、对这些贡献的认可、以及围绕这些贡献的潜在度量标准将大大改善同行评议。也许在这方面可能会有一些标准……（但你们都知道我会这么说，不是吗？）

现在轮到你了？你认为什么会提高对同行评议的信任？

转载本文请联系原作者获取授权，同时请注明本文来自数字科学交流科学网博客。
链接地址：https://blog.sciencenet.cn/blog-521339-1258408.html

上一篇：“小规模交易”遍布：需求驱动的馆藏建设能否燎原？
下一篇：充分利用虚拟活动：作为供应商的出版商

收藏 IP: 223.104.20.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

数字科学交流

扫一扫，分享此博文

数字科学交流团队分享 http://blog.sciencenet.cn/u/dsc70 武大

博文

问学者们：提高同行评议中的信任

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数字科学交流

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

数字科学交流团队分享 http://blog.sciencenet.cn/u/dsc70 武大

博文

问学者们：提高同行评议中的信任

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数字科学交流

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)