||
引用本文请注明出处
作者:Alessandro Checco, Lorenzo Bracciale, Pierpaolo Loreti, Stephen Pinfield, Giuseppe Bianchi
译者:田峥峥 校译:贺琳
来源:https://blogs.lse.ac.uk/impactofsocialsciences/2021/05/17/can-ai-be-used-ethically-to-assist-peer-review/
随着学术出版物出版速度的提升以及数量的增加,期刊编辑快速找到审稿人来评估学术工作质量的压力也随之增加。在这种情况下,人工智能(Artificial Intelligence, AI)因拥有提高生产力和减少工作量的潜力而受到了极大关注。本文5位作者根据一项利用人工智能学习和评估同行评审结果的实验证据,讨论了人工智能协助同行评审的前景及其应用可能会产生的潜在道德困境。
学术交流过程正面临着压力,在造成这一现象的原因中,尤其值得关注的是对同行评审专家越来越高的需求。提交给同行评审期刊的稿件每年增长约6%;同时,每年有超过1500万小时的时间用于审查曾经被拒绝然后再重新提交给其他期刊的稿件,而其中许多稿件可以在同行评审前的筛选阶段被排除。
图1 同行评审流程中的各阶段
我们感兴趣的不是人工智能完全取代人类决策的宏伟愿景,而是了解人工智能在多大程度上可以帮助审稿人和作者处理这一负担。这就产生了一个问题:我们能否将人工智能作为一个模拟审稿人决策的基本工具?
试验人工智能同行评审
为了测试这个命题,我们使用一组提交的工程会议论文手稿及其相关的同行评审决定来训练一个神经网络。
这个人工智能工具使用包括文本内容、可读性评分、格式化度量在内的一组特征对稿件进行分析,分析涵盖了同行评审前的筛选过程和同行评审这一过程本身,以保证格式和表达等方面的审核质量。
学习阶段完成后,我们评估了经验规则在预测先前未被评审的稿件的同行评审结果的准确性。最后,我们问了一个问题:“为什么人工智能工具选择接受或拒绝一篇论文?”,回答这个问题可以让我们深入了解该工具所模拟的人类决策。
图2 人工智能同行评审工具图示
开放人工智能决策
使用标准工具解释基于50万个参数的模型几乎是不可能的。该模型的结果可能会受到一系列不同问题的影响,例如特定词汇或特定句子结构的存在。我们通过使用LIME技术(Local Interpretable Model-Agnostic Explanations,中文译作局部可理解的与模型无关的解释,
是一个帮助我们理解和解释复杂机器学习模型如何做出决策的一个工具)来帮助解释模型如何在特定文档中工作。该技术会略微改变文档内容,并观察模型预测如何变化。
图3是对一篇被人工智能所接受论文进行解释的例子。橙色代表影响积极结果决策的主要特征,而蓝色则代表与消极决定相关的因素。缺少“quadratic”一词、句子数量少、高难度/不常见的词汇数量多,将对模型得分产生正面影响;而页数少、每个单词平均音节数少、文本长度短,将对模型得分产生负面影响。在某些情况下,这样的解释会暴露出潜在的偏见或模型的过度拟合,比如当数据集太小时,模型可能会过于重视一个关键词是否存在。
图3 基于机器学习的同行评审决策的说明
也许令人惊讶的是,即使只使用相当表层的指标对机器进行训练,机器学习系统往往也能够成功预测审稿人建议的同行评审结果。换句话说,单词分布、可读性和格式分数与整个评审过程的结果之间存在强烈关联。因此,如果一篇稿件写得很好,使用了适当的术语,并且呈现得很好,那么它就更有可能被接受。
这种相当简单的模型能够成功的一个可能解释是,如果一篇论文的呈现和阅读效果不好,那么它很可能在其他更加实质性的方面的质量也比较低。因此,这些更表层的特征能够成为衡量文章质量的有用指标。
然而,表层特征得分较低的论文可能会给同行评审专家带来“第一印象偏见”,他们更倾向于根据这种可以说是相对表层的特征产生的负面第一印象而拒绝论文。
审稿人可能会受到格式或语法问题(或使用与过去被拒论文相关的方法)的不当影响,并在他们对更加实质性的问题进行判断时不自觉地受到这种影响。
这种情况下,可以在论文进入同行评审流程前,用人工智能工具对论文进行检查,并建议作者在送交同行评审前重新修改其论文。这可能会对那些母语非英语的作者特别有益,因为他们的工作可能会受到“第一印象偏见”的不利影响。
机遇与不足
我们所开发的这种工具可能直接有助于协助期刊和会议论文的编辑进行决策。如果作为决策支持系统使用,它们有可能会节省审稿人的时间。正如我们所指出的那样,它们对作者也是有用的。其作用尤其体现在以下两点:
减少未进入审稿流程就被编辑部退掉的稿件
通过捕捉“第一印象”,我们在本文中探讨的方法有可能及早发现文章的表层问题,如格式问题和图表质量问题。作者在进入同行评审流程的审查前便可立即意识到这些问题,同时人工智能工具可以被用来预先防止那些未进入审稿流程就被编辑部退掉的稿件并告知作者这一情况。
使用数据改善审稿人决策
通过数据驱动的预测器/分类器分析评审决策,有可能研究出复杂的评审过程可以在多大程度上被模拟。通过数据分析和对人工智能复制审稿人决策过程的分析,也有可能暴露决策过程中的偏见和类似问题。
偏见和伦理问题
这项工作产生了一些潜在的伦理问题。机器学习技术本质上是保守的,因为它们是用过去的数据训练出来的。当被用于为未来决策提供信息时,可能会导致偏见和其他意想不到的结果。例如,对于以往发表较少科学文献的国家而言,与其关联的论文,使用人工智能可能会出现更高的拒绝率,因为自动审查会反映以前审稿人的偏见,且可能没有考虑到随着时间推移,来自这些地方的论文的质量在上升。偏见的产生也可能是由于以往编辑从世界高收入地区选择审稿人的比例过高,而低收入地区在审稿人中的代表性不足,该工具便有可能会反映以前审稿人的偏见。
如果所做决定的理由不透明,作者就不会相信自动评审。这意味着任何为协助学术交流中的决策而开发的工具都需要尽可能清楚地说明其背后的原理。这一点尤为重要,因为模型是按照设计者价值观和目标所选择的特定设计路径的结果,这些价值观和目标将不可避免地被“冻结在代码中”。
同样值得注意的是,旨在帮助审稿人的工具也会以特殊的方式影响他们。即使只使用这些工具来提示可能有问题的论文,也会导致审稿人对论文质量产生怀疑,从而影响其行为。模型对稿件的解释方式可能会传递给审稿人,从而造成意想不到的偏颇结果。
在设计和部署人工智能工具的实践中,以及在确定它们在决策中发挥的作用时,需要仔细考虑所有这些伦理问题。在这些领域的持续研究,对帮助确保人工智能工具在同行评审等过程中发挥积极作用至关重要。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-20 09:29
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社