数字科学交流团队分享 http://blog.sciencenet.cn/u/dsc70 武大

博文

人工智能(AI)同行评审

已有 5180 次阅读 2019-1-14 14:30 |个人分类:科学交流|系统分类:海外观察| 同行评议;人工智能

引用本文请注明出处

作者:Douglas Heaven;译者:王心雨;校译:陈铭

来源:https://www.nature.com/articles/d41586-018-07245-9

目前,出现了一系列自动化的工具帮助进行同行评审,但是主动权仍然掌握在人类手中。大部分的研究者都有充分的理由抱怨同行评审,因为这是一个耗时间且容易出错的工作。并且只有20%的科学家承担大部分的评审工作,工作量分配严重不均。如今,人工智能的出现有望改善同行评审这一过程,提高文章质量并节省评审时间。有一部分学术出版商已经在尝试使用AI来帮助他们完成一些事情,例如选择评审学者、统计和核查数据准确率、总结文章的新发现。

今年6月,总部位于阿姆斯特丹的出版业巨头爱思唯尔旗下的同行评审管理系统Aries Systems采用了一款名为StatReviewer的软件,用于检查来稿中的统计数据和方法是否真实可信。与此同时,广受欢迎的同行评审平台ScholarOne正在与丹麦奥尔胡斯的UNSILO开展合作。UNSILO使用自然语言处理和机器学习等技术对来稿进行分析,并自动提取关键概念来总结文章的核心内容。但无论机器起了什么作用,最终的决定权仍然掌握在编辑手中。英国出版顾问大卫·沃洛克(David Worlock)在10月份的德国法兰克福书展上看到了UNSILO的展台,他感叹道:“它不会代替编辑的决策,但它能让这个过程简单了许多。”

决策

UNSILO对来稿文章进行语义分析处理,提取文本中机器识别出来的主要语句。UNSILO的销售总监尼尔·克里斯滕森(Neil Christensen)表示,这一方法得到的结果比作者自己提交的关键词能更好地概述文章内容。他还补充说:“我们在他们的文章中找到了他们真正想表达的意思,而不是仅仅看他们在提交前五分钟里想出来的内容。”此外,UNSILO还会识别出最有可能代表作者观点和发现的关键词语,从而让编辑对作者的研究成果有粗略的了解。UNSILO还能够高亮出文章中与其他论文相似的观点,用于检测学术不端行为,或者将其与学界其他相关研究联系在一起。

Christensen认为:“这一工具并不是在做决定,而是在告诉你,这里有一些内容和之前发表过的文章相比有些突出,而决定权在你手中。”UNSILOPubMed Central这一庞大但有限的学术数据库中采集信息。UNSILO可以将新的来稿与数据库中170万篇已发表的生物医学领域的研究论文进行全文比较。UNSILO还与位于宾夕法尼亚州费城的Clarivate Analytics旗下的ScholarOne合作,访问更多的数据,包括ClarivateWeb of Science数据库。

Giuliano Maciocci在英国剑桥《eLife》杂志上带领一个新团队,她认为UNSILO是一个有趣的解决方案,能够解决同行评议中一些令人头疼的问题,但是eLife不会考虑采用它。“在我们这样一个非常重视专家管理的期刊上,这个工具可能用途不大。”Wizdom.ai的董事Worlock注意到,市面上出现了很多类似的工具。Wizdom.ai是一家由Taylor & Francis出版公司控股的新公司,该公司正在开发一款能够挖掘论文数据并提取不同学科和概念间关联的软件。他认为,正在研发的这个工具不仅能够在同行评审中起到作用,对于撰写拨款申请和文献综述等都有帮助。

从检测学术不端到检测p

包括ScholarOne在内的很多平台已经能够自动进行学术不端评测,并且包括Penelope.ai在内的很多服务能够检查参考文献和来稿的结构是否符合期刊的发稿要求。有一些工具还可以用研究质量进行标记。由荷兰蒂尔堡大学的研发团队开发的工具statcheck能够评估作者所报告的数据的一致性,聚焦于p值的大小。《心理科学》这一期刊把所有来稿都用这一工具检测一遍,其他出版商更倾向于在同行评审中使用这个工具。荷兰蒂尔堡团队在分析《心理学报》期刊上的文章的时候,他们发现大约有50%的论文至少有一项数据统计不够准确。在八分之一的论文中,有些错误甚至已经严重到足以影响已发表结果的统计意义。她说:“这令人担忧。”但是她也表示并不奇怪这些评审学者会忽略这些错误。“没有人有时间去核对所有的数字,你只会关注论文本身。”目前,statcheck仅限于分析使用美国心理协会报告格式进行数据统计的论文。

与之相反,StatReviewer的开发者——北卡罗来纳州威客森林大学医学院的蒂莫西·侯勒(Timothy Houle)和威斯康辛州新兴科技公司NEX7的首席执行官查德威克·德沃斯(Chadwick DeVoss)声明他们的工具能够评估来自多个科学领域的标准格式展示风格的统计数据。为了做到这一点,这一工具可以检查论文中的样本大小和基线数据等信息是否正确。DeVoss表示:StatReviewer还能够识别欺诈行为的标记,例如他们是否在玩弄数据规则或是伪造数据?如果风险要高于期刊接受的范围,他们还可以调查细节。

对算法进行测试

DeVossStatReviewer正在接受几十家出版商的测试,2017年,伦敦开放出版商BioMed Central进行了实验,但是没有得出确定的结论。因为这个工具没能分析足够的稿件,但也提供了一些洞见。施普林格《自然》的公开研究传播总监艾米·伯克维特(Amy Bourke-Waite)说,StatReviewer抓住了人类评审员忽略的东西,善于发现不符合标准要求的论文。Bourke-Waite还说:参加测试的作者们表示很开心,因为如果没有StatReviewer进行报告,他们就会成为评审员撰写评审报告。

自动化的限制

即使实验结果成功,但DeVoss预计只有少数期刊会愿意付费扫描他们的来稿。所以他和他的同事们将目标转向作者,希望他们在投稿前会使用这一工具检查自己的文章。

一般来说,在同行评审中,人工智能存在着潜在的缺陷。一个担忧是,使用以前发表的论文培训的机器学习工具可能会强化同行评审中存在的偏见。Worlock说:“如果你在过去被采纳的文章的基础上建立决策系统,不可避免会有内在的偏见。”DeVoss说:“如果一个算法在评估一篇论文后只提供一个总分,正如StatReviewer 所做的那样,编辑们可能会被这个结果影响,拒绝一些边缘文章,只是依靠那个分数来决定是否采纳一篇论文。”

新西兰的同行评审跟踪新兴公司Publons的联合创始人安德鲁·普雷斯顿(Andrew Preston)表示,目前的算法还不够智能,无法让编辑仅凭借提取的信息采纳或者拒稿。“这些工具可以确保稿件达到标准,但是它们不可能取代评审员在评审方面所做的工作。” 一部分学者也表示同意:“算法需要一定的时间去完善,但是自动化处理一些工作是有意义的,因为同行评审中的很多事情都是有固定标准的。”




https://blog.sciencenet.cn/blog-521339-1157004.html

上一篇:学术出版经济价值的向上迁移
下一篇:亲爱的读者,你在阅读吗?
收藏 IP: 218.197.153.*| 热度|

1 周春雷

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-21 00:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部