||
人工智能的最新进展,特别是大型语言模型(large language models,LLM),如CHATGPT,在科学界引发了关于其潜在用途的广泛讨论,更重要的是:滥用。去年,来自德国弗莱堡大学医学中心Tjibbe Donker博士在著名国际期刊《The Lancet Infectious Diseases》发表了一篇通讯稿,文章作者亲自参与并体验了一番人工智能审稿的优劣。
尽管大型语言模型的能力无可否认地取得了巨大的飞跃,如果没有仔细考虑,也存在缺陷和危险。让大型语言模型接管部分任务的写作过程可能看起来很有吸引力,这些任务可能看起来很琐碎,或者可能需要人类更多的努力才能完成。
对一些人来说,撰写同行评议报告似乎是一个让大型语言模型伸出援助之手的理所当然的机会。因为很多人抱怨审稿任务自愿、免费、杂志要求越来越快,或者审稿人对要评阅的论文不熟悉。考虑到这一点,我尝试使用CHATGPT来评审手稿,以测试能否创建公平、有意义和信息丰富的同行审查报告。
出于学术伦理,因为用户对输入数据的处理没有明确的控制,我使用了我们课题组自己的预印本文章链接:
https://www.biorxiv.org/content/10.1101/544593v2
大型语言模型能够给出一个很好的文字总结,和论文的主要目标及其结论的清晰描述。CHATGPT给出了一些积极的主观评价;例如,“写作风格清晰简洁”。大型语言模型也提供了一些建设性的批评:“文章的某些部分是技术性的,非专业人士可能难以理解。然而,当被要求提出更具体的改进建议时,它失败了,并开始了通常被描述为幻觉的过程,大型语言模型提供了一个看起来是错误的或未经证实的回应。CHATGPT提供了一个与文本无关的、看起来很具体的一般性评论列表。例如,统计数据不适合数据,并报告说该研究使用了“简单的t检验和卡方检验”,但该研究没有使用这两种方法。当要求额外的参考文献时,这种效果甚至更糟,CHATGPT用听起来真实但不存在的文章来回应。CHATGPT建议的参考文献中的许多作者都是真实的,并且研究类似的主题。但这些文章本身并不存在。
真正的风险是大型语言模型生成的审查报告看起来很平衡,但没有关于手稿或所描述的研究的具体关键内容。因为它非常好地总结了论文和方法,所以它很容易被那些没有完全阅读手稿的人误认为是一份实际的审查报告。更糟糕的是,具体但不相关的评论可能会被视为拒稿的理由。
因此,同行评审过程中的所有参与者对大型语言模型的使用保持警惕是很重要的。编辑应该确保评论报告中的评论与有问题的手稿真正相关,作者应该更准备好挑战看似无关的审稿人的评论,最重要的是,审稿人应该避免使用大型语言模型工具。
参考文献:
https://www.thelancet.com/journals/laninf/article/PIIS1473-3099(23)00290-6/fulltext#
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 19:10
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社