|
某国际人工智能会议21%的稿件评审报告被证实由人工智能生成,此事已引发争议。

(配图说明:一张特写照片,红色玩具机器人置于一摞书籍之中。)
潘格拉姆实验室(Pangram Labs)开发的AI检测工具发现,同行评审人员使用聊天机器人撰写给作者的反馈已呈增多趋势。图片来源:breakermaximus/iStock via Getty
若研究人员怀疑自己的稿件收到了人工智能(AI)撰写的同行评审,该如何应对?数十名学者已在社交媒体上表达担忧,涉及的稿件与评审报告均提交至明年召开的“国际表征学习大会”(ICLR)——这是机器学习领域专家的年度盛会。学者们指出的问题包括评审中存在“虚构引用”,以及对其研究的反馈“异常冗长且模糊”等。
美国宾夕法尼亚州匹兹堡市卡内基梅隆大学的AI研究者格雷厄姆·纽比格(Graham Neubig),就是收到疑似由大型语言模型(LLM)生成评审报告的学者之一。他表示,这些报告“文字冗长,包含大量项目符号”,且要求开展的分析并非“AI或机器学习领域常规论文评审中,评审者通常会要求的标准统计分析”。
但纽比格需要证据证明这些报告由AI生成。于是,他在X平台(前身为Twitter)发帖,悬赏征集能扫描所有会议投稿及对应评审报告、识别AI生成文本的人。次日,他收到了纽约市潘格拉姆实验室(Pangram Labs)首席执行官马克斯·斯佩罗(Max Spero)的回应——该实验室专注于开发AI生成文本检测工具。潘格拉姆实验室对2026年ICLR大会(将于明年4月在巴西里约热内卢举办)收到的19490份研究稿件及75800份评审报告进行了全面筛查。纽比格及其他1.1万余名AI研究者将参会。
潘格拉姆的分析结果显示,ICLR大会约21%的同行评审报告为“完全AI生成”,超半数评审报告存在“使用AI的痕迹”。该结果已由潘格拉姆实验室发布至网络。“此前人们只是怀疑,但没有确凿证据,”斯佩罗表示,“我们在12小时内编写了代码,从所有投稿稿件中提取出了文本内容进行分析。”
会议主办方表示,目前已启用自动化工具,评估投稿稿件及评审报告是否违反“投稿与评审中AI使用相关规定”。美国纽约州伊萨卡市康奈尔大学计算机科学家、2026年ICLR大会高级程序主席巴拉特·哈里哈兰(Bharath Hariharan)指出,这是该会议首次大规模面临此类问题。“待我们完成全部核查流程后……将能更清晰地判断哪些内容可信。”
AI撰写的同行评审
潘格拉姆团队使用了自主研发的一款工具——该工具可判断文本是否由大型语言模型生成或编辑。分析结果显示,15899份同行评审报告被标记为“完全AI生成”。此外,团队还发现多篇会议投稿稿件疑似包含AI生成文本:199份稿件(占比1%)为“完全AI生成”;61%的投稿以人工撰写内容为主;但有9%的投稿中,AI生成文本占比超过50%。
潘格拉姆团队已将该检测模型相关研究撰写成预印本[1],并提交至2026年ICLR大会。团队分析发现,该预印本收到的4份评审报告中,1份被标记为“完全AI生成”,另1份被标记为“经AI轻度编辑”。
对于许多向ICLR投稿并收到评审报告的研究者而言,潘格拉姆的分析结果印证了他们此前的怀疑。哥本哈根大学计算机科学家德斯蒙德·埃利奥特(Desmond Elliott)表示,他收到的3份评审报告中,有1份“完全没抓住论文核心”。主导该研究的他的博士生怀疑,这份评审报告由大型语言模型生成——因为报告中提及的论文数值结果存在错误,且包含一些表述怪异的语句。
埃利奥特补充道,当潘格拉姆发布分析结果后,“我做的第一件事就是输入我们论文的标题,想确认我学生的直觉是否正确”。潘格拉姆的分析将这份可疑评审标记为“完全AI生成”,而该评审给论文的评分最低,使其“处于‘接收’与‘拒稿’的边缘”。“这太令人沮丧了。”埃利奥特说。
后续影响
2026年ICLR大会组委会允许作者与评审人员使用AI工具优化文本、生成实验代码或分析结果,但要求必须披露此类使用行为;同时明确禁止“使用AI破坏稿件保密性”或“生成虚假内容”的行为。
目前,会议主办方正结合潘格拉姆的分析结果及其他自动化工具,评估投稿稿件与评审报告是否违反上述规定,并将对违规的作者与评审人员予以处罚。
哈里哈兰表示,负责同行评审流程的研究者“不仅需要标记由大型语言模型生成的评审报告,还需标记质量低下的评审报告”。他补充道,“直接拒绝(认定)评审人员的门槛会很高。鉴于这些自动化工具可能存在误判,我们不会完全依赖它们。”
部分作者因稿件评审报告中存在虚假表述,已撤回了向ICLR的投稿;另有一些作者仍在纠结如何回应收到的评审意见。“作为一名科研人员,我在这一行待了足够久,知道向会议投稿时总会收到一些质量不高的评审,”埃利奥特说,但疑似AI生成的评审报告往往“内容庞杂”,“其中有些内容有参考价值,值得回应,但有些内容根本毫无意义”。
2026年ICLR大会的这一状况,凸显出同行评审人员在“跟上快速发展领域步伐”方面面临的压力日益增大。“当前AI与机器学习领域的评审工作正面临危机——过去五年间,该领域规模呈指数级扩张,”纽比格表示。
哈里哈兰称,2026年ICLR大会每位评审人员平均需在两周内完成5篇论文的评审工作。“这一工作量极大,远高于以往水平。”他表示,目前相关方已在讨论如何应对这一问题,“领域内所有人都清楚,如今我们每个人承担的志愿工作,比过去多了太多”。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-5 17:45
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社