精选
||
注意伪造的参考文献
诸平
据《撤稿观察》(Retraction Watch)2026年5月7日报道,分析显示,2026年每277篇美国国立卫生研究院旗下的PubMed数据库的索引论文中就有一篇是伪造的参考文献(One in 277 PubMed-indexed papers in 2026 shows fabricated references, says analysis)。从2023-2024年中期伪造的参考文献从0.4‰发展到2026年初的5.7‰,翻了14倍多!详见图1(Fig. 1)所示。
Fig. 1 Figure from correspondence to The Lancet by Maxim Topaz and colleagues.
根据对发表在《柳叶刀》(The Lancet)杂志上的近250万篇论文的审计发现,生物医学文献中的虚假引用在两年内增加了12倍。对PubMed数据库收录文章的分析发现,在2026年前7周发表的277篇论文中,约有1篇引用了不存在的论文。这与2025年的1/458和2023年的1/2828相比较,有了大幅上升之势。美国哥伦比亚大学数据科学研究所(Columbia University’s Data Science Institute)的马克西姆·托帕兹(Maxim Topaz)领导的研究人员,使用人工智能来区分真正的捏造和格式差异,比如非正式的缩写标题。马克西姆·托帕兹的研究小组发现,在2024年中期,虚假引用(hallucinated references)的增幅最大,他们指出,这与人工智能写作工具的兴起相吻合。《自然》(Nature)杂志上个月(2026年4月份)报道称(as Nature reported last month),从2025年开始,数以万计的出版物可能会包含由人工智能生成的无效参考文献(invalid references)。《撤稿观察》(Retraction Watch)已经看到了不少由ChatGPT和大型语言模式(large language models简称LLMs)捏造(generated)的引用报告。
在他们的样本中,马克西姆·托帕兹和他的同事们验证了9710万篇参考文献,从中他们发现了伪造的参考文献4406篇,这些参考文献出现在总共2810篇论文中。根据撤稿观察数据库(Retraction Watch Database)和其他数据库的数据,在2月份的审计中,几乎所有被发现含有虚假参考文献的文章(超过98%)都没有得到出版商的处理。
泰勒弗朗西斯(Taylor & Francis)的一位发言人告诉《撤稿观察》,出版商正在技术、专业人员和流程方面进行投资,以发现有问题的引文。该发言人表示:“有相关参考文献的文章将被退回给作者。如果这些引用占引用的比例超过一小部分,并且/或严重影响了论文的整体完整性,通常会被拒绝。”
公共科学图书馆(PLOS)出版伦理负责人Renee Hoch告诉《撤稿观察》,他们正在探索全系统参考文献完整性筛选的选择。Renee Hoch还说,“PLOS不会自动将捏造的参考文献归类为不端行为:研究不端行为有一个具体的定义,其中包括一个意图因素,一个问题是否符合研究不端行为是在机构层面解决的,而不是在期刊或出版商层面。
《撤稿观察》还联系了Elsevier、Wiley、施普林格Nature、IEEE和Sage,但他们没有在短时间内做出回应。Howard Bauchner和Frederick Rivara在分析报告附带的评论中写道,出版商需要严肃对待捏造的参考文献。Howard Bauchner是美国医学会杂志(JAMA)的前编辑,Frederick Rivara是美国医学会儿科杂志(JAMA Pediatrics)的前编辑。他们两人认为,在出现虚假引用的情况下,论文应该被撤回。Howard Bauchner和Frederick Rivara写道,“当研究人员同意成为作者时,他们要对论文的全部内容负责。这些手稿的撤回可能会导致手稿作者对参考文献进行更严格的审查。”
美国国家卫生研究院(National Institutes of Health)的诚信研究员戴维·雷斯尼克(David Resnik)不同意这种观点,他告诉《撤稿观察》,一篇引用是捏造的论文是否应该被撤回,取决于该引用在支持研究结果方面所起的作用。他的观点与马克西姆·托帕兹的观点一致,马克西姆·托帕兹告诉《撤稿观察》,当一篇文章的虚假参考文献成为论文结论的核心时,就应该撤回这篇文章。马克西姆·托帕兹从分析中给出了一个例子,其中30条参考文献中有18条似乎是捏造的。马克西姆·托帕兹对《撤稿观察》说:“对于那些与主要发现无关的、有一两个捏造的参考文献的论文,我认为更正和透明度可能比撤回论文更相称。”
他指出,在他的研究小组的问题论文数据集中,91%的文章只有一两个捏造的参考文献,其中许多可能是作者使用人工智能工具而没有验证输出的诚实错误。
科克伦(Cochrane)的编辑政策和研究诚信负责人艾拉·弗莱明(Ella Flemying)称这项新研究的发现是严肃的,但也对此表示担忧。她说:“虽然“使用人工智能”的方法在500条记录上得到了验证,并且讨论了主要限制,但我们缺乏有关方法的相当多的细节。”
她还指出,由于结论依赖于人工智能辅助的审计,因此对调查结果的信心较少取决于标题数字,而更多地取决于人工智能系统是如何设计和验证的;如何评估和纠正错误以及整个过程的可重复性和透明度。
美国西北大学范伯格医学院(Northwestern University’s Feinberg School of Medicine)生物统计学和信息学研究员穆罕默德·胡塞尼(Mohammad Hosseini)称,《柳叶刀》的分析过于简单化。在3月份的一篇论文中,穆罕默德·胡塞尼和戴维·雷斯尼克指出,要区分对论文的科学结论有影响的虚假引用和没有影响的虚假引用。穆罕默德·胡赛尼说:“托帕兹的研究小组没有区分科学上具有重要作用的参考资料和相对不那么重要的参考资料。”
穆罕默德·胡赛尼告诉《撤稿观察》,“这项研究代表了唾手可得的成果和冰山一角。”他说,“更大、更重要的问题仍然是人工智能产生的引用,这些引用并不完全是虚假的,而是不准确、有偏见或不完整的。”但是,他也承认:“我们甚至无法探测到它们,也无法对它们采取任何措施。”
艾拉·弗莱明也有类似的观点,他告诉《撤稿观察》,除了用捏造的引用来解决个别案例外,“我们还需要强调学术界的压力,这种压力为快速科学创造了一种反常的激励;研究人员需要发表更多的论文和更多的引用,因此偷工减料和没有得到充分验证的结果并不让我感到惊讶。”
穆罕默德·胡塞尼和戴维·雷斯尼克在他们的论文中写道,“人工智能捏造的引文可能会持续存在,因为虚假与LLMs的运作方式有着千丝万缕的联系。托帕兹告诉《撤稿观察》,无论LLMs是否有望停止产生虚假,“损害已经造成。”他说,他的团队发现,“即使人工智能变得更好,4000多份伪造的参考资料的污染也不会消失。”
虚假引用(Hallucinated references)最近引起了侦探、研究不端行为调查员和记者的极大关注。2025年年底,《撤稿观察》报道了一篇世界银行(World Bank)关于肥胖趋势的论文,其中包含至少14篇虚假参考文献。2026年3月,《撤稿观察》报道了一位图书管理员发现,《自然》(Springer Nature)杂志一篇关于肠道手术管理的文章中,14条参考文献中有12条根本不存在。
在一个关于他们研究的互动网站上,托帕兹和他的同事们报告了一家出版商的造假率,该出版商的造假率是数据集中最具选择性期刊的14倍以上。托帕兹告诉《撤稿观察》,虚假引用率最高的出版商在网站上仍然没有公布名字,因为“如果不根据每个出版商在PubMed中索引的论文数量和类型进行调整,对出版商级别的比率进行原始比较会产生误导。”他拒绝透露出版商的各自虚假参考文献比率。
他说:“我能说的是,这种集中度不成比例地集中在大型开放获取期刊和出版商身上,这与其他人观察到的造假论文工厂活动和不太严格的同行评议往往集中在一起的情况是一致的。”
托帕兹和他的合著者建议采取一系列行动来处理他们认为日益严重虚假参考文献的问题。首先,他们建议用人工智能来对抗人工智能:出版商应该在同行评审开始之前将自动参考验证集成到提交工作流程中。他们还希望看到文章索引服务添加完整性元数据,以便标记与参考文献一起传播,他们还希望看到在研究完整性数据库中跟踪虚假参考文献。
最后,他们还说,出版社应该追溯审查现有的出版物,如果伪造的参考文献损害了论文的结论,就应该纠正或撤回。研究小组特别关注评论文章,他们指出,“这类文章的捏造率比其他类型的论文高出57%。”
弗莱明也有同样的担忧。在这个人工智能的新时代,对满足预期标准的全面系统审查的需求是至关重要的。她说,冒险将有偏见的、不系统的人工智能引入文献将是一个严重的倒退。”
上述介绍,仅供参考。欲了解更多信息敬请注意浏览原文或者相关报道。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-16 11:31
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社