|
AI能写科学文献综述吗?
插图:Piotr Kowlaczyk
当Sam Rodriques还是一名神经生物学研究生时,他意识到了科学的一个根本限制。他说,即使研究人员已经产生了理解人类细胞或大脑所需的所有信息,“我不确定我们是否能知道这一点”,“因为没有人有能力理解或阅读所有的文献并获得一个全面的视图。”
五年后,Rodriques表示,他更接近于使用人工智能(AI)解决这个问题。9月份,他和他的团队在美国初创公司FutureHouse宣布,他们构建的基于AI的系统可以在几分钟内生成比维基百科页面更准确的科学知识综合。该团队迅速生成了大约17,000个人类基因的维基百科式条目,其中大多数以前缺乏详细页面。
Rodriques并不是唯一一个转向AI帮助综合科学的研究者。几十年来,学者们一直在试图加速将大量研究编纂成综述的繁重任务。“它们太长,极其密集,而且通常在编写时就已过时,”伦敦国王学院的研究综述学者Iain Marshall说。对大型语言模型(LLMs)的兴趣激增,这些生成型AI程序是ChatGPT等工具的基础,这激发了自动化任务的新兴奋。
一些较新的AI驱动的科学搜索引擎已经可以帮助人们通过查找、排序和总结出版物来产生叙述性文献综述——一种研究之旅。但它们还不能自己产生高质量的综述。最具挑战性的是“金标准”系统综述,这涉及到严格的搜索和评估论文的程序,以及通常需要进行元分析以综合结果。大多数研究人员同意,这些离完全自动化还有很长的路要走。“我相信我们最终会实现,”澳大利亚邦德大学证据和系统综述专家Paul Glasziou说。“我只是不能告诉你那是10年后还是100年后。”
同时,然而,研究人员担心AI工具可能导致更多不严谨、不准确或有误导性的综述污染文献。“担忧的是,关于如何做好证据综合的所有几十年的研究开始受到破坏,”伦敦大学学院的证据综合学者James Thomas说。
计算机辅助综述
数十年来,计算机软件一直帮助研究人员搜索和解析研究文献。在LLMs出现之前,科学家们就使用机器学习和其他算法来帮助识别特定研究或快速从论文中提取发现。但是,像ChatGPT这样的系统的出现引发了一股兴趣热潮,希望通过结合LLMs与其他软件来加速这个过程。
研究人员说,要求ChatGPT——或其他任何AI聊天机器人——简单地从头开始写一篇学术文献综述将是极其天真的。这些LLMs通过训练大量写作来生成文本,但大多数商业AI公司并不透露模型是基于什么数据训练的。如果被要求审查某个主题的研究,像ChatGPT这样的LLM很可能会引用可信的学术研究、不准确的博客以及谁知道还有什么其他信息,Marshall说。“不会有权衡最相关、高质量文献的过程,”他说。并且因为LLMs通过反复生成统计上可能的词语来响应查询,它们会对相同的问题产生不同的答案并“幻觉”错误——包括臭名昭著的不存在的学术参考。“没有发生被认为是研究综合中良好实践的任何过程,”Marshall说。
一个更复杂的过程涉及将预先选定的论文集上传到LLM,并要求它仅基于那些研究提取见解。这种“检索增强生成”似乎减少了幻觉,尽管它并不能阻止它们。这个过程也可以设置为LLM将引用其信息来源的方式。
这是专门化的、由AI驱动的科学搜索引擎如Consensus和Elicit的基础。大多数公司不透露其系统工作的确切细节。但它们通常会将用户的问题转化为对学术数据库如Semantic Scholar和PubMed的计算机化搜索,返回最相关的结果。
然后LLM总结这些研究并将它们综合成一个引用其来源的答案;用户有各种选项来过滤他们想要包含的工作。“它们首先是搜索引擎,”新加坡管理大学的数据服务负责人Aaron Tay说,他也是关于AI工具的博客作者。“至少,它们引用的内容绝对是真实的。”
这些工具“肯定可以使你的评审和写作过程更有效率,”南丹麦大学欧登塞分校的博士后研究员Mushtaq Bilal说,他培训学者使用AI工具并设计了自己的工具Research Kick。例如,另一个AI系统叫做Scite,可以快速生成支持或反驳某一主张的论文的详细分解。Elicit和其他系统也可以从论文的不同部分提取见解——方法、结论等等。Bilal说,这里有“大量的劳动你可以外包”。
Elicit等几个AI驱动的工具旨在通过总结论文和提取数据来帮助学术文献综述。来源:Nature
但Bilal表示,大多数AI科学搜索引擎无法自主产生准确的文献综述。它们的输出更“相当于一个通宵熬夜、提炼出几篇论文要点的本科生”。他说,研究人员最好使用这些工具来优化综述过程的某些部分。Elicit的工程负责人James Brady说,其用户正在以“极大的效果”增强审查步骤。
包括Elicit在内的一些工具的另一个限制是,它们只能搜索开放获取的论文和摘要,而不是文章的全文。(位于加利福尼亚州奥克兰的Elicit搜索约1.25亿篇论文;位于马萨诸塞州波士顿的Consensus查看超过2亿篇论文。)Bilal指出,许多研究文献受到付费墙的限制,且搜索大量全文在计算上非常密集。“让AI应用遍历数百万篇文章的全文将需要很长时间,而且费用会变得过高,”他说。
全文搜索
对于Rodriques来说,资金非常充足,因为FutureHouse是一个位于加利福尼亚州旧金山的非营利组织,得到了前谷歌首席执行官Eric Schmidt和其他资助者的支持。成立于2023年的FutureHouse旨在使用AI自动化研究任务。
今年9月,Rodriques和他的团队公开了FutureHouse的开源原型AI系统PaperQA2。当给定一个查询时,PaperQA2会在几个学术数据库中搜索相关论文,并尝试访问开放获取和付费内容的全文。(Rodriques说,该团队通过其成员的学术关联获得了许多付费论文的访问权限。)然后系统识别并总结最相关的元素。部分原因是PaperQA2消化了论文的全文,运行它成本很高,他说。
FutureHouse团队通过使用该系统生成关于单个人类基因的维基百科式文章来测试系统。然后他们将这些文章中由AI编写的几百条声明与真实(人类编写)的维基百科上同一主题的文章声明一起提交给一组盲审的博士和博士后生物学家小组。小组发现,人类作者的文章比AI工具编写的文章包含的“推理错误”——即书面主张没有得到适当引用支持——多两倍。因为该工具在这方面超越了人类,团队将其论文命名为《语言代理实现超人类科学知识的合成》。
美国初创公司FutureHouse的团队已经推出了AI系统来总结科学文献。他们的主任兼联合创始人Sam Rodriques坐在右三的椅子上。来源:FutureHouse
Tay说,PaperQA2和另一个叫做Undermind的工具比传统搜索引擎返回结果需要更长的时间——几分钟而不是几秒钟——因为它们进行更复杂的搜索,例如使用初始搜索的结果来追踪其他引用和关键词。“所有这些加起来都非常计算密集且缓慢,但提供了质量更高的搜索结果,”他说。
系统性挑战
生成文献的叙述性总结已经很困难了,但系统性综述更加糟糕。它们可能需要人们花费数月甚至数年才能完成。
根据Glasziou团队的分析,系统性综述至少涉及25个仔细的步骤。在梳理文献后,研究人员必须筛选长列表以找到最相关的论文,然后提取数据,筛查研究潜在的偏见并综合结果。(许多这些步骤由另一位研究人员重复执行,以检查不一致之处。)这种费力的方法——被认为是严格、透明和可重复的——被认为在医学中非常有价值,因为临床医生使用其结果来指导关于治疗患者的重要决策。
在ChatGPT出现之前的2019年,Glasziou和他的同事们开始尝试在科学上创造一项世界记录:两周内完成一次系统性综述。他和其他人,包括Marshall和Thomas,已经开发了计算机工具来减少所需的时间。当时可用的软件菜单包括RobotSearch,这是一个机器学习模型,经过训练可以快速从一系列研究中识别随机对照试验。另一个AI系统RobotReviewer帮助评估研究是否因未充分盲化而存在偏差风险。“所有这些都是减少进行系统性综述所需时间的重要小工具,”Glasziou说。
计时于2019年1月21日上午9:30开始。团队在2月1日星期五午餐时间冲过终点线,总共工作了九天。“我很兴奋,”英国牛津大学的流行病学家Anna Mae Scott说,她在邦德大学领导这项研究;每个人都用蛋糕庆祝。自那以后,该团队将其纪录缩短到了五天。
过程能变得更快吗?其他研究人员也在努力自动化系统性综述的某些方面。2015年,Glasziou创立了国际系统性综述自动化协作组织,这是一个小众社区,恰当地,它已经制作了几篇关于自动化系统性综述工具的系统性综述。但即便如此,“没有很多[工具]得到了广泛接受,”Marshall说。“这只是技术成熟度的问题。”
Elicit是一家声称其工具帮助研究人员进行系统性综述的公司,而不仅仅是叙述性的。Brady说,该公司并不提供一键式系统性综述,但其系统确实自动化了一些步骤——包括筛选论文和提取数据及见解。Brady说,大多数使用它进行系统性综述的研究人员都上传了他们使用其他搜索技术找到的相关论文。
系统性综述爱好者担心AI工具可能无法满足研究的两项基本标准:透明度和可重复性。“如果我看不到使用的方法,那么它就不是系统性综述,它只是一篇综述文章,”Glasziou团队构建审查自动化工具的Justin Clark说。Brady说,评审者上传到Elicit的论文“是他们起始文献的出色、透明的记录”。至于可重复性:“我们不保证我们的结果在重复相同步骤时总是相同的,但我们的目标是使其如此——在合理范围内,”他说,并补充说随着公司改进其系统,透明度和可重复性将很重要。
专门从事审查的专家表示,他们希望看到更多关于旨在帮助产生文献综述的AI系统的准确性和可重复性的已发表评估。“构建酷炫的工具并尝试新东西真的很有趣,”Clark说。“进行严格的评估研究是很多艰苦的工作。”
今年早些时候,Clark领导了一项系统性综述研究,该研究使用了生成式AI工具来帮助进行系统性综述。他和团队只找到了15项已发表的研究,其中AI的表现与人类进行了充分的比较。这些尚未发表或经过同行评审的结果暗示,这些AI系统可以从上传的研究中提取一些数据,并评估临床试验的偏见风险。“它在阅读和评估论文方面似乎做得还可以,”Clark说,“但在所有其他任务上表现得非常糟糕”,包括设计和进行彻底的文献搜索。(现有的计算机软件已经可以使用元分析来完成数据综合的最后一步。)
Glasziou和他的团队仍在尝试通过改进工具来减少他们的审查记录时间,这些工具可以在他们称之为证据审查加速器的网站上找到。“不会是某一个大的改变。而是每年你会越来越快,”Glasziou预测。例如,在2022年,该小组发布了一个叫做方法向导的计算机化工具,它询问用户一系列关于他们方法的问题,然后为他们编写一个协议,而不使用AI。
仓促的审查?
自动化信息综合也伴随着风险。研究人员多年来已经知道许多系统性综述是多余的或质量低下的,而AI可能会使这些问题变得更糟。作者可能有意或无意地使用AI工具快速完成不遵循严格程序的审查,或者包含质量低下的工作,并获得误导性的结果。
相反,Glasziou说,AI也可能鼓励研究人员在之前不会费心的情况下快速检查以前发表的文献。“AI可能会提高他们的水平,”他说。Brady说,未来,AI工具可以通过寻找诸如P值操纵(一种数据操纵形式)等明显迹象来帮助标记和过滤掉低质量的论文。
Glasziou认为这种情况是两种力量之间的平衡:AI工具可以帮助科学家产生高质量的审查,但也可能促进次标准审查的快速生成。“我不知道这对已发表的文献会产生什么净影响,”他说。
一些人认为,综合和理解世界知识的能力不应仅掌握在不透明的盈利公司手中。Clark希望看到非营利组织构建并仔细测试AI工具。他和其他研究人员对上个月两位英国资助者宣布他们将投资超过7000万美元用于证据综合系统的消息表示欢迎。“我们只想谨慎小心,”Clark说。“我们想确保[技术]帮助我们提供的答案是正确的。”
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-14 09:28
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社