氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究:sunxjk@hotmail.com 微信 hydrogen_thinker

博文

AI+免疫学家=人工智能免疫学家!《科学》 精选

已有 906 次阅读 2025-12-9 06:18 |系统分类:海外观察

AI免疫学家!《科学》

基于大型语言模型(LLM)的人工智能(AI)智能体是强大的工具,可帮助研究人员自动化处理文献综述、数据挖掘、计算代码生成和现有知识总结等复杂任务,但在提出原创性生物学假设和见解方面仍存在不足(参见本期Rodriguez-Coffinet等人的相关研究论文)。多智能体系统和人机协作框架的新兴进展为解决这一问题提供了富有前景的方向。

近年来大型语言模型(LLM)的迅猛发展为研究人员提供了强大的新型研究工具。这些由LLM驱动的人工智能(AI)“智能体”可通过基于自然语言的界面,自动化处理文献综述甚至数据集挖掘等复杂任务。这种便捷性和可及性使得研究人员越来越多地将这些“智能体”视为实验室中的合作者和同事。然而,它们在研究中应用的日益广泛引发了一个重要问题:这些智能体在提出新假设和数据分析方面是否与人类一样具有创造性?

12月《科学·免疫学》中,Rodriguez-Coffinet等人开发了一款“创造游戏”(Creation Game),以测试AI聊天机器人在系统疫苗学研究中的创造能力(1)。该游戏以一系列日益复杂的问题为引导:“我们已将一个基因表达特征定义为流感疫苗抗体应答的预测因子。你能否:(i)查阅文献并提出一个潜在假设来解释这一结果?(ii)建议一项实验对该假设进行生物学验证?(iii)分析该实验的潜在结果背景?(iv)从实验结果中推断更广泛的生物学原理?”人类研究人员根据(i)提出的文献、(ii)提出的生物学假设、(iii)建议的假设验证实验以及(iv)结果的更广泛概念意义,对每个问题的回答进行准确性和相关性分析(图1)。

 图片1.png

1. 人工智能智能体在免疫学研究中的整合  

现代免疫学研究可能涉及跨时间和空间尺度的多种类型和层次信息的数据生成与分析。通过人机智能体交互,可增强将此类高维数据转化为免疫学见解的过程——智能体作为“虚拟”科学家,通过基于文献的研究、数据整合分析及解读,协助假设生成与验证。虚拟科学家可作为单个智能体运行,仅通过便捷界面与人科学家交互,例如“创造游戏”中所示的协助解答特定研究问题(1)。单个智能体也可组成多智能体团队协作——通过角色引导为每个智能体分配专门职责,本质上模拟一个虚拟实验室。此类多智能体系统支持协作工作流程,人科学家的反馈与交互、智能体间的协作均可产生复杂的研究成果,甚至可能实现原创性发现。虚拟科学家与人科学家的合作,为高效整合现有知识、提出新假设与见解以及自动化数据驱动分析提供了富有前景的途径。  

 

在所有四个案例研究中,作者发现AI智能体在检索相关文献、生成合理假设甚至提出假设验证实验方面表现出色。Rodriguez-Coffinet等人测试的五个LLM中,有三个(ChatGPT-4o、Microsoft Copilot和SciSpace)能够检索到相关文献,以支持其早期系统疫苗学研究中鉴定的基因(GCN2、SREBP和TLR5)的免疫学意义。然而,作者强调了将LLM智能体用作研究合作者的局限性:尽管它们擅长运用已知知识,但在生成原创性内容(如全新假设和创新性实验流程)或为观察到的数据赋予生物学意义方面存在不足。以固醇调节元件结合蛋白(SREBP,一类调控固醇生物合成通路基因的转录因子)的案例研究为例,Rodriguez-Coffinet等人指出,尽管模型能够复述SREBP在免疫中的已知功能,但在解释作者早期研究揭示的疫苗应答代谢调控机制方面未能提供深入见解。因此,鉴于生成具有坚实生物学基础的新机制见解被证明难度大得多,这些智能体目前的创新性尚不足以与人类科学家匹敌。

一个限制因素是LLM本质上是概率性的;因此它们对提示词构建和“蝴蝶效应”敏感——即使对提示词进行微小修改(如添加一个额外空格),也可能改变响应结果(2)。这种对输入微小变化的敏感性也延伸到假设生成:Qi等人(3)在不同提示策略下评估了LLM在生物医学假设生成中的表现,发现所谓的“零样本”提示(即未向AI智能体提供示例)能产生更具创造性的假设,而“五样本”提示(提供五个上下文示例)则生成更具依据、与文献一致的假设。这些直观发现凸显了LLM生成假设中的“新颖性-可验证性权衡”:更高的原创性往往以可验证性为代价(3)。优化这种权衡仍是一个开放性挑战,可能需要更有效的提示词设计策略和针对科学研究的强化学习,以将AI智能体整合到日常研究中。提示词工程是一个活跃的研究领域,致力于探索如何设计、构建和优化作为AI智能体输入的提示词,以提升其“认知”表现。在用户层面,一些策略包括更精准地构建科学问题框架,为智能体模型提供更具体的上下文。此外,自动提示词优化方法可通过迭代优化和重构提示词来提高可重复性(4)。这些方法共同作用,有望帮助AI智能体提出更具创新性且仍有合理依据的生物学假设。

Rodriguez-Coffinet等人还强调了在评估AI创造性时“人类监督”的局限性——专家评估可能遗漏替代假设,并强化传统科学认知(5)。科学中的创造性思维往往源于突破既定范式,而专家主导的评估可能无意中低估这种突破。这一局限性凸显了需要一致的定量评估指标来衡量AI的认知能力及其生成想法的新颖性。朝着这一方向的最新进展是相对邻居密度算法(relative neighbor density algorithm),该算法通过比较某个想法与其语义邻居的“局部密度”来量化概念创新性(6)。在这种方法中,每个想法被嵌入到高维语义空间中,并构建最近邻网络以捕捉概念上彼此接近的想法。如果一个想法位于该网络中的稀疏区域,则它可能是未被充分探索的,甚至可能标志着新的研究领域。其局限性在于该方法依赖于用于定义语义空间(或“嵌入”)的算法质量。另一个关键挑战是为想法和假设建立稳健的新颖性定义,这既用于基准测试此类评估指标,也用于对AI生成想法进行可靠、可重复的评估。沿着这一方向,利用真实和合成数据集评估AI生成未探索假设能力的系统框架也正在兴起(7)。

产生全新见解的一个富有前景的途径是“多智能体”方法。与Rodriguez-Coffinet等人描述的人类与单个LLM交互不同,可创建多个LLM实例,使其能够相互交互并与人交互,模拟协作团队。通过LLM间的对话进行此类多向交互,可能扩展AI生成新研究想法和假设的能力(图1)。“多智能体”方法的一个近期示例是“虚拟实验室”(The Virtual Lab)(8)——人类研究人员与AI首席研究员(PI)及一支多学科AI智能体团队合作,设计针对新型严重急性呼吸综合征冠状病毒2(SARS-CoV-2)变异株的纳米抗体。该方法包含两个关键要素:(i)AI首席研究员根据人类研究人员指定的研究目标,为每个智能体分配特定角色——在此案例中,AI首席研究员组建了一支由免疫学家、计算生物学家和机器学习专家组成的团队;(ii)设计两种类型的会议——全员参与的团队会议和与单个智能体的单独会议——以解答特定问题。尽管人类研究人员是活跃成员并明确总体问题,但整个交互过程(如会议)中超过98%的文字内容来自LLM智能体。该团队通过使用多种AI和计算工具(ESM、AlphaFold和RosettaFold)修饰已知的SARS-CoV-2结合纳米抗体,迅速确定了解决该问题的方案。总体而言,虚拟实验室设计了92种纳米抗体,其中两种经实验证实可与新型变异株结合。

另一种多智能体方法CellForge(9)旨在自动化从数据整理到机器学习模型构建和验证的整个研究流程,用于预测基因扰动后的转录应答。CellForge从单细胞数据集和人类研究人员的提示词出发,利用其多智能体架构通过三个不同模块促进虚拟跨学科协作:(i)任务分析模块,负责数据集表征和文献检索;(ii)假设生成模块,涉及多学科智能体协作;(iii)实验执行模块,负责代码生成、训练实施和结果分析。在六个包含基因敲除、药物处理和细胞因子刺激的公开单细胞扰动数据集上的基准测试表明,CellForge在预测性能上优于先前的任务特异性模型。虚拟实验室和CellForge的优势均在于其具有专门角色的智能体之间的协作性质。然而,它们的实验基础仍然有限:除了虚拟实验室示例中的一轮实验验证外,这两个案例中的核心任务和解决方案本质上都是计算性的。因此,下一步的关键将是实现计算与实验的闭环整合——多智能体方法通过实验反馈迭代优化基于计算的假设,从而实现从知识合成到科学假设与发现的跨越。

正如Rodriguez-Coffinet等人所强调的,目前AI智能体的优势主要在于总结和具体化已确立且有文献记载的知识。这些开创性的多智能体示例让我们得以一窥,AI智能体如何通过相互协作及与人协作形成跨学科团队,解决知识提取之外的复杂科学问题。虽然单个AI免疫学家尚未准备好提供创造性见解,但一支由AI免疫学家、AI研究人员以及专注于计算生物学、生理学、细胞工程和遗传学等多个领域的“护栏评论者”(guardrail “critics”)组成的团队,可能会越来越有效地以大胆创新的方式构思和解决悬而未决的生物学问题。随着免疫学数据的数量、分辨率和复杂性持续增长,非智能体基于AI的方法(如任务特异性机器学习和多尺度嵌入模型)(10)可与多学科AI智能体团队协同部署,助力创新性免疫学发现。



https://blog.sciencenet.cn/blog-41174-1513379.html

上一篇:纳米气泡热酸稳定性研究
下一篇:氢气和骨骼肌肉疾病综述【印度】
收藏 IP: 117.143.182.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-12-9 10:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部