|
人工智能进军生命科学最让人激动的进展是解析蛋白质结构,AlphaFold几乎能把自然界所有的蛋白质结构分析出来。现在科学家开始了新的征途,就是利用人工智能协助制造自然界没有的蛋白质。甚至在氨基酸原料都可以进行重新设计,这样人类能获得几乎无限可能的蛋白质分子结构。让这些自然界不可能发生的也能发生,人类正处于创造生物分子的历史阶段。那么创造复杂生命,我是说创造自然界没有的有机生命,也只是不长的时间问题。
今年6月,韩国监管机构批准了有史以来第一种由人类设计的新型蛋白质制成的药物——COVID疫苗。这种疫苗基于一种球形的蛋白质“纳米颗粒”,这是科学家在近10年前通过一种劳动密集型的试错过程创造出来的。 现在,由于人工智能(AI)的巨大进步,西雅图华盛顿大学(UW)的生物化学家大卫·贝克(David Baker)领导的团队在《科学》上报告说,他们可以在几秒钟内设计出这样的分子,而不是几个月。
随着诸如DeepMind的蛋白质结构预测软件AlphaFold等人工智能工具被生命科学家所接受,这些努力是科学巨变的一部分。今年7月,DeepMind透露,最新版本的AlphaFold已经预测了科学界已知的所有蛋白质的结构。最近几个月,人工智能工具(有些是基于AlphaFold)出现了爆炸式的增长,这些工具可以快速创造出全新的蛋白质。在此之前,这是一项高失败率的艰苦追求。
西班牙赫罗纳大学的计算生物学家诺埃利亚·费鲁兹(Noelia Ferruz)说:“自从AlphaFold以来,我们在蛋白质设计方面的工作方式发生了变化。”“我们正在见证一个非常激动人心的时代。”
大多数研究都集中在可以帮助制造原始蛋白质的工具上,这些蛋白质的形状与自然界的任何东西都不一样,而没有太多关注这些分子的功能。但是研究人员——以及越来越多将AI应用于蛋白质设计的公司——希望设计出能做有用的事情的蛋白质,从清理有毒废物到治疗疾病。伦敦的DeepMind和加州门洛帕克的Meta(前身是Facebook)都在朝着这个目标努力。
“这些方法已经非常强大。他们会变得更强大,”贝克说。“问题是你打算用它们解决什么问题。”
从头开始
贝克的实验室在过去的三十年里一直在制造新型蛋白质。他的实验室在20世纪90年代开始开发一种名为Rosetta的软件,它将整个过程分成几个步骤。最初,研究人员通常通过拼凑其他蛋白质的片段来为一种新型蛋白质设计形状,然后软件推导出与这种形状相对应的氨基酸序列。
但这些“初稿”蛋白质在实验室中制作时很少折叠成所需的形状,反而最终被卡在了不同的确认中。因此,我们需要采取另一个步骤来调整蛋白质序列,使其只折叠成一个想要的结构。马萨诸塞州剑桥市哈佛大学的进化生物学家Sergey Ovchinnikov说,这一步包括模拟不同序列折叠的所有方式,计算成本很高。他曾经在贝克的实验室工作。“你可能需要一万台电脑连续运行数周才能完成这项工作。”
奥夫钦尼科夫说,通过调整AlphaFold和其他人工智能程序,这一耗时的步骤已经变成了瞬间完成。在贝克团队开发的一种名为“幻觉”的方法中,研究人员将随机的氨基酸序列输入一个结构预测网络;根据网络的预测,这改变了结构,使其变得更像蛋白质。在2021年的一篇论文中,贝克的团队在实验室中创造了100多种“幻觉”的小蛋白质,并发现了大约五分之一与预测的形状相似的迹象
AlphaFold和由贝克实验室开发的类似工具RoseTTAFold被训练用来预测单个蛋白质链的结构。但研究人员很快发现,这种网络也可以模拟多种相互作用的蛋白质的组装。在此基础上,贝克和他的团队相信他们可以产生幻觉,使蛋白质自我组装成不同形状和大小的纳米粒子;这些蛋白质将由单一蛋白质的大量拷贝组成,并与COVID-19疫苗所基于的蛋白质相似。
但是,当他们让微生物在实验室中进行创造时,150种设计都没有成功。“它们根本不会折叠:它们只是在试管底部的黏稠物,”贝克说。
大约在同一时间,该实验室的另一名研究人员、机器学习科学家Justas Dauparas正在开发一种深度学习工具,以解决所谓的逆折叠问题——确定与给定蛋白质整体形状相对应的蛋白质序列。Ovchinnikov说,这个名为ProteinMPNN的网络可以充当使用AlphaFold和其他工具创建的设计蛋白的“拼写检查”,通过调整序列,同时保持分子的整体形状。
当贝克和他的团队将第二种网络应用到他们产生幻觉的蛋白质纳米颗粒上时,他们在实验分子上取得了更大的成功。研究人员使用冷冻电子显微镜和其他实验技术确定了30种新蛋白质的结构,其中27种与人工智能主导的设计相匹配。该团队的创造包括具有复杂对称性的巨大环,这与自然界中发现的任何东西都不同。这项研究的共同负责人、生物物理学家卢卡斯·米勒说,理论上,这种方法可以用来设计几乎任何对称形状的纳米粒子。“看到这些网络能做什么是令人振奋的。”
深度学习革命
斯德哥尔摩大学的计算生物学家Arne Elofsson说,proteinMPNN等深度学习工具已经成为蛋白质设计的游戏规则改变者。“你画出你的蛋白质,按下一个按钮,你就能得到十倍有效的蛋白质。”通过结合多个神经网络来处理设计过程的不同部分,甚至可以获得更高的成功率,正如贝克的团队在设计纳米粒子时所做的那样。“现在我们已经完全控制了蛋白质的形状,”奥夫钦尼科夫说。
贝克实验室并不是唯一一个将人工智能应用于蛋白质设计的实验室。在本月发表在bioRxiv上的一篇综述论文中,Ferruz和她的同事统计了近年来使用各种方法开发的40多种人工智能蛋白质设计工具5。
其中许多工具,包括proteinMPNN,解决了逆折叠问题:它们指定了一个对应于特定结构的序列,通常使用从图像识别工具借来的方法。其他一些基于类似于语言神经网络(如GPT-3)的架构,它产生类似人类的文本;但是,相反,这些工具能够产生新的蛋白质序列。“这些网络能够‘说话’蛋白质,”Ferruz说,他参与开发了一个这样的网络。
加州大学伯克利分校的机器学习研究员克洛伊·许(Chloe Hsu)说,有这么多可用的蛋白质设计工具,我们并不总是清楚如何最好地比较它们。她与Meta7的研究人员开发了一个反向折叠网络。
许多团队评估了他们的网络从结构中准确确定现有蛋白质序列的能力。但这并不适用于所有的方法,科学家说,目前还不清楚这个被称为回收率的指标如何适用于新蛋白质的设计。Ferruz希望看到一场蛋白质设计竞赛,类似于两年一次的蛋白质结构预测关键评估(CASP)实验,在CASP实验中,AlphaFold首次证明了其优于其他网络。“这是一个梦。像CASP这样的东西将真正推动该领域的发展,”她说。
去湿实验室
贝克和他的同事们坚持认为,在实验室中制造一种新型蛋白质是对他们方法的终极测试。它们最初未能制造出产生幻觉的蛋白质就说明了这一点。“AlphaFold认为它们是神奇的蛋白质,但它们显然在湿实验室中不起作用,”贝克实验室的生物物理学家Basile Wicky说。他与贝克、米勒和华盛顿大学生物化学家Alexis Courbet共同领导了这项研究。
但伊利诺伊州芝加哥丰田技术研究所的计算生物学家徐金波(Jinbo Xu)指出,并不是所有开发蛋白质设计人工智能工具的科学家都能轻松获得实验设置。找一个可以合作的实验室可能需要时间,所以徐正在建立他自己的湿实验室,来测试他团队的发明。
贝克说,在设计具有特定任务的蛋白质时,实验也是必不可少的。今年7月,他的团队描述了两种人工智能方法,允许研究人员在一种新型蛋白质中嵌入特定的序列或结构8。他们利用这些方法设计了催化特定反应的酶;能够结合其它分子的蛋白质类;以及一种可以用于预防呼吸道病毒的疫苗的蛋白质,呼吸道病毒是导致婴儿住院的主要原因
去年,DeepMind在伦敦成立了一家名为Isomorphic Labs的衍生公司,打算将AlphaFold等人工智能工具应用于药物研发。DeepMind首席执行官德米斯•哈萨比斯(Demis Hassabis)表示,他认为蛋白质设计是深度学习技术的一个明显且有前景的应用,尤其是AlphaFold。“我们在蛋白质设计领域做了很多工作。现在还为时过早。”
Scientists are using AI to dream up revolutionary new proteins (nature.com)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-10 00:56
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社