|
AI已经具有根据氨基酸预测三维结构的能力,这种能力越来越强大。既然如此,人们可以随意设计出不同的氨基酸序列,然后让AI对这种结构进行预测,甚至对功能进行预测。这其实就意味着蛋白质结构设计实现自动化或数字化的基础。正是基于这些进展,蛋白质设计发展越来越快。蛋白质是形成生命的最重要结构基础,也是实现细胞和生命功能的重要分子。30多亿年的进化产生了几乎天文数字的蛋白质结构。但是理论上20种氨基酸能形成超天文数字的蛋白质类型,有许多生命进化中没有出现的蛋白质可能被进化忽视的。类似围棋比赛中从来没有被使用的对垒模式。利用今天的AI,能挖掘和开采这种蛋白质结构金矿。这些几乎无限可能的蛋白质,将为人类新药开发、分子材料带来巨大商机。
西雅图华盛顿大学(UW)的计算化学家大卫·尤尔根斯(David Juergens)即将设计一种蛋白质,自然界经过30多亿年的进化改进也从未产生过这种类型的蛋白质。
在一次视频通话中,Juergens打开了他开发的AI工具的云空间版本,称为RFdiffusion。这种神经网络和其他类似的神经网络能帮助定制蛋白质带入主流科学。直到最近,这是一种高度技术性且往往不容易成功的探索。
这些蛋白质可以成为疫苗、治疗药物和生物材料的基础。“这是一个完全变革的时刻,”马萨诸塞州萨默维尔的Generate Biomedicines的联合创始人兼首席技术官Gevorg Grigoryan说,这是一家将蛋白质设计应用于药物开发的生物技术公司。
这些AI工具的灵感来自合成逼真图像的人工智能软件,例如Midjourney软件,今年,该软件以制作教皇弗朗西斯穿着设计师白色羽绒服的病毒图像而闻名。研究人员发现,类似的概念方法可以按照设计师指定的标准生产出逼真的蛋白质形状。这意味着,可以快速绘制出应该与另一种生物分子紧密结合的新蛋白质。早期实验表明,当研究人员制造这些蛋白质时,有用的部分确实像软件建议的那样发挥作用。
研究人员说,在过去一年里,这些工具彻底改变了蛋白质的设计过程。“这是能力的爆炸式增长,”纽约市哥伦比亚大学的计算生物学家Mohammed AlQuraishi说,他的团队开发了一种这样的蛋白质设计工具。“你现在可以创造出具有抢手品质的设计。”
“你正在构建一个为问题定制的蛋白质结构,”华盛顿大学的计算生物物理学家David Baker说,他的团队,包括Juergens,开发了RFdiffusion。该团队于2023年3月发布了该软件,本周在《自然》杂志上发表了一篇描述神经网络的论文。1.(预印本版本于 2022 年底发布,大约与包括 AlQuraishi 和格里戈里安的在内的几个团队同时发布23,报告了类似的神经网络)。
Grigoryan补充说,蛋白质设计师现在第一次拥有了各种可重复和强大的工具,围绕这些工具可以创建一个新的行业。“下一个挑战变成了,你用它做什么?”
宏伟的设计
Juergens将他想要的蛋白质的一些规格输入到一个类似于在线税收计算器的网络表单中。它必须有100个氨基酸长,并形成对称的双蛋白复合物,称为同源二聚体。许多细胞受体采用这种配置,一种新的同源二聚体可能是一种合成的细胞信号分子,共同开发RFdiffusion的UW计算生物化学家Joe Watson也在视频通话中。但今天早上的设计除了类似于现实的蛋白质之外,并没有做任何事情。
几十年来,研究人员一直在努力构建新的蛋白质。起初,他们试图将现有蛋白质的有用部分拼凑在一起,例如催化化学反应的酶袋。这种传统的方法依赖于对蛋白质如何折叠和工作的理解,以及直觉和大量的试验和错误。科学家有时会筛选数千种设计,以确定一种如预期的那样工作。
贝克说,AlphaFold(由总部位于伦敦的人工智能公司DeepMind开发,现为Google DeepMind)和其他基于人工智能的模型带来了一个高光时刻,这些模型可以从氨基酸序列准确预测蛋白质结构。设计师意识到,这些在真实蛋白质序列和结构上训练的神经网络也有助于从头开始创建蛋白质。
在过去的几年里,Baker的团队和该领域的其他人已经发布了一系列基于AI的蛋白质设计工具。这些工具使用的一种称为幻觉的方法涉及创建一个随机的氨基酸串,然后通过AlphaFold或称为RoseTTAFold的类似工具进行优化,直到它类似于神经网络建议的东西可能会折叠成特定的结构。另一种称为修复,它获取蛋白质序列或结构的指定片段,并使用RoseTTAFold在其周围构建分子的其余部分。
但这些工具远非完美。实验倾向于表明,通过幻觉方法设计的结构在实验室中制造时并不总是形成折叠良好的蛋白质,例如,最终在试管底部粘稠。幻觉方法也很难制造除小蛋白质以外的任何东西(尽管其他研究人员在二月份的预印本中展示了如何使用该技术来设计更长的分子。4).当给出较短的片段时,修复在形成蛋白质方面也做得很差。即使这种方法确实产生了理论上的蛋白质结构,它也无法为一个会增加成功几率的问题提出不同的解决方案。
这就是RF扩散和最近几个月发布的类似蛋白质设计AI的用武之地。它们基于与生成逼真图像的神经网络相同的原理,例如稳定扩散、DALL-E 和中途。这些“扩散”网络在数据上进行训练,无论是图像还是蛋白质结构,然后逐渐变得更加嘈杂,最终与起始图像或结构没有相似之处。然后,网络学习“去噪”数据,反向执行任务。
RFdiffusion等网络是在存储在称为蛋白质数据库(PDB)的存储库中的数万个真实蛋白质结构上进行训练的。当网络制造一种新的蛋白质时,它从总噪声开始:氨基酸的随机分类。“你在问产生噪音的蛋白质是什么,”沃森解释说。经过几轮的去噪后,它会产生类似于真实但新的蛋白质的东西。
当Baker的团队在没有提供任何指导的情况下测试RF扩散时,除了蛋白质的长度之外,网络产生了多样化,逼真的蛋白质,与PDB中训练的任何东西都不同。
但研究人员也能够指导程序在去噪过程中根据特定的设计约束制造蛋白质,这一过程称为条件反射。
例如,Baker的团队调节RF扩散以制造包含特定折叠的蛋白质,或者可以依偎在另一个分子表面的蛋白质(结合的相互作用)。Grigoryan的团队甚至开发了一种名为Chroma的扩散网络,然后对其进行调节,使其形状类似于英语中使用的26个大写字母以及阿拉伯数字。3.
由AI设计的蛋白质类似于英文字母表中的字母。
来自噪声的信号
Juergens的计算机屏幕最初显示噪声,即AI系统启动的随机氨基酸分类。它们被表现为红色的、污迹斑斑的波浪线,类似于幼儿的手指画。它们一帧一帧地变形成越来越复杂的形状,具有类似蛋白质的特征,例如称为α螺旋的紧密螺旋和称为β片的带状形状。“这是一个很好的混合alpha-beta拓扑结构,”Juergens微笑着欣赏一个只花了几分钟就能完成的创作。“这看起来不错。”
该工具已在贝克的实验室中得到广泛使用。“与一年前相比,设计过程几乎无法辨认,”他说。神经网络在设计挑战中表现出色,这些挑战在使用其他方法时效率低下、困难或不可能。
在他们的研究中报告的一项分析1,研究人员从另一种蛋白质的片段开始,例如免疫细胞识别的病毒蛋白的一部分,并要求基于人工智能的工具生产出100种不同的新蛋白质,看看有多少会包含所需的基序。该团队对25种不同的初始形状进行了这项挑战。结果并不总是包含起始片段,但RF扩散产生了至少一种蛋白质,该蛋白质对23个基序起作用,而幻觉为15个,修复为12个。
RF扩散也被证明擅长制造蛋白质,这些蛋白质可以自组装成复杂的纳米颗粒,这些纳米颗粒可能能够输送药物或疫苗成分。以前的人工智能方法5也可以制造这些种类的蛋白质,但沃森说RFdiffusion的设计要复杂得多。
像RFdiffusion这样的神经网络在设计可以粘附在另一种特定蛋白质上的蛋白质时似乎真的很闪耀。Baker的团队利用该网络创造了与癌症,自身免疫性疾病和其他疾病有关的蛋白质紧密结合的蛋白质。他说,一个尚未发表的成功是为一种难以靶向的免疫信号分子设计了强大的粘合剂,称为肿瘤坏死因子受体 - 抗体药物的目标,每年产生数十亿美元的收入。“它拓宽了蛋白质的空间,我们可以制造粘合剂并做出有意义的疗法”,沃森说。
实际测试
Baker的团队正在制作如此多的设计,以至于测试它们是否按预期工作已成为一个严重的瓶颈。“一个机器学习的人可以生成足够的设计,让100名生物学家忙上几个月,”马萨诸塞州剑桥Microsoft研究的生物医学机器学习研究员Kevin Yang说,他的团队已经开发了自己的基于扩散的蛋白质设计工具。6.
但早期迹象表明,RFdiffusion的创造是真正的交易。在他们的研究中描述的另一个挑战中,Baker的团队要求该工具设计含有p53关键片段的蛋白质,p95是一种在许多癌症中过度活跃的信号分子(并且是抢手的药物靶标)。当研究人员对该软件进行了53种设计(通过改造细菌来表达蛋白质)时,超过一半的人保持了p2与其天然靶标MDM1结合的能力。最好的设计比天然p000强烈53倍。当研究人员用幻觉尝试这项任务时,这些设计 - 尽管预测会起作用 - 并没有在试管中成功,沃森说。
总体而言,Baker说,他的团队发现,10-20%的RFdiffusion设计与预期目标的结合力足以发挥作用,而早期的AI方法只有不到1%。(以前的机器学习方法无法可靠地设计粘合剂,Watson说)。华盛顿大学的同事、生物化学家马蒂亚斯·格洛格尔(Matthias Gloegl)说,最近他的成功率接近50%,这意味着可能需要一两个星期就能提出可行的设计,而不是几个月。“这真的很疯狂,”他说。
漏斗形蛋白质组件(顶部)和具有六个蛋白质链的环状结构(底部),使用基于扩散的 AI 艺术发生器从噪声中设计。
根据马萨诸塞州剑桥市哈佛大学的进化生物学家谢尔盖·奥夫钦尼科夫(Sergey Ovchinnikov)的说法,到100月下旬,基于云的RFdiffusion版本每天约有<>名用户。澳大利亚悉尼大学的生物化学家乔尔·麦凯(Joel Mackay)一直在涉足射频扩散,以设计能够与他的实验室研究的其他蛋白质结合的蛋白质,其中包括控制细胞中基因活性的转录因子分子。他发现设计过程很简单,并使用计算机建模来验证,理论上,蛋白质应该与转录因子结合。
Mackay现在正在测试这些蛋白质在细胞中产生时是否可以按预期改变基因表达。他手指交叉,因为这样的发现相当于一种在细胞内打开和关闭特定转录因子的简单方法,而不是使用可能需要数年才能识别的药物,如果它们能被发现的话。“如果这种方法可靠地适用于我们的蛋白质类型,它将完全改变游戏规则,”他说。
未来的改进
最新的模型,如RF扩散是一个“步骤变化”,英国牛津大学的免疫信息学家Charlotte Deane说。但关键挑战依然存在。“它将激励人们看看我们可以将这些扩散方法推向多远,”她说。
她和其他科学家和生物技术公司特别感兴趣的一个应用是设计更复杂的结合蛋白,如抗体,或T细胞(一种免疫细胞)使用的蛋白质受体。这些蛋白质具有与靶标互锁的柔性环,而不是RFdiffusion迄今为止擅长的三明治状扁平界面。贝克说,他们在抗体方面正在取得进展。
Ovchinnikov和其他人表示,一般来说,设计生物分子具有挑战性,其功能取决于软盘区域,使它们能够采用许多不同的形状。事实证明,这些特征很难使用AI进行建模。“如果问题是,我们能不能绑定到其他东西并抑制它,”Ovchinnikov说,“我认为这个问题将通过这些方法解决。但为了做一些更复杂的事情,更像大自然所做的,你需要引入一些灵活性。
加州大学旧金山分校的计算生物学家Tanja Kortemme正在使用RFdiffusion来设计可用作传感器或控制细胞开关的蛋白质。她说,如果蛋白质的活性位点取决于几个氨基酸的位置,人工智能网络做得很好,但它很难设计具有更复杂的活性位点的蛋白质,需要更多的关键氨基酸到位——这是她和她的同事试图解决的挑战。
最新扩散方法的另一个局限性是它们无法产生与天然蛋白质截然不同的蛋白质,Yang说。他说,这是因为人工智能系统只对科学家表征的现有蛋白质进行了训练,并且倾向于制造类似于这些蛋白质的蛋白质。生成看起来更外星人的蛋白质可能需要更好地了解赋予蛋白质功能的物理学。
这可以更容易地设计蛋白质来执行天然蛋白质从未进化过的任务。 “还有很大的增长空间,”杨说。
AlQuraishi说,最新的蛋白质设计工具已被证明在创造可以完成特定任务的蛋白质方面非常强大 - 只要该功能可以用形状来描述,例如要结合的蛋白质表面。但是,他补充说,像RFdiffusion这样的工具还不能处理其他类型的规格,比如制造一种可以进行特定反应的蛋白质,无论其形状如何 - 当“你知道你想要什么,但你不知道几何形状是什么”时。
未来的蛋白质设计工具还需要能够按照许多不同的标准生产蛋白质,Grigoryan说。潜在的治疗性蛋白质不仅必须与其靶标结合,而且不能与其他靶标结合,并且应具有易于大规模生产的特性。
研究人员正在探索的一个方向是,是否可以使用纯语言文本描述来设计蛋白质,类似于提供给Midjourney等图像生成工具的提示。“你真的可以想象我们将能够写出蛋白质的描述,并对其进行合成和测试,”沃森说。
格里戈里安和他的同事们已经朝着这个目标迈出了一步。在 2022 年 <> 月的预印本中3,他们训练Chroma在其设计中附加描述,并将设计吐出基于文本的规范,包括“具有CHAD结构域的蛋白质”(包含多个螺旋的蛋白质形状)或“转氨酶的晶体结构”(参与制造和分解蛋白质的酶)。
Juergens今天早上几分钟内创建的蛋白质只是蛋白质3D结构的模型。然后,Juergens使用另一种AI工具来提出应该折叠成该结构的氨基酸序列。作为最后的检查,他将这些序列插入AlphaFold,以查看软件是否预测出与设计相匹配的折叠结构。它们是正确的,AlphaFold预测与设计平均仅相差1 ångström(氢原子的宽度)。
“这是我们认为设计成功的准确性,”Watson说。他说,唯一要做的就是看看蛋白质在现实生活中的表现。
论文链接:
1. https://www.nature.com/articles/s41586-023-06415-8
2. https://www.science.org/doi/10.1126/science.abj8754
3. https://www.science.org/doi/10.1126/science.adf6591
4. https://www.nature.com/articles/s41586-023-05696-3
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 00:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社