博文

发现新的蛋白质空间结构

已有 8099 次阅读 2023-9-14 17:21 |系统分类:海外观察

蛋白质结构类似宇宙的暗物质，我们知道这种物质存在许多可能的空间结构，但我们不知道具体有哪些结构。利用AlphaFold神经网络对亿万个蛋白质结构机械能预测，然后从这些预测的结构中识别出新型结构模式，这可能成为发现新结构新功能的重要开始。预测未来越来越多新的蛋白质功能结构可能会被识别出来。

Sucrose-specific porin molecule model.

研究人员已经挖掘了一个包含几乎每个已知蛋白质结构的数据库，使用Google DeepMind的革命性AlphaFold神经网络预测了超过2亿个结构。这项工作揭示了完全新的形状、生命机械中令人惊讶的联系，以及几年前还无法想象的其他洞察。

Foldseek为AlphaFold蛋白质数据库提供了一个快速搜索工具。 “感谢AlphaFold，我们现在可以探索我们以前一无所知的整个蛋白质家族，”西班牙巴塞罗纳何塞佩·卡雷拉传染病研究所（IJC）的计算生物学家爱德华多·波塔帕尔多（Eduard Porta Pardo）说，他没有参与今年9月13日在《自然》上发表的一篇论文。

去年，谷歌DeepMind使用AlphaFold预测来自具有基因组数据的生物体的几乎所有已知蛋白质的结构，在AlphaFold数据库中积累了约2.14亿种结构，该数据库由英国欣顿的欧洲分子生物学实验室的欧洲生物信息学研究所（EMBL-EBI）托管。

蛋白质结构预测的科学家们发现这个资源非常方便，但其中许多人只查看了一种结构，或者是与之相关的结构家族，首尔国立大学的计算生物学家马丁·斯坦尼格尔（Martin Steinegger）说，他对映射整个数据库的关系感兴趣。 “我认为看看我们的结构宇宙真的有多大是很有趣的。”

为了做到这一点，斯坦尼格尔和计算生物学家佩德罗·贝特拉罗（Pedro Beltrao）在瑞士苏黎世的ETH Zurich领导的一个团队开发了一个工具，该工具可以快速比较数据库中的每种结构，基于它们形状的相似性。这在AlphaFold数据库中识别了超过200万个形状相似的蛋白质‘簇’。

传统上，研究人员使用基因编码的蛋白质序列进行此类比较。但是与它们的结构相比，蛋白质序列在进化时间内更容易发生变化，限制了找到非常远缘相关蛋白质的能力。斯坦尼格尔估计，通过比较蛋白质结构，他们发现的有关蛋白质簇的数量是仅使用序列时的十倍。

这些研究人员刚刚开始探索这些在新发现的‘星系’中，但已经出现了一些令人惊讶的联系。例如，他们发现一种人类和其他复杂有机体用来检测病毒DNA并触发快速免疫攻击的蛋白质在一个与单细胞细菌和古菌的蛋白质簇中——这是一个此前未知的联系，斯坦尼格尔说。

对于超过三分之一的蛋白质簇，目前几乎一无所知。“我真的希望生物学家能揭示这个黑暗之处的一些光明，”斯坦尼格尔说。

从未见过的形状第二个团队采取了稍微不同的方法来揭示蛋白质宇宙的暗物质。瑞士巴塞尔大学和瑞士生物信息学研究所的计算生物学家乔安娜·佩雷拉（Joana Pereira）、詹南·杜拉亚尔吉（Janani Durairaj）、托斯滕·施韦德（Torsten Schwede）等人创建了一个连接了5000多万个在AlphaFold数据库中最精确预测的结构的网络（该工具提供了它对自己预测质量的衡量）。然后他们使用这些分组来识别蛋白质宇宙的一些最黑暗的角落。

一个令人惊喜的是从未见过的一种蛋白质形状。研究人员称之为‘Beta花’，因为这种结构含有许多发夹状转弯——这些在被称为Beta桶的已知蛋白质形状中可以找到——类似于花瓣。含有Beta花的蛋白质彼此相距甚远，但目前还不清楚它们的作用，正在进一步研究该形状的佩雷拉说。

“这项工作实际上打开了一个潘多拉盒子般的项目。我们必须决定哪些值得优先考虑。”佩雷拉补充道。她和同事希望其他研究人员使用他们的网络来查看他们最喜欢的蛋白质如何融入更广泛的分子宇宙。

伦敦大学学院的计算生物学家克里斯汀·奥伦戈对探索蛋白质宇宙的新方法感到兴奋。但她警告说，一些被认为对整个蛋白质高度准确的AlphaFold预测可能不会准确地代表研究人员感兴趣的蛋白质的功能部分或域的形状。撇开那些异常，应该仍然让研究人员拥有一大堆新的蛋白质家族，奥伦戈说，“这太令人兴奋了”。

领导AlphaFold团队的谷歌DeepMind的约翰·朱伯没有参与这两项研究，他对研究人员开发新方法来探索他和他的同事们释放的宇宙感到兴奋。他认为这些研究是一个新领域的开始，在这个领域中，蛋白质结构以难以想象的规模被研究。 “我期待着更多的发现。”

‘A Pandora’s box’: map of protein-structure families delights scientists (nature.com)

Clustering-predicted structures at the scale of the known protein universe | Nature

蛋白质是所有细胞过程的主要参与者，从产生能量到细胞分裂。了解它们的结构对于研究其功能、进化以及可能的药物设计都至关重要。尽管我们过去几年对蛋白质序列的知识增长相当可观，达到了数亿个序列，但由于缺乏高度可扩展的实验方法，对它们3D结构的知识一直滞后。现在，通过序列预测结构的方法1、3、4的进步，使得已知蛋白质宇宙的蛋白质结构的可扩展预测成为可能。AlphaFold蛋白质结构数据库（AFDB）是一个公开可用的蛋白质结构和置信度指标的数据存储库，使用AlphaFold2 AI系统进行预测。尽管仍不如实验确定的结构，但在考虑预测局部距离差异测试（pLDDT）置信度指标的情况下，AlphaFold预测的结构总体评估为高质量。AlphaFold2及其预测的结构现已用于各种应用，包括研究蛋白质口袋、预测复合物结构研究结构相似性新的折叠预测以及甚至改善基因组注释。

预测蛋白质结构的大量增加促使开发更高效的计算方法，包括结构数据文件压缩口袋预测方法以及通过结构比对比较蛋白质结构。为此，已开发了Foldseek。与先前的方法相比，Foldseek可以通过将结构的比较速度提高四到五倍来增加结构的比较速度，同时保持敏感性，使得在大规模上进行结构比较成为可能。按结构对蛋白质进行聚类是分析结构数据库的关键工具，因为它可以实现远程相关蛋白质的分组。识别远距离关系可能为了解蛋白质结构演化和功能提供有价值的见解。例如，在涵盖人类和20个模型生物体的蛋白组中，初始发布的约36.5万个结构的蛋白质家族分析表明，该集合中的92%的预测结构域与现有的超家族匹配。然而，使用当前方法将所有2.14亿个结构相互比较需要大约10年的时间，即使在64核机器上也是如此。为了加快氨基酸序列的聚类过程，已经提出了一种线性时间算法Linclust17来显著减少计算时间。然而，这些方法尚未应用于基于蛋白质结构相似性的聚类。

本研究分析了包含21.4亿个跨越生命之树的预测结构的AlphaFold蛋白质结构数据库。为了能够探索这一资源，我们开发了一种高度可扩展的结构基聚类算法，基于Linclust17，在5天内使用64核在5200万个结构上进行结构性对齐和聚类。将AlphaFold结构数据库聚类成230万个簇，其中31%的簇代表4%的蛋白质序列，与先前已知的结构或家族注释不匹配。结果发现有532,478个簇的代表存在于整个生命之树上，还发现了几个特定于物种的结构簇，可能包含新基因诞生事件的示例。最后，使用结构比较来预测家族和它们的关系，识别假设的远程同源关系，扩大已知家族的进化覆盖范围。

转载本文请联系原作者获取授权，同时请注明本文来自孙学军科学网博客。
链接地址：https://blog.sciencenet.cn/blog-41174-1402628.html

上一篇：胖人越来越多，根源到底是什么？
下一篇：人工子宫技术将进入临床试验阶段

欢迎参加科学网十佳博文评选活动！

主办单位：

支持单位：

收藏 IP: 117.135.13.*| 热度|

当前推荐数：3 推荐人：聂广 崔锦华 晏成和

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

孙学军

扫一扫，分享此博文

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

发现新的蛋白质空间结构

当前推荐数：3 推荐人：聂广 崔锦华 晏成和

该博文允许注册用户评论请点击登录评论 (0 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

发现新的蛋白质空间结构

当前推荐数：3 推荐人： 聂广 崔锦华 晏成和

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

当前推荐数：3 推荐人：聂广崔锦华晏成和

该博文允许注册用户评论请点击登录评论 (0 个评论)