|
研究人员利用人工智能(AI)发现了70,500种之前科学界未知的病毒,其中许多病毒形态怪异,与已知种类大相径庭。这些RNA病毒是通过宏基因组学识别出来的,在这种方法中,科学家无需培养单个病毒即可采集环境中存在的所有基因组样本。这一方法展示了AI探索RNA病毒宇宙“暗物质”的潜力。
病毒是普遍存在的微生物,可以感染动物、植物乃至细菌,但仅有一小部分被识别和描述。加拿大多伦多大学的计算病毒学家Artem Babaian表示,实际上有“一个无底洞”般的病毒等待被发现。他说,这些病毒中的一些可能会导致人类疾病,因此,对它们进行特征描述可能有助于解释一些神秘的疾病。
先前的研究已经使用机器学习在测序数据中找到新病毒。本周发表在《细胞》杂志上的最新研究进一步推进了这项工作,并使用它来查看预测的蛋白质结构。
AI模型结合了一个由Meta(前身为Facebook,总部位于加利福尼亚州门洛帕克)的研究人员开发的蛋白质预测工具ESMFold。伦敦Google DeepMind的研究人员开发了一个类似的AI系统AlphaFold,他们在本周获得了诺贝尔化学奖。
未发现的病毒
2022年,Babaian及其同事搜索了公共数据库中存档的570万个基因组样本,并鉴定出近132,000个新的RNA病毒。其他团队也进行了类似的努力。
但是,RNA病毒进化迅速,因此现有的在基因组序列数据中识别RNA病毒的方法可能会遗漏很多。一种常见的方法是寻找编码用于RNA复制的关键蛋白——RNA依赖性RNA聚合酶(RdRp)的基因组部分。但如果病毒中编码这种蛋白的序列与任何已知序列大不相同,研究人员就无法识别它。
中国深圳中山大学的进化生物学家Shi Mang以及《细胞》研究的合著者和同事们在公开可用的基因组样本中寻找以前未被识别的病毒。
他们开发了一种名为LucaProt的模型,使用了支撑ChatGPT的“transformer”架构,并将其与测序和ESMFold蛋白质预测数据一起输入。然后他们训练模型识别病毒RdRps,并使用它来找到编码这些酶的序列——这些序列属于病毒的证据——在大量基因组数据中。使用这种方法,他们鉴定出了大约160,000个RNA病毒,包括一些异常长且存在于如热泉、盐湖和空气中等极端环境中的病毒。几乎一半的病毒以前未被描述过。Babaian说,他们发现了“在进化空间的偏远地区真正远离主流的小型RNA病毒生物多样性区域”。
CSIRO澳大利亚疾病预防中心的进化病毒学家Jackie Mahar表示:“这是扩大病毒圈的一个非常有前途的方法。”她说,对病毒进行特征描述将帮助研究人员理解微生物的起源以及它们在不同宿主中的进化方式。
Babaian表示,扩大已知病毒的范围使得发现更多类似病毒变得更加容易。“突然间你可以看到一些之前根本看不到的东西。”
该团队无法确定他们鉴定出的病毒的宿主,Mahar表示这应该进一步调查。研究人员特别感兴趣的是了解是否有任何新病毒能感染古菌,这是一个生命树的分支,目前还没有明确显示有RNA病毒感染过这个分支。
Shi目前正在开发一个模型来预测这些新识别的RNA病毒的宿主。他希望这将帮助研究人员理解病毒在其环境生态位中的作用。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-3 11:27
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社