||
对微生物组的深入研究,有望为困扰我们的健康问题提供新的解决之道。
然而目前有大多数微生物基因组尚未被培养,就算在已发现的基因组序列中,也有很多无法进行功能注释。因此还不能充分捕捉微生物系统发育树的功能多样性,这限制了我们对生物序列高级特征进行建模的能力。而模型的构建又是微生物组研究中重要的一块。
这里我们介绍一个新发布的深度学习模型,为大家的微生物研究提供一些新的思路。
研究人员搭建了LookingGlass程序,应用RNN循环神经网络和LSTM长短期记忆神经网络学习方法,学习序列中的每个核苷酸字符,以达到能预测分类不同功能、同源性和环境起源的reads的目的。
LookingGlass模型还具有迁移学习的能力,经过微调后可以执行一系列不同的任务:例如识别新的氧化还原酶,预测酶的最适温度,以及识别氨基酸序列。
LookingGlass模型能够对其他未知和未注释的序列进行功能相关表征,从而挖掘微生物暗物质。
代表性细菌和古细菌基因组序列的分类由GTDB51(89.0 版)确定。
完整的基因组序列通过 NCBI Genbank ftp下载。这产生了 24,706 个基因组,包括 23,458 个细菌基因组和 1248 个古细菌基因组。
为了确定它们实际的序列长度,使用MetaSeek API下载了它们的测序元数据。去除长度<60bp或>300bp的样本,最终获得了平均序列长度为136bp的共计7909个样本。
LookingGlass模型的训练集、验证集和测试集都是在纲水平上划分的,在该分类水平下三者之间没有重叠的部分。
验证集为Actinobacteria, Alphaproteobacteria, Thermoplasmata, Bathyarchaeia每个物种下8个基因组,共计32个基因组;
测试集为Bacteroidia, Clostridia, Methanosarcinia, Nitrososphaeria物种下的共计32个基因组;
训练集为剩下的每个类别的1个基因组,共计32 个古细菌基因组和 298 个细菌基因组。
主要应用RNN循环神经网络和LSTM长短期记忆神经网络。
LookingGlass使用三层LSTM编码器模型,每个隐藏层有1152个单元,根据超参数调整的结果,embedding大小为104。
LookingGlass以自我监督的方式进行训练,根据序列中前面的核苷酸的上下文,预测一个被掩盖的核苷酸。
对于训练集序列中的每个reads,考虑多个训练输入,将被掩盖的核苷酸沿序列长度从第二位置移动到最后位置。因为它是一个字符级模型,线性解码器从可能的词汇“A”、“C”、“G”和“T”中预测序列中的下一个核苷酸,并带有“开始阅读”的特殊标记、“未知核苷酸”(对于不明确序列的情况)、“读取结束”(在LookingGlass训练期间仅对“读取开始”进行标记)和“填充”标记(仅用于分类)。
LSTM 的正则化和优化利用 dropout 和梯度下降方法以获得最佳性能,使用fastai 库进行训练。
硬件方面,LookingGlass在 Microsoft Azure 上,内存为 16GB的 Pascal P100 GPU 进行训练。总共训练了 12 天,共 75 个 epoch,根据超参数优化的结果逐渐降低学习率:15 个 epoch,学习率为 1e-2,15 个 epoch,学习率为2e-3,并以 1e-3 的学习速率进行 45 个 epoch。
通过随机搜索调整超参数,主要调整:
kmer size
stride
number of LSTM layers
number of hidden nodes per layer
dropout rate
weight decay
momentum
embedding size
bptt size
learning rate
batch size
功能注释预测的多分类混淆矩阵。横轴表示真实值,纵轴表示预测值。方块内的数值为归一化后的预测百分比,左边为预测正确的,右边为预测错误的。
图a表示对验证集中EC功能编号的第一个位置的预测,图b表示对第二个位置的预测,显示准确率都在80%以上。
LookingGlass在门水平上识别同源序列对。蓝色为同源(Homologous),红色为非同源(Nonhomologous)。
图a为embedding相似性度的组间比较,同源组显著高于非同源组,embedding相似度计算为embedding向量之间的余弦相似度。
图b为准确度、精确度、召回率和 F1分值的变化,可见在embedding相似性阈值为0.62时其准确度(accuracy)最高,达到了66.4%,这是指门水平的。文中表示在纲水平上达到了68.3%,在目水平上达到了73.2%,在科水平上达到了76.6%,在属水平上达到了78.9%。LookingGlass使用embedding方法区分同源和非同源序列,而不依赖它们的序列相似性(Smith-Waterman比对)。
图c比较了这两种方法在搜索同源物时的结果,图中的黑框表示被LookingGlass 正确识别的同源序列,但使用比对时遗漏了。可见许多同源物具有非常低的序列相似性(bit score<50),不能被基于比对的方法捕获到,但LookingGlass可以。LookingGlass识别同源基因的高精度,与它们的序列相似性无关,表明它捕捉到了高水平的特征,可能反映了序列之间的在系统发育上的关系。
来自100个不同环境样本的宏基因组功能注释集作为验证集。从中对每个环境组别中随机抽取20000个序列计算embedding相似度。发现组间的embedding相似性通常低于组内的,即来自相同环境背景的序列通常聚集在一起。
以LookingGlass的底层架构作为起点,微调预训练模型,以执行不同任务。
1. 预测分类氧化还原酶
对LookingGlass功能注释分类模型进行微调后,执行氧化还原酶的预测分类任务。
上图为对序列相似性(bit score<50)的序列,预测分类是否为氧化还原酶的编码基因的准确度、精确度、召回率和 F1分值的变化,结果表示默认阈值为0.5时,其准确度(accuracy)最高,为82.3%。
基于LookingGlass模型能够区分不同环境背景下的序列这一优势,研究人员使用来自16个海洋宏基因组作为测试集,样品覆盖范围从纬度(从-62 度到 76 度),海洋深度(从表层~5米到中层~ 200-1000米)以及氧浓度(包括来自氧最低区的4个中上层样品),并从中对每个宏基因组随机抽取 2000 万reads。
挖掘其中的氧化还原酶序列,并证明LookingGlass对氧化还原酶的分类优于传统的基于同源性的方法。
图a为LookingGlass在海洋表层区(surface)、中层区(mesopelagic)以及氧浓度最低区(OMZ)预测分类为氧化还原酶序列的比例。
图b为在海洋表层区组中,纬度与氧化还原酶的相关性,结果表示存在显著相关(R2 = 0.79,P = 0.04)。
图c为分别使用LookingGlass、MG-RAST和 mi-faser工具搜索氧化还原酶序列,并统计其预测为氧化还原酶(oxidoreductases)、非氧化还原酶(not oxidoreductases)和未注释(unannotated)的序列比例。结果为MG-RAST 注释了 26.7-50.3% 的reads,其中 0.01-4.0% 被鉴定为氧化还原酶。Mi-faser 注释了 0.17-2.9% 的reads,其中 0.04-0.59% 被鉴定为氧化还原酶。可见,LookingGlass更具优势。
2. 使用LookingGlass识别氨基酸序列
LookingGlass直接从CDS预测翻译帧起始位置(1、2、3、-1、-2 或 -3),准确率达到了97.8%,但目前仅用于非编码DNA比例较低的原核序列。
3. 从 DNA 序列片段预测酶的最佳温度
酶的最佳温度部分取决于 DNA 序列特征,但难以预测,尤其是短读长。将温度划分为嗜冷(<15°C)、嗜温(20-40°C)或嗜热(>50°C),微调LookingGlass程序后,输入序列预测最佳温度类别,准确率达70.1%。
LookingGlass程序能够不通过比对参考数据库来预测表征DNA序列,从而获得功能注释和系统发育相关信息。同时,LookingGlass的迁移学习框架能够快速学习、训练和收敛以适用不同分类任务,这对于未来复杂生物系统建模提供了一些贡献。
预测分类氧化还原酶可以挖掘位置序列的潜在功能,未来还会扩大可预测的酶类。预测酶的最佳温度可以用于指导蛋白质设计所需的功能和最佳温度。
总而言之,这是一个不错的探索。作者已经将本文所用到的模型功能封装为python库—fastBio,能够直接使用本文使用到的数据集进行模型训练,可在以下地址获得:github.com/ahoarfrost/fastBio/
主要参考文献:
Hoarfrost A, Aptekmann A, Farfañuk G, Bromberg Y. Deep learning of a bacterial and archaeal universal language of life enables transfer learning and illuminates microbial dark matter. Nat Commun. 2022 May 11;13(1):2606. doi: 10.1038/s41467-022-30070-8. PMID: 35545619; PMCID: PMC9095714.
本文转自:谷禾健康
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 05:39
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社