i18928471899的个人博客分享 http://blog.sciencenet.cn/u/i18928471899

博文

科研 | Nature Biotechnology:地球微生物组的基因集

已有 3820 次阅读 2021-5-21 17:27 |系统分类:论文交流


译:许茜,编辑:小菌菌、江舜尧。

原创微文,欢迎转发转载。



导读


宏基因组鸟枪测序法对细菌和古菌基因组的重建使我们对宿主-相关微生物群落和环境的生态与进化有了更深入的了解。本研究运用该方法测定了来自地球陆地和海洋各种栖息地上超过10,000个宏基因组(包括人体和动物宿主、工程环境、自然和农业土壤)以获取现存微生物、代谢及功能潜力信息。这个整合的微生物组基因集包含52,515个宏基因组组装基因组,代表了12,556个新的候选种水平的操作分类单元(OTUs),跨越135个门。该微生物基因组集将已知的细菌和古菌系统发育多样性扩展了44%,而且被广泛地用于简化比较分析、交互式探索、代谢建模和批量下载中。本研究还阐述了该微生物基因组集在理解次级代谢生物合成以及解决数千个宿主与未培养病毒关联性问题方面的效用。此外,微生物组基因集强调了以基因组为中心的方法揭示了影响生态系统过程的未培养微生物基因组特性方面的价值。


论文ID


原名:Facilitation promotes invasions inplant-associated microbial communities

译名:地球微生物组的基因集

期刊:Nature Biotechnology

IF:36.553

发表时间:2020.11

通讯作者:Emiley A. Eloe-Fadrosh

通讯作者单位:美国能源部联合基因组研究所


前言


目前还有很多微生物无法进行培养,只能通过与培养无关的分子学方法来获取他们的信息。对基因组信息进行解析的宏基因组学可以对微生物群落的组成基因组进行重建,首次被应用于低复杂性的酸性矿山排水区微生物中。凭借先进的计算方法和测序技术,该方法目前已被用于更大尺度的多种环境中,包括全球海洋、牛瘤胃、人体微生物组、深层地下和含水层。这些研究成果让我们对不能培养细菌和古菌的进化关系及代谢特性有了更深一步的认识。

除了对微生物生命树的扩展与填充,一个对未培养的细菌和古菌整合的基因集将为大范围的比较基因组学、挖掘感兴趣的基因和功能(如CRISPR–Cas9变种)以及构建基因尺度的代谢模型提供机会以形成一套系统生物学方法。此外,最近研究中有关未培养细菌和古菌基因组重建为真核生物的进化轨迹及古生物特征带来了独特视角。

本研究我们运用大范围的基因组解析宏基因组学得到了52,515个中、高质量的宏基因组组装基因组(metagenome-assembledgenomes MAGs),并形成了地球微生物组基因集的基因组(Genomes from Earth’s Microbiomes GEM)。GEM集是从不同微生物栖息地和地理位置采样并构建而成的,包括10,450个宏基因组。这些基因组代表了12,556个新的候选种水平的操作分类单元(operationaltaxonomic units OTUs),也是获得未培养细菌和古菌广泛的系统发育和功能多样性的资源。为了阐述清楚这个资源的价值,我们用GEM收集地球生物群落的宏基因组信息,鉴别新的生物合成能力、进行代谢建模和预测宿主-病毒间的联系。


图片

框架图



结果



1 从不同环境宏基因组中得到了超出52,000个宏基因组组装基因组



我们对分布在全球不同生境(包括海洋和其他水生生态系统、与人类和动物宿主相关的环境、土壤以及其他陆地环境)的10,450个宏基因组进行了宏基因组组装和分箱,然后得到了52,515个MAGs(图1a-c)。这些宏基因组数据一部分来源于公开数据集,还有一部分来自数千个未公布的数据集(IntegratedMicrobial Genomes and Microbiomes IMG/M数据库提供)。这个MAGs全球集覆盖了地球陆地海洋尤其是北美、欧洲和太平洋地区(图1d)。该GEM集可随环境元数据一起批量下载,而且还可以通过IMG/M或者能源部(Departmentof Energy DOE)系统生物学知识库门户进行交互式探索以简化比较分析和代谢建模。

 


图片



图1 宏基因组组装基因组地理环境分布。(a)从不同地理环境IGM/M数据集基因组中得到了52,515个MAGs。通过最先进的组装流程对大部分宏基因组进行重组,最终形成GEM集。对以上所有MAGs的筛选条件为完整度≥50%,污染度≤5%,且质量分数(完整度-5*污染度)≥50。(b)MAGs中质量指标分布,每个箱线图上随机选择大约200个数据点以分别显示最小值、第一四分位数、中位数、第三四分位数和最大值。(c)基于基因组在线数据库(GenomesOnLine Database GOLD)环境元数据的生物群落和亚生物群落MAGs分布,与每个亚生物群落相关的MAGs数在图旁边标出。(d)每个生物群落的MAGs地理分布。

 

GEM集中的MAGs符合或超出MIMAG标准的中等质量水平,其中9,143个MAGs由于存在几乎完整的rRNAs、tRNAs和单拷贝的蛋白质编码基因而属于高质量级别。高质量级别的GEMs基因组大小变化范围为0.63-11.28Mb,预估大多数小型的MAGs属于减少基因组谱系的类型如Nanoarchaeota或Mycoplasmatales,同样大型的MAGs属于Myxococcota和Planctomycetota。基因组大小和GC含量在与宿主相关的微生物中最低(中值:2.61Mb;46.9%),而在陆地微生物中最高(中值:3.77Mb;57.1%)这与土壤环境中泛基因组的扩展是一致的。MAG大小与相同物种的分离基因组也是一致的,表明单个基因组的基因含量没有出现重大损失(图2)。唯一的例外是苜蓿中华根瘤菌,它的MAGs是从根瘤中重组得到的,比分离基因组约大两倍。尽管分箱重叠群的四核苷酸频率组分显示整体上具有好的一致性,但还是检测到大量的多核苷酸多态性(single nucleotidepolymorphismSNPs)说明是从同一种群的两个菌株中生成的复合产物。另外,我们还比较了Parks等人独立组装的GEM样本的子集MAGs,这进一步增加了我们对复合基因组进行分箱的可重复性。

 


image.png



图2 GEM集中参考基因组大于500,000的物种簇 (a)对当前研究中的 MAGs 与 IMG/M 和 NCBI 中发现的524,046个公开可用的参考基因组进行比较。所有的参考基因组均符合GEM集中所用的最低质量标准。在30%的可比对序列长度(AF)和95%的平均核酸一致性(ANI)的基础上,将所有MAGs与参考基因组聚类形成45,599个种水平OTUs。(b)不同基因组序列间的OTUs重叠部分,当前研究中的MAGs第一次揭示了12,556个物种的基因组。(c)尽管在多个地理位置发现了超过1/3的OTUs,GEM集中大多数大于1的OTUs被局限于单个生物群落或亚生物群落中。(d)在12,556个新鉴定的物种中,大部分仅由一个基因组代表。(ef)将当前的数据集与之前发表的16个最大的基因组研究进行比较,在物种多样性基础上进行对比,当前研究的基因组多样性超出以前研究的3倍。

 

分类学上定义的参考基因组通常被用来推断宏基因组中微生物的丰度但是不能补充人体之外的大多数微生物组测序reads。为了探索GEM的MAG是能否解决这个问题,我们将3,170个可用的宏基因组高质量reads与GEMs以及美国国立生物技术信息中心参考序列库(NCBIRefSeq)的所有分离基因组reads进行了对比。发现每个样本将30.5%和14.6%的宏基因组reads分别平均分配给一个或多个GEMs或者分离基因组。所有样本中GEMs使得mappedreads增加了3.6倍,这在生物反应器和无脊椎动物宿主等环境中尤为明显。尽管有了一些改善,但还有将近70%的reads仍然未比对到MAG或分离基因组中。因为土壤中的群落比较复杂而且组装具有挑战性而表现得更明显。与这个结论相一致,k-mer多样性最高的宏基因组往往具有最低的mapping率。这些群落可能包含与之密切相关的生物体,这对宏基因组组装和分箱来说是一个主要的问题。mapping率低也可能反映了病毒、质粒和微生物真核生物的存在,而本研究所用的分析流程未对他们进行恢复获取。


2 GEM集扩展了整个生命树的基因组多样性

为了发现新的种水平多样性我们基于95%的全基因组平均核苷酸相似度(Average Nucleotide Identity,ANI)GEMs进行了聚类发现了18,028个物种水平OTUs(图2ab)。尽管原核生物的物种概念是备受争议的,这个操作化定义还是被广泛使用且被认为是一个黄金准则。在基因组分类数据库(GenomeTaxonomy Database GTDB)分类注释的基础上,我们发现GEMs涵盖了137个已知的门、305个已知的纲,以及787个已知的目。大多数非单一序列的OTUs包含来自单一环境或者多个相近且相互联系的环境,说明尽管接近40%的物种是在多个采样地点发现的,但几乎没有物种具有广泛的栖息地范围(图2c)。MAGs的累计曲线显示出物种水平OTUs没有平稳期,表明整个生物群落中还有更多的物种有待发现,这个结果也可以从低的mappedreads中得知。

接下来,我们将这18,028个OTUs与524,046个参考基因组的扩展数据集(包括大于300,000前人研究的MAGs、大于200,000纯培养物中分离出的生物体基因组以及大于2,000的单扩增基因组)(图2a)进行了比较。所涉及到的大型MAG研究是在人类微生物组、全球海洋、含水岩系、多年冻土融化梯度、牛瘤胃、高盐湖泊沉积物、以及热水沉积岩中进行,还包括一些大型的分离基因组测序如细菌和古菌基因组百科全书(GEBA)项目、人类微生物组计划(HMP),尽管其中一些未涉及到,但已公开发表。所有的参考基因组与我们的GEM数据集遵循相同的质量标准。

显而易见的是来自GEM集的12,556个OTUs与参考基因组不同(95%的ANI),因此来表示新的候选物种。同时,70%的参考基因组被纳入GEM集(大于95%ANI),表明很好的涵盖了目前存在的基因。在326个研究中发现了新的OTUs,平均每个研究中有40个。微生物暗物质(MDM)Ⅱ期,一个GEBA-MDM的扩展项目,在80个宏基因组的1,124个MAGs中发现了790个新的OTUs。这12,566个新的OTUs中大多数与参考基因不相关或根本不一致,而且超过99%的未在GTDB中进行注释,这极大的支持了他们的新颖性。但是来自新的OTUs中的MAGs不太完整,有轻微的污染,且以单体形式出现。这些观察结果通常由一些因素来解释,比如未培养谱系的基因组减少、组装16sRNA位点的问题以及恢复稀有生物圈时面临的挑战。

我们将未纳入GEM集的参考基因聚类到额外的27,571个OTUs中,得到了一个45,599物种水平的OTUs数据集(图2ab)。这表明当GEM集包含更少的基因组时,与以往发表的研究相比,它具有超出3.8倍的多样性(图2e)。例如,Parks等人对NCBISequence Read Archive中可用的所有环境宏基因组进行了大规模组装和分箱,以前所未有的努力扩大未培养谱系的基因组表示。根据目前研究的聚类和质量控制,这10,728个MAGs代表了5,200个OTUs,仅涵盖了GEM集的12%OTUs。

然后,我们基于30个串联标记基因构建了45,599个OTUs的统发育树(图3a)。对其进行系统发育分析发现它是迄今为止最具多样性的数据集(图2f)。总而言之,GEM集将细菌和古菌的整个系统发育树多样性增加了44%,且代表了已知多样性的31%。在不同的类群中,系统发育多样性增加是一致的,但对于一些大型的遗传支系如Planctomycetota、Verrucomicrobiota和Patescibacteria增加较高(图3b)。尽管最近在与人类相关的MAG研究中(图3b),没有发现新的多样性,但GEM集在不同的环境中产生了一些可变的增加。值得注意的是,这些分析还表明已编目的微生物多样性的75%由未培养基因组来表示。

 


图片



图3 GEM集填补了生命树的空缺(a)基于30个普遍分布的串联单拷贝基因对45,599个OTUs中的43,979构建系统发育树。全序列包含4,689个氨基酸位,每个OTU包含至少30%位数据。根据系统发育距离,将种水平OTUs进一步聚类为1,928个近似级别的分支。绿色的分支表示仅由GEM集代表的新谱系。内部的条形图表示该目是新鉴别出的(绿色)还是已知的(灰色)。紧接着的条形图表示该目是未培养(蓝色)还是已培养的(灰色)。接下来的4个条形图为目的环境分布,最后一个图表示从GEM每个目中的MAGs数目。(b)由GEM集/参考基因组(绿色)或培养/未培养的基因组(蓝色)代表的子树计算得出系统发生多样性。灰色表示在分类组(左)和不同环境中(右)所占系统多样的比例。

 

为了确定GEM集是否包含更高分类级别的新谱系,我们使用相对进化差异(RED)将所有45,599个OTUs聚类成单系群,包括单属,代表16,062属,5,165科,1,928目,368纲和129门。在门水平,我们鉴定了由GEMs代表的16个分支,可能是新的演化门。但是这些分支仅由29个GEMs支持,使用GTDB-Tk(28/29)工具,将他们分配给已知门。在更低的分类级别上,鉴定出的新类群数量增多,包括456个新目、1,525个新科和5,463个新属。我们得出结论:与之前的宏基因组分箱研究中发现大量新谱系相反,当前的基因组序列代表了大多数深层次分支的谱系。


3 GEMs的基因编码功能潜力

为了提供一个代谢潜力的系统级别简介,我们在KBase数据库中为每个环境代表大于40的非冗余、高质量GEMs构建了基因组尺度的代谢模型。除了已知的代谢途径,我们假设来自GEM集的MAGs含有一个新的功能库。为了解决这个问题,我们编辑了一个574,145蛋白质簇(PCs),其代表了111,428,992个全长基因,其中51.7%的PCs含有至少两个序列。与TIGRFAM或KEGGOrthology数据库相比,大多数PCs均未进行功能注释,而且很多还缺少单个蛋白结构域(TIGRFAM, KEGG 和Pfam未解释的分别为95.2%、88.9%和74.5%)。相比之下,通过IMG/M获得的76,000个参考细菌和古菌基因组的2.7亿个基因中,这些基因在TIGRFAM,KEGG 和Pfam中未解释的百分比分别约为70%、50%和20%。接近70%的PCs未被这三个任意的数据库进行功能注释,47%与UniRef参考资料库无显著的相关性。虽然最大的PCs是已知的,但有几个大型的PCs无任何注释,包括至少有1,000个成员的356个簇,至少100个成员的28,869个簇。

虽然系统地解释GEMs的功能能力超出了该研究的范围,但我们做了一些说明性的简介。首先,我们发现因新古菌门成员如Halobacterota、Hadesarchaea以及Crenarchaeota谱系的存在,GEMs概括了对产甲烷作用范围扩大的研究。在较低的分类级别上,我们在GEMs中为Coxiella属鉴定了新的物种,包括与健康和经济负担有关的Bbioterrorism agent Coxiella burnetii科,提供了一个机会以获取对该属中宿主-病原体相互作用进化的新见解。在GEMs中发现了一些致毒因子包括用于将效应蛋白传递到宿主细胞的细胞质中的Dot/IcmIV型分泌系统。然而缺少特有的C.burnetiiT4SS因子。因此GEMs为最高和最低的分类等级新发现提供了潜力。


4 广泛而多样的次生代谢生物合成潜力

大多数代谢产物是从少数培养细菌中分离出的,这些细菌包括Streptomycetes、Pseudomonas、Bacillus 和 Streptococcus。近期研究对土壤宏基因组数据的挖掘已经扩展到Acidobacteria门、Verrucomicobia、Gemmatimonadetes以及候选 Rokubacteria成员的代表性,GEM集提供了一个独特的机会在此分类学和生物地理学多样性的基因组集合中探索编码的次级代谢生物合成基因簇(BGCs)的组成。我们使用AntiSMASH在52,515个GEMs中鉴定了104,211个假定的BGC区域。相比之下,这表示IMG/ ABC中的BGCs增加了31%,是手动管理的MIBiG数据集的大小的54倍。大约66%的GEM BGC与一个或多个重叠群边界相交,表明大多数可能不完整,这与此前基于碎片的复原方法结果一致。通过GEM集,我们对每个BGC合成的次生代谢物进行分类(图4a)。从104个门中鉴定出总共44,835个基因簇或含有非核糖体肽合成酶(NRPSs)或聚酮合成酶(PKSs)的簇片段,从79个门中鉴定出23,738萜烯簇以及从76个门中鉴定出了12,360个核糖体肽化合物(RiPP)簇。尽管碎片可能以无法预测的方式歪曲了实际簇数量,但我们观察到的趋势可能正是自然的反映。例如,Firmicutes的RiPP数量异常高,而ThermoplasmatotaVerrucomicrobiota的萜烯簇数量相对较高。因为在BGC簇相对含量中无环境来源显示明显的偏差,对BGC的环境趋势分析不太清楚(图4a)。如果准确的话,这意味着特定的化学反应不受环境的限制或放大,并且大多数种类的次级代谢产物几乎可以在任何地方找到。

 


图片



图4 从GEMs集中恢复的生物合成基因簇。(a)优势门(左)和栖息地(右)的BGC类型的相对频率。在门中变化很大,而在生境中很稳定。(b)在土壤细菌中发现单一最大的BGC区域推测可能为酸杆菌门(Acidobacteria)和UBA5704属,

 

为了评价BGC的新颖性,我们根据NCBI的核苷酸序列集查询了每个BGC的序列。使用75%的同一性阈值对比超过80%的查询长度,我们识别出87,187个编码新化学物质的假定的新型BGCs。尽管许多模块集群是片段化的,但我们识别出3,000个长度超出50kb,17,000个超出30kb的BGC区域。总的来说,GEM集具有预测新的BGC丰富来源的潜力,并为探索已知进化分支以外的生物合成潜能提供了充足的机会。黏球菌属(Myxococcus)显示出有前景的生物合成潜力,在232个MAGs中有1752个区域以及由antiSMASH定义的BGC科种类繁多。单一最大的BGC区域是在土壤细菌中发现的,推测可能为酸杆菌门(Acidobacteria)和UBA5704属,编码数量可观的62个PKS或NRPS模块,具有3条清晰的共线模块链(图4b)。尽管很多已知的酸杆菌门含有PKS和NRPS簇,但这个MAG还包含额外的BGC区域,表明其生物合成潜力水平可能被低估了。


5 GEMs揭示了数千种新的病毒-宿主关联性

除了微生物基因组的组装外,最近的研究还强调了如何利用挖掘宏基因组来获取新的病毒基因组。然而,大多数未培养的病毒不能与微生物宿主相关联,这对他们在自然界所扮演的角色及影响是非常重要的。我们假定来自于GEM集的MAGs可以被用来改进对病毒基因组的预测。因此,我们结合CRISPR-spacermatches和基因组测序matches确定了52,515个GEMs与IMG/VR中760,453个病毒的联系,结果具有良好的一致性。IMG / VR病毒与相应的宿主类群相联系,并且超过96%的已关联病毒和GEM来自基于GOLD环境本体的最高级别的相似环境。将两个方法结合,我们预测了23,082个GEMs与81,449个IMG/VR病毒的联系(图5a),使预测宿主的IMG/VR病毒总数增加了2.5倍以上。然而这些扩展的病毒-宿主联系仍然覆盖了来自IMG/VR760,453个病毒基因组的10.7%以及GEM集MAGs的44%。这一点在某些门如Thermoplasmatota门得到了验证,其病毒仅与624个组装MAGs的1.6%联系。

 


图片



图5 MAGs解决了病毒-宿主关联的问题。(a)GEM集中细菌和古菌门与病毒联系。条形图显示了每一个门含有大于等于100 MAGs 的病毒的 MAGs 的百分比。门的名字来源于GTDB,右边的数字代表每个门的 MAGs。条形的颜色表示病毒与宿主的连接方式; 白色表示与任何病毒无关的 MAGs 的百分比。(b)具有相关宿主信息的DJR病毒的系统发育。对于同一宿主其每个分支有大于等于3个DJR序列,宿主信息和与DJR相关的同一宿主分支序列的数目一起在分支旁边显示。首先是参考序列,然后是GEM集参考序列来自等人研究,分支根据宿主信息的来源进行着色,从GEM集中鉴定出的新宿主用粗体标记。

 

为了解决这一局限性,我们在仔细去除病毒污染后使用VirSorter对GEMs中的整合噬菌体进行了重新预测。这种方法提供了另外10,410个病毒与7,805个GEMs的相互联系。这些新颖的源自MAG的病毒-宿主关联包括几类尚未充分研究的如DJR谱系是一种经常被忽视的无尾双链DNA病毒。最近关于DJR病毒多样性的研究揭示这个病毒的群体成员感染了生命树三个领域的宿主,但他们也强调了没有已知宿主的亚群。本文我们在GEM集中确定了73个DJR序列,这为另外4个DJR进化分支提供了宿主信息(图5b)。此外,其中两个进化分支通过GEMs集与未培养且目前还未被确定为假定的DJR宿主的古菌和细菌群相联系。除了DJR,我们还确定了两个单链DNA科的假定宿主,包括4个Microviridae分支和28个Inoviridae分支。总而言之,这些不同的例子展示了MAGs如何能来决新的病毒-宿主联系。


讨论


这个拥有52,515个中高质量的MAGs的资源代表了迄今为止为获取地球微生物群落中古菌和细菌基因组多样性的广度所做的最大努力。GEM集极大地扩展了已知细菌和古菌谱系的多样性,增加了宏基因组测序reads的筹集,包含了丰富的生物合成潜力,改进了对未培养病毒的宿主分配。尽管细菌和古菌系统发育多样性整体增加了44%,但未发现代表新门的深层分支谱系,这与当前微生物多样性的研究是相一致的。同样,尽管宏基因组reads数增加了3.6倍,但超过2/3的宏基因组reads仍然缺乏可比对的参考基因组。因此,还需继续努力来获取新的物种和菌株水平代表基因组以进一步提高宏基因组的分辨率。


大规模的基因组库为广泛的研究团队提供了重要的资源。尽管如此,来自GEM集的MAGs,与目前其他的MAGs相同,还存在一些局限,如未检测到的污染、低连续性及不完整性,使用者应该注意到这些。尽管这些MAGs是很多新的候选物种的重要占位符,但我们预测将来很多会被更高质量的MAGs或者最终被来自于克隆分离株的基因组序列代替。正如我们用大量新的次级代谢产物BGCs和假定的病毒-宿主关联中描述的那样,我们期待GEM将成为未来代谢和以基因组为中心的数据挖掘及实验验证的宝贵资源。







图片你可能还喜欢图片

  1. 2020年度回顾 | 技术贴合辑

  2. 2020年度回顾 | 微生态人体微生物类微文大合辑

  3. 2020年微生态最值得看的环境类微文回顾




微生态科研学术群期待与您交流更多微生态科研问题

(联系微生态老师即可申请入群)。

图片

了解更多菌群知识,请关注“微生态”。


图片





点击阅读原文,免费下载该SCI原文



阅读原文


微信扫一扫
关注该公众号




https://blog.sciencenet.cn/blog-3474220-1287641.html

上一篇:科研 | Nature:人类血清代谢物潜在决定因素的参考图
下一篇:科研 | Gut Microbes:补充益生菌对早产儿微生物群发育的影响
收藏 IP: 220.112.40.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 23:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部