||
Ultrafast and accurate 16S rRNA microbial community analysis using Kraken 2
Microbiome [IF:11.607]
DOI:https://doi.org/10.1186/s40168-020-00900-2
发表日期:2020-08-28
第一作者:Jennifer Lu1
通讯作者:Jennifer Lu (jennifer.lu717@gmail.com)1
合作作者: Steven L. Salzberg
主要单位:
1约翰·霍普金斯大学生物医学工程系,美国马里兰州巴尔的摩(Department of Biomedical Engineering, Johns Hopkins University, Baltimore, MD, USA)
几十年来,16S核糖体RNA测序已成为鉴定样品中未知组成的细菌种类的主要手段。今天,用于此目的的最广泛使用的工具之一是QIIME(微生物生态定量定量分析)软件包。最新结果表明,当对模拟人类肠道,海洋和土壤的宏基因组的细菌属进行分类时,最新版本的QIIME 2比QIIME,MAPseq和mothur具有更高的准确性,但QIIME 2在计算上也被证明是最耗时的。 Kraken于2014年首次发布,已被证明可以为鸟枪宏基因组学测序项目提供异常快速和准确的分类。 Bracken于2016年发布,然后为用户提供了使用Kraken分类结果准确估算物种或属相对丰度的能力。与Kraken 1的准确性和速度相匹配的Kraken 2现在支持16S rRNA数据库,可以直接与QIIME和类似系统进行比较。
为了对每种工具进行全面评估,我们比较了QIIME 2的分类插件(q2-feature-classifier)、Kraken 2和Bracken在生成三个主要的16S rRNA数据库(Greengenes,SILVA和RDP)中的计算资源和速度。为了评估准确性,我们使用从人类肠道、海洋和土壤宏基因组中获得的相同的模拟16S rRNA读长评估了每种工具,这些读长先前用于比较QIIME,MAPseq,mothur和QIIME 2。我们根据每个工具分配的最终属读长计数。最后,由于Kraken 2是唯一提供按每个读长分配分类的工具,因此我们评估了Kraken 2按读长分类的敏感性和准确性。
对于Greengenes和SILVA数据库,Kraken 2和Bracken的数据库生成速度都快100倍。对于分类,使用与先前研究相同的数据,Kraken 2和Bracken的速度提高了300倍,使用的内存(RAM)减少了100倍,并且生成的结果比QIIME 2的分类插件在16S rRNA分析中更准确。
QIIME 2的分类插件(q2-feature-classifier)使用教程:
Fig. 1 Build and classification statistics.
a. 为Kraken / Bracken和QIIME建立每个数据库所需的时间。 Kraken和Bracken允许多线程,而QIIME 2的q2功能分类器是单线程的。建索引单线程快近10倍100倍,16线程最多快500倍。
b. 每个数据库的平均分类运行时间(以分钟为单位)。 仅报告了1个线程的Kraken /Bracken组合运行时,因为所有运行时均小于1分钟,并且条形图太小而无法在此规模下看到。 QIIME仅使用16和8线程运行SILVA。 计算时间快近500倍。
c. 所有多线程选项的Kraken和Bracken分类运行时间(以秒为单位)
d. QIIME和Kraken / Bracken的计算内存使用量(RAM),以千兆字节(Gb)显示。 仅报告了1个线程的Kraken / Bracken RAM需求,因为无论线程数如何,Kraken和Bracken都需要<0.5Gb的RAM。内存消耗节省近100倍。
e Kraken / Bracken的计算内存使用量(RAM),以兆字节(Mb)显示
Fig. 2 Genera distribution for simulated microbiota.
该图比较了三个模拟微生物组样本(a人类肠道微生物组,b海洋微生物组,c土壤微生物组)中每个样本的真实属相对丰度与Kraken,Bracken和QIIME’s q2-feature-classifier估计的相对丰度。 只有正确的属由不同的条形表示,而对“其他”不正确的分类单元的读长分配包括在“其他”中。Kraken+Bracken结果更准确
Fig. 3 MAPE and Bray-Curtis dissimilarity.
a. 该图通过使用两个误差度量的倒数来评估分类准确性:平均绝对比例误差(MAPE)和Bray-Curtis不相似度(BC)。 在预测给定的宏基因组/数据库的所有样本的属读长计数时,比较Kraken,Bracken和QIIME’s q2-feature-classifier的准确性。
b. 对于给定的软件/数据库,比较所有3个基因组中各个引物的平均准确度。 上图以1-MAPE计算精度,而下图则以1-BC计算
Fig. 4 Kraken per-read accuracy.
由于Kraken是唯一经过测试的工具,可提供按类别读长的分类,因此我们评估了Kraken 2分类在每个主要分类级别的敏感性和精确度(PPV)
尽管每个16S rRNA数据库都代表大量细菌生物,但是宏分类学分类器的准确性在其中却有很大差异。 在我们的实验中,无论分类中使用的软件如何,16S SILVA都能提供最低的错误率和最高的每读长精度。 在所有数据库中,Kraken 2和Bracken在计算要求,运行时间和准确性方面均优于QIIME 2的q2功能分类器。 在构建16S Greengenes数据库时,单线程Kraken / Bracken比QIIME 2快8倍,而在构建16S SILVA数据库时则快100倍。 Kraken和Bracken还允许建立多线程数据库,从而可以在不到20分钟的时间内建立任何16S rRNA数据库。 在分类方面,Kraken / Bracken使用的RAM减少了20倍,执行速度提高了300倍,并且比QIIME 2获得更好的属级分辨率。
Jennifer Lu & Steven L. Salzberg. (2020). Ultrafast and accurate 16S rRNA microbial community analysis using Kraken 2. Microbiome 8, 124, doi: https://doi.org/10.1186/s40168-020-00900-2
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-19 23:14
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社