woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

Kraken:使用精确比对的超快速宏基因组序列分类软件

已有 7167 次阅读 2019-9-4 16:50 |个人分类:宏基因组|系统分类:科研笔记

image

Kraken:使用精确比对的超快速宏基因组序列分类

Kraken: ultrafast metagenomic sequence classification using exact alignments

Genome Biology, [14.028]

2014-03-03  Method

DOI: https://doi.org/10.1186/gb-2014-15-3-r46

第一作者:Derrick E Wood1,2*

通讯作者:Derrick E Wood1,2*

其它作者:

Steven L Salzberg2,3

作者主要单位:

1美国马里兰大学帕克分校,计算机科学系和生物信息学与计算生物学中心(Department of Computer Science and Center for Bioinformatics and Computational Biology, University of Maryland, College Park, MD, USA)

2美国马里兰州巴尔的摩市约翰霍普金斯大学医学院McKusick-Nathans遗传医学研究所计算生物学中心(Center for Computational Biology, McKusick-Nathans Institute of Genetic Medicine, Johns Hopkins University School of Medicine, Baltimore, MD, USA)

热心肠日报

  1. Kraken是一种超快速、高度准确的宏基因组DNA序列分类学分配程序;
  2. 基于k-mers的精确对齐,Kraken实现了与BLAST程序相当的分类精度;
  3. Kraken以每分钟超过410万个的速度对100个碱基对读长进行分类,比Megablast快909倍,比丰度估计程序MetaPhlAn快11倍;
  4. 软件支持conda安装,配置数据库下载和使用方便,同时提供快速版Kraken-Q和小内存版miniKraken等众多版本可用,满足不同硬件条件的用户。

点评:Kraken是物种注释中最快,最庞大的存在,其超快的速度受到大家的喜欢,但标准版超大的内存消耗也非常恐怖。现在已经开发一系列子版本和新版本,如小内存的miniKraken,基于非冗余K-mer的KrakenUniq,还有最的版Kraken2。之前日报介绍过的相关方法有《一个新的宏基因组分类器KrakenUniq》(https://www.mr-gut.cn/papers/read/1079174335)、《Bioinformatics:大幅提高宏基因组分类速度的新算法!》(https://www.mr-gut.cn/papers/read/1058091428)、《MGS-Fast:快速注释菌群宏基因组测序数据的方法》(https://www.mr-gut.cn/papers/read/1068195517)、以及针对临床检测的《PAIPline:鉴定致病菌的临床测序结果分析平台》(https://www.mr-gut.cn/papers/read/1055280911)等可供用户根据具体需求进行选择。

摘要

Kraken是一种超快速且高度准确的程序,可为宏基因组DNA序列分配分类标签。 为此任务设计的先前程序相对较慢且计算成本较高,仅能对小的宏基因组数据进行分类,迫使研究人员使用更快的丰度估计程序。 使用k-mers的精确对齐,Kraken实现了与BLAST程序相当的分类精度。 在最快的模式中,Kraken以每分钟超过410万次读长的速度对100个碱基对读长进行分类,比Megablast快909倍,比丰度估计程序MetaPhlAn快11倍。 Kraken可在http://ccb.jhu.edu/software/kraken/上下载。

主要结果

图1. Kraken序列分类算法

The Kraken sequence classification algorithm

image

为了对序列进行分类,序列中的每个k-mer被映射到数据库中包含该k-mer基因组的最低共同祖先(lowest common ancestor, LCA)。 与序列的k-mers相关的分类群以及分类群的祖先形成了一般分类树的修剪子树,用于分类。 在分类树中,每个节点的权重等于与节点的分类单元相关联的序列中的k-mer的数量。 通过在路径中添加所有权重来对分类树中的每个根到叶(root-to-leaf, RTL)路径进行评分,并且分类树中的最大RTL路径是分类路径(以黄色突出显示的节点)。 该分类路径的叶子(分类树中的橙色,最左边的叶子)是用于查询序列的分类。

图2. 基于三个模拟宏基因组的分类程序准确性和速度比较

Classification accuracy and speed comparison of classification programs for three simulated metagenomes

image

对于每个宏基因组,显示五个分类器的属性精度和灵敏度,并显示五个程序的速度(PhymmBL是结果的置信过滤版本,MetaPhlAn仅分类映射到其标记基因之一的读长子集 ,因为它是一个丰富的估计程序)。 显示的结果是:

(a)HiSeq宏基因组,由10个细菌测序项目中等比例的HiSeq读长(平均长度μ= 92bp)组成;

(b)MiSeq宏基因组,由10个细菌项目中相同比例的MiSeq读长(μ= 156 bp)组成;

(c)simBA-5宏基因组,由模拟的100-bp读长组成,具有1,967个细菌和古菌分类群的高错误率。

请注意,所有速度图中的水平轴都是对数刻度。

图3. 基于三个模拟宏基因组数据对Kraken变体的分类精度和速度比较

Classification accuracy and speed comparison of variants of Kraken for three simulated metagenomes

image

Classification accuracy and speed comparison of variants of Kraken for three simulated metagenomes

对于每个宏基因组,显示五个分类器的属精度和灵敏度,并显示Kraken的速度,以及Kraken(MiniKraken)的小内存版本,两者的快速执行版本(Kraken-Q和MiniKraken-Q)和Kraken 与包含来自GenBank(Kraken-GB)的草案和完整微生物基因组的数据库一起运行。

显示的结果与图2中使用的相同的宏基因组有关。注意,轴的刻度与图2不同,因为Kraken(及其变体)的精度和速度超过了所使用的其他分类器的精度和速度。

(a)HiSeq metagenome。

(b)MiSeq宏基因组。

(c)simBA-5宏基因组。

图4. 由Kraken分类的唾液微生物组读数的分类学分布。

Taxonomic distribution of saliva microbiome reads classified by Kraken

image

来自三个个体的唾液样品的序列由Kraken分类。 显示了由Kraken分类的那些读长的分布。

图5. Kraken的数据库结构

Kraken database structure

image

要针对数据库查询的每个k-mer都有一个特定的子串,它是最小化器(Minimizer)。 为了在数据库中搜索k聚体,检查数据库中包含具有相同最小化器的k聚体的位置。 通过使用k-mer的最小化器(橙色)和下一个可能的最小化器(蓝色)检查记录起始位置的最小化器偏移数组,可以快速找到这些位置。 在与给定最小化器相关联的记录范围内,记录按其k-mers的词典排序,允许通过在该范围内使用二进制搜索来完成查询。

猜你喜欢

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
image

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
image

image

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA



https://blog.sciencenet.cn/blog-3334560-1196639.html

上一篇:Nature Methods:宏基因组物种组成分析工具MetaPhlAn2
下一篇:MEGAHIT:多快好省的宏基因组装工具
收藏 IP: 210.75.224.*| 热度|

1 张成岗

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 06:20

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部