李雷廷的个人博客分享 http://blog.sciencenet.cn/u/llt001

博文

KrakenUniq: 一个新的宏基因组学聚类软件

已有 6715 次阅读 2018-12-29 08:07 |系统分类:论文交流

01

宏基因组学分类器



宏基因组学(Metagenomics)主要研究直接从环境中获得的基因组序列。宏基因组学分类器(Metagenomics classifier)主要解决的问题是对一个数据集中每一条 read 做分类,确定其所属的物种。宏基因组学数据一般包含超过千万条 reads 序列,因此一般通过 k-mer 的方法统计 reads 数量进行分类。这造成分类的结果不考虑 reads 在基因组上的位置。而实验室的试剂盒及取样环境都可能造成污染。鉴定并剔除这些假阳性的数据对于宏基因组学分类是很重要的。


02

2014年发表的 Kraken


在 2014 年,D. E Wood 和 S. L. Salzberg 在 Genome Biology 杂志发表了题为“Kraken: ultrafast metagenomic sequence classification using exact alignments” 的论文。该论文介绍的 Kraken 软件主要用于宏基因组 DNA 序列的分类,相比于此前的软件, Kraken 通过 exact alignment of k-mers 的方法,极大地降低了运行时间。其精确度可以匹及速度最快的 BLAST 程序。在快速运行模式,Kraken 可以每分钟分类 410 万条 100 bp 的 reads,比 Megablast 快 909 倍,比丰度估算程序 MetaphlAn 快 11 倍。Kraken 软件的地址为:http://ccb.jhu.edu/software/kraken/


03

2018年的 KrakenUniq


2018 年 11 月 16 日,约翰·霍普金斯大学的 F.P. Breitwieser, D. N. Baker, 和 S. L. Salzberg 在 Genome Biology 杂志发表了标题为“KrakenUniq: confident and fast metagenomics classification using unique k-mer counts”的论文介绍了一个新的宏基因组学分类软器KrakenUniq,用于宏基因组数据分类。KrakenUniq 相比于 2014 年发表的 Kraken 同样是基于 exact match of k-mers,不同的是 KrakenUniq 在此基础上添加了一个用于评估数据集中每一个物种 unique k-mers 的覆盖度的算法。

KrakenUniq 算法和输出简介


04

KrakenUniq 的测试效果


通过多个数据集的测试,研究者发现 KrankenUniq 相比于其它方法有着更好的分类效果和精确度,可以在疾病样品中把低丰度的假阳性数据从病原物中区分出来。另外,KrakenUniq 还通过应用概率基数估计算法 HyperLogLog,使其运行速度和 Kraken 一样快,仅比 Kraken 多消耗一点内存。


05

KrakenUniq 的安装和使用


KrakenUniq 主要是用 C++ 和 Perl 语言写作的,源代码地址为:

https://github.com/fbreitwieser/krakenuniq


KrakenUniq 可以通过 conda 安装,命令为:

conda install krakenuniq

也可以从源代码安装,命令为:

git clone https://github.com/fbreitwieser/krakenuniq
cd krakenuniq
./install_krakenuniq /PATH/TO/INSTALL_DIR

构建数据库的命令如下:

krakenuniq-build --db DBDIR --kmer-len 31 --threads 10 --taxids-for-genomes --taxids-for-sequences


运行 KrankenUniq 的命令如下:

krakenuniq --db DBDIR --threads 10 --report-file REPORTFILE.tsv > READCLASSIFICATION.tsv


详细使用说明参见该软件的 Manual。


参考资料:

  1. Breitwieser FP, Baker DD, Salzberg SL. (2018). KrakenUniq: confident and fast metagenomics classification using unique k-mer counts. Genome Biology 2018, 19:198. https://doi.org/10.1186/s13059-018-1568-0

  2. https://github.com/fbreitwieser/krakenuniq

  3. Wood DE, Salzberg SL. Kraken: ultrafast metagenomic sequence classification using exact alignments. Genome Biology, 15:R46. https://doi.org/10.1186/gb-2014-15-3-r46

  4. http://ccb.jhu.edu/software/kraken/

  5. Segata N, Waldron L, Ballarini A, Narasimhan V, Jousson O, Huttenhower C: Metagenomic microbial community profiling using unique clade-specific marker genes. Nat Methods. 2012, 9: 811-814. https://doi.org/10.1038/nmeth.2066

  6. Flajolet P, Fusy é, Gandouet O, Meunier F. HyperLogLog: the analysis of a near-optimal cardinality estimation algorithm. In: AofA: analysis of algorithms; 2007-06-17; Juan les Pins. France: Discrete mathematics and theoretical computer science; 2007. p. 137–56.


欢迎关注“植物基因组”微信公众号


搜索微信公众号“植物基因组”或“plant-genomes”关注



https://blog.sciencenet.cn/blog-656335-1154098.html

上一篇:SAM/BAM/samtools 十岁了
下一篇:BioGRID 互作数据库:2019年更新
收藏 IP: 180.152.107.*| 热度|

1 张成岗

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的精选博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-25 20:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部