|
01
—
宏基因组学分类器
宏基因组学(Metagenomics)主要研究直接从环境中获得的基因组序列。宏基因组学分类器(Metagenomics classifier)主要解决的问题是对一个数据集中每一条 read 做分类,确定其所属的物种。宏基因组学数据一般包含超过千万条 reads 序列,因此一般通过 k-mer 的方法统计 reads 数量进行分类。这造成分类的结果不考虑 reads 在基因组上的位置。而实验室的试剂盒及取样环境都可能造成污染。鉴定并剔除这些假阳性的数据对于宏基因组学分类是很重要的。
02
—
2014年发表的 Kraken
在 2014 年,D. E Wood 和 S. L. Salzberg 在 Genome Biology 杂志发表了题为“Kraken: ultrafast metagenomic sequence classification using exact alignments” 的论文。该论文介绍的 Kraken 软件主要用于宏基因组 DNA 序列的分类,相比于此前的软件, Kraken 通过 exact alignment of k-mers 的方法,极大地降低了运行时间。其精确度可以匹及速度最快的 BLAST 程序。在快速运行模式,Kraken 可以每分钟分类 410 万条 100 bp 的 reads,比 Megablast 快 909 倍,比丰度估算程序 MetaphlAn 快 11 倍。Kraken 软件的地址为:http://ccb.jhu.edu/software/kraken/
03
—
2018年的 KrakenUniq
2018 年 11 月 16 日,约翰·霍普金斯大学的 F.P. Breitwieser, D. N. Baker, 和 S. L. Salzberg 在 Genome Biology 杂志发表了标题为“KrakenUniq: confident and fast metagenomics classification using unique k-mer counts”的论文介绍了一个新的宏基因组学分类软器KrakenUniq,用于宏基因组数据分类。KrakenUniq 相比于 2014 年发表的 Kraken 同样是基于 exact match of k-mers,不同的是 KrakenUniq 在此基础上添加了一个用于评估数据集中每一个物种 unique k-mers 的覆盖度的算法。
KrakenUniq 算法和输出简介
04
—
KrakenUniq 的测试效果
通过多个数据集的测试,研究者发现 KrankenUniq 相比于其它方法有着更好的分类效果和精确度,可以在疾病样品中把低丰度的假阳性数据从病原物中区分出来。另外,KrakenUniq 还通过应用概率基数估计算法 HyperLogLog,使其运行速度和 Kraken 一样快,仅比 Kraken 多消耗一点内存。
05
—
KrakenUniq 的安装和使用
KrakenUniq 主要是用 C++ 和 Perl 语言写作的,源代码地址为:
https://github.com/fbreitwieser/krakenuniq
KrakenUniq 可以通过 conda 安装,命令为:
conda install krakenuniq
也可以从源代码安装,命令为:
git clone https://github.com/fbreitwieser/krakenuniq cd krakenuniq ./install_krakenuniq /PATH/TO/INSTALL_DIR
构建数据库的命令如下:
krakenuniq-build --db DBDIR --kmer-len 31 --threads 10 --taxids-for-genomes --taxids-for-sequences
运行 KrankenUniq 的命令如下:
krakenuniq --db DBDIR --threads 10 --report-file REPORTFILE.tsv > READCLASSIFICATION.tsv
详细使用说明参见该软件的 Manual。
参考资料:
Breitwieser FP, Baker DD, Salzberg SL. (2018). KrakenUniq: confident and fast metagenomics classification using unique k-mer counts. Genome Biology 2018, 19:198. https://doi.org/10.1186/s13059-018-1568-0
https://github.com/fbreitwieser/krakenuniq
Wood DE, Salzberg SL. Kraken: ultrafast metagenomic sequence classification using exact alignments. Genome Biology, 15:R46. https://doi.org/10.1186/gb-2014-15-3-r46
http://ccb.jhu.edu/software/kraken/
Segata N, Waldron L, Ballarini A, Narasimhan V, Jousson O, Huttenhower C: Metagenomic microbial community profiling using unique clade-specific marker genes. Nat Methods. 2012, 9: 811-814. https://doi.org/10.1038/nmeth.2066
Flajolet P, Fusy é, Gandouet O, Meunier F. HyperLogLog: the analysis of a near-optimal cardinality estimation algorithm. In: AofA: analysis of algorithms; 2007-06-17; Juan les Pins. France: Discrete mathematics and theoretical computer science; 2007. p. 137–56.
欢迎关注“植物基因组”微信公众号
搜索微信公众号“植物基因组”或“plant-genomes”关注
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 20:43
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社