|
(图片来源:http://dx.doi.org/10.1038/nbt.3519)
2016年4月4日,Nature Biotechnology 杂志上发表了一篇题为“Near-optimal probabilistic RNA-seq quantification”的论文,主要内容是介绍一款 RNA-seq 数据量化软件 kallisto。所谓 RNA-seq 数据量化指的是从 RNA-seq 的测序数据中计算出每一个基因的表达量。传统的 RNA-seq 数据分析思路分两步,第一步是把利用 RNA-seq 方法得到的测序数据先比对到参考基因组序列上(tophat2, bowtie2, HISAT 等软件);第二步是从比对结果中计算表达量,可以理解为数每一个基因的 reads 数量(Cufflinks,HTseq-count 等软件)。
这篇论文介绍的 kallisto 软件最大的亮点在于在保证 RNA-seq 数据定量化分析与传统方法相似的精确性的基础上,极大地降低了运行时间。而这是由于在算法上更新——绕过传统方法中序列比对(alignment)的步骤,直接做量化分析。而之所以可以跳过序列比对的步骤,是基于一个已经被论证的前提,即一个read具体比对到参考基因的什么位置上不影响最终计算的表达量。这篇论文介绍的新算法着重于确定一个 read 属于哪一个基因,而不关心这个 read 在基因上的位置。
论文标题:Near-optimal probabilistic RNA-seq quantification(http://dx.doi.org/10.1038/nbt.3519)
作者:Nicolas L Bray, Harold Pimentel, Páll Melsted, Lior Pachter
摘要:
We present kallisto, an RNA-seq quantification program that is two orders of magnitude faster than previous approaches and achieves similar accuracy. Kallisto pseudoaligns reads to a reference, producing a list of transcripts that are compatible with each read while avoiding alignment of individual bases. We use kallisto to analyze 30 million unaligned paired-end RNA-seq reads in <10 min on a standard laptop computer. This removes a major computational bottleneck in RNA-seq analysis.
欢迎关注“植物基因组”微信公众号
(微信号:plant-genomes)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 07:05
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社