||
salmon软件于2017年发表在Nature Methods,论文题目是“Salmon provides fast and bias-aware quantification of transcript expression” 。不到两年的时间被引250多次。
根据文中的描述,salmon要优于kallisto和express软件。
今天我们结合小麦最新的IWGSCv1.1版本的基因集,介绍下其定量流程,与kallisto进行一个定量结果的比较,以及看一看基因拷贝数变化时TPM如何变化。
首选要对转录本进行index
salmon index --keepDuplicates -t IWGSC_v1.1_HC_LC_20170706_transcripts.fasta -i IWGSC_v1.1_HC_LC
下载测试数据,该测试数据来自中国春的叶片。
axel -a -n 12 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR947/SRR947005/SRR947005_1.fastq.gz && axel -a -n 12 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR947/SRR947005/SRR947005_2.fastq.gz
进行定量
salmon quant -i IWGSC_v1.1_HC_LC -l A -1 SRR947005_1.fastq.gz -2 SRR947005_2.fastq.gz -p 8 -o SRR947005_quant
-i 指要使用的转录组index 这里是我们第一步生成的IWGSCv1.1版本的转录组index;
-l 这里需要指定测序模式,这里-A是指自动判定。
-1 -2 分别要输入左端测序数据和右端测序数据
-p 则是要指定运行程序的cpu线程数
上述定量命令使用测序的原始reads进行的,这里还有另外一种基于比对的方式,即输入文件是BAM或SAM文件。
输出的结果文件如下所示,其中quant.sf里有每个基因的表达量。
salmon定量输出文件首先也是要对转录组进行index
kallisto index -i IWGSC_v1.1_HC_LC_kallisto IWGSC_v1.1_HC_LC_20170706_transcripts.fasta
其次是定量过程。
kallisto quant -i IWGSC_v1.1_HC_LC_kallisto -t 10 -o SRR947005_kallisto SRR947005_1.fastq.gz SRR947005_2.fastq.gz
同样的结果文件如下图所示,其中abundance.tsv里有每个基因的表达量。
kallisto定量结果输出文件salmon文章比较的内容,这里不再比较。下面我们做一个比较初步的分析。
首先看TPM大于>0, >0.5, >1, >10的基因数目。注意两者转录本的总数是一致的。
TPM | >0 | >0.5 | >1 | >10 |
---|---|---|---|---|
Salmon | 109998 | 58690 | 43160 | 7172 |
kallisto | 116087 | 60805 | 44721 | 7443 |
kallisto-Salmon | 6089 | 2115 | 1561 | 271 |
从基因数量上来看,kallisto有更多的基因有TPM值,而且相同转录本获得的TPM值,kallisto获得的往往要大于salmon获得的。但这也不是绝对的,如下图。以转录本TraesCS3B02G080100.1为例,这里使用salmon获得的TPM值是338.82,而使用kallisto获得的是168.69。那么针对这一个基因,哪个更准确一点呢?
image-20180902220909122而查阅信息可知,主要是两者的 effecting length 不同导致,而count数量很相似。
Name | Length | EffectiveLength | TPM(salmon) | NumReads | target_id | length | eff_length | est_counts | tpm(kallisto) |
---|---|---|---|---|---|---|---|---|---|
TraesCS3B02G080100.1 | 171 | 35.605 | 338.816942 | 531.769 | TraesCS3B02G080100.1 | 171 | 78.4896 | 532.115 | 168.686 |
This is the computed effective length of the target transcript. It takes into account all factors being modeled that will effect the probability of sampling fragments from this transcript, including the fragment length distribution and sequence-specific and gc-fragment bias (if they are being modeled).
而kallisto里的定义为:
“Effective length” is a scaling of transcript length by the fragment length distribution
具体的可参见“https://haroldpimentel.wordpress.com/2014/05/08/what-the-fpkm-a-review-rna-seq-expression-units/”。
查过一些资料,越看越糊涂。不过,如果使用同一软件处理所有的数据应该是没有问题的。
因为IWGSC官方也有这个数据集的count和TPM值,我去查可一下,竟然和我的不一样。