|
These three metrics attempt to normalize for sequencing depth and gene length.
测序数据的标准化/归一化是生物信息学分析的必要步骤,可根据生物问题或是技术手段的不同而采取不同的策略进行。对于RNA-seq,常见的标准化手段有RPKM (Reads Per Kilobase per Million mapped reads) / FPKM (Fragments Per Kilobase per Million mapped reads) 和TPM (Transcripts Per Kilobase per Million mapped reads)。
这两个指标最为常见,其计算公式基本相同,唯一区别在于:R是reads,F是fragments,即对于单端测序来说,二者相同;而对于双端测序,FPKM将两端的reads当作一个fragment,只计算比对到同一转录本的数量。具体公式如下:
RPKM/FPKM=nr/fN106L103=109×nr/fN×L
其中,nr/f表示比对至目的基因的reads/fragments数目,N是有效比对至基因组的reads/fragments总数,L是基因转录本长度。这种计算方式简单直观地解决了RNA-seq的两个偏性:测序深度越深,基因转录本长度越长,则测序得到的读数越多。
对一个样本内部来说,这个指标没有太大问题,但实际应用中,我们需要对比多个样本之间基因的表达差异,这时候就发现,RPKM/FPKM在样本之间无法通用计算,仔细看其公式就能知道,L一般是固定的,而nr/f和N并没有直接的相关性,比如我有两个样本,基因A的FPKM值在样本1中为3,在样本2中也为3,很明显地,由于原始测序量N不同,其转录本丰度所占比例应该是不同的。
为了设定一个更加合理的标准化方法来描述RNA转录本的丰度,B. Li和C. Dewey在2011年文章中提出了TPM,计算公式如下:
TPM=nr/fL103∑Gg=i(nr/fLi103)i÷106=106×nr/fL∑Gg=i(nr/fL)i
由于L是固定的,TPM的值只与nr/f即转录读数相关,以前面例子中的两个样本,若基因A的TPM值在样本1中为3,在样本2中也为3,说明该基因表达丰度是一致的。
RPKM/FPKM存在的问题归根结底在于其缺乏生物学意义,或者说是对科学问题缺乏分析,仅仅进行简单空洞的标准化处理显然是不符合科学逻辑的,然而大批研究者的思维惰性更是导致错误算法的泛滥(不愿深入思考探索,哪个简单就用哪个,用惯了就不愿换)。
当引以为戒。
原文链接https://wenlongshen.github.io/2018/01/27/RPKM/
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-9 12:02
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社