chinesehugh的个人博客分享 http://blog.sciencenet.cn/u/chinesehugh

博文

转录组分析之差异基因筛选:FoldChange+FDR控制

已有 40241 次阅读 2020-4-11 22:26 |系统分类:科研笔记

在做转录组分析的时候,对于差异基因筛选中用到的p-adjust不太理解,故从网上搜罗了一些相关资料(已注明出处)。


在利用数据比较分析两个样品中同一个基因是否存在差异表达的时候,一般选取两个标准:

i)FoldChange

FoldChange,就是两样品中同一个基因表达水平的变化倍数。可以用RPKM、FPKM或TPM值来计算。实验组和正常组的表达值的差异倍数,是用于检测差异表达基因的最基本的方法,由于其简单,易理解和不错的实验结果,使得其成为差异表达直观分析的首要选择。整体而言,Fold Change 方法在探测差异表达基因时,能够直接的得到差异变化值,因此在与差异表达绝对值相关的研究时具有优势。但是其较难选定其所需的阈值,在缺少假阳性的控制的情况下,其检测的基因假阳性结果比率相对较高。

ii)FDR校正后的p值,即q值

FDR值的计算方法如下:

1)对每个基因进行p值的计算。T检验是差异基因表达检测中常用的统计方法,通过合并样本间可变的数据,来评价差异表达,用于判断某一基因在两个样本中是否有差异表达。 由于样本量较少,从而对总体方差的估计不很准确,T检验的检验效能降低。

2)用FDR错误控制法对p值作多重假设检验校正 FDR(假阳性率:false positive rate)。错误控制法是Benjamini于1995年提出一种方法,通过控制FDR(False Discovery Rate)来决定p值的域值。假设你挑选了R个差异表达的基因,其中有S个是真正有差异表达的,另外有V个其实是没有差异表达的,是假阳性的。实践中希望错误比例Q=V/R平均而言不能超过某个预先设定的值(比如0.05),在统计学上,这也就等价于控制FDR不能超过5%。对所有候选基因的p值进行从小到大排序,则若想控制FDR不能超过q,则只需找到最大的正整数i,使得 p(i)<= (iq)/m。然后,挑选对应p(1),p(2),…,p(i)的基因做为差异表达基因,这样就能从统计学上保证FDR不超过q。 因此,FDR的计算公式如下:q-value(i)=p(i)*length(p)/rank(p)。

以上摘自http://www.360doc.com/showweb/0/0/905348619.aspx


下面这篇文章对FDR值计算方法的介绍较为详细。

1)对每个基因进行p-value的计算

假设观测到基因A对应的reads数为x,已知在一个大文库中,每个基因的表达量只占所有基因表达量的一小部分,在这种情况下,p(x)的分布服从泊松分布。已知样本一中唯一比对到基因组的总reads数为N1,样本二中唯一比对到基因组的总reads数为N2,样本一中唯一比对到基因A的总reads数为x,样本二中唯一比对到基因A的总reads数为y,则基因A在两样本中表达量相等的概率可由以下公式计算:

图片1.png

2)用FDR错误控制法对p-value作多重假设检验校正

FDR错误控制法是Benjamini于1995年提出的一种方法,通过控制FDR(False Discovery Rate)来决定P值的域值。假设你挑选了R个差异表达的基因,其中有S个是真正有差异表达的,另外有V个其实是没有差异表达的,是假阳性的。实践中希望错误比例Q=V/R平均而言不能超过某个预先设定的值(比如0.05),在统计学上,这也就等价于控制FDR不能超过5%。

对所有候选基因的p值进行从小到大排序,则若想控制FDR不能超过q,则只需找到最大的正整数i,使得 p(i)≤ (i*q)/m.然后,挑选对应p(1),p(2),...,p(i)的基因做为差异表达基因,这样就能从统计学上保证FDR不超过q。 因此,FDR的计算公式如下:

                  q-value(i)=p(i)*length(p)/rank(p)

首先将n个基因的原始P值由大到小排序,将最大P值赋值为n,最小P值赋值为1。校正P值=原始P值*(n/i)。其中n表示所有的基因个数,i表示从小到大第i个P值。例如下表中,共6个基因,因此n=6,从大到小排序后,第1大的原始P值0.0687,其校正P值为0.06873*(6/6)=0.0687;第2大的原始P值0.0235,其校正P值为0.0235*(6/5)=0.0282;……;第6大的原始P值0.0003,其校正P值为0.0003*(6/1)=0.002。

但是要注意第3大的原始P值0.0192,如果按公式计算其校正P值为0.0195*(6/4)=0.0288,但是FDR在计算校正P值时,需要将当前计算值与上一个计算值比较,取二者中最小值。比如,第3大原始P值所计算的校正P值为0.0288,与第2大校正P值0.0282相比,0.0282更小,因此这里的值不是0.0288,而是0.0282。

 图片2.png

参考文献:

1.Audic, S. and J. M. Claverie (1997). The significance of digital gene expression profiles. Genome Res 7(10): 986-95.

2.Benjamini, Y. and D. Yekutieli (2001). The control of the false discovery rate in multiple testing under dependency. The Annals of Statistics. 29: 1165-1188.

以上摘自https://blog.csdn.net/zhu_si_tao/article/details/71079842


为什么要用FDR?

在转录组分析中,如何确定某个转录本在不同的样品中表达量是否有差异是分析的核心内容之一。一般来说,我们认为,不同样品中,表达量差异在两倍以上的转录本,是具有表达差异的转录本。为了判断两个样品之间的表达量差异究竟是由于各种误差导致的还是本质差异,我们需要根据所有基因在这两个样本中的表达量数据进行假设检验。常用的假设检验方法有t-检验、卡方检验等。很多刚接触转录组分析的人可能会有这样一个疑问,一个转录本是不是差异表达,做完假设检验看P-value不就可以了么?为什么会有FDR这样一个新的概念出现?这是因为转录组分析并不是针对一个或几个转录本进行分析,转录组分析的是一个样品中所转录表达的所有转录本。所以,一个样品当中有多少转录本,就需要对多少转录本进行假设检验。这会导致一个很严重的问题,在单次假设检验中较低的假阳性比例会累积到一个非常惊人的程度。举个不太严谨的例子。

假设现在有这样一个项目:

● 包含两个样品,共得到10000条转录本的表达量数据

● 其中有100条转录本的表达量在两个样品中是有差异的

● 针对单个基因的差异表达分析有1%的假阳性

由于存在1%假阳性的结果,在我们分析完这10000个基因后,我们会得到100个假阳性导致的错误结果,加上100条真实存在的结果,共计200个结果。在这个例子中,一次分析得到的200个差异表达基因中,有50%都是假阳性导致的错误结果,这显然是不可接受的。为了解决这个问题,FDR这个概念被引入,以控制最终得到的分析结果中假阳性的比例。

以上摘自https://www.plob.org/article/13796.html及百迈客基因微信公众号(BMK_product)


相关阅读:

你最关心的差异基因是怎么挑出来的?!

https://www.jianshu.com/p/db05f19b0b80?utm_source=desktop&utm_medium=timeline

差异表达基因分析:差异倍数(fold change), 差异的显著性(P-value) | 火山图https://www.cnblogs.com/leezx/p/7132099.html

差异表达分析https://www.plob.org/article/11506.html





https://blog.sciencenet.cn/blog-3431904-1227906.html

上一篇:植物的顶替生长
下一篇:[转载]传统毒理研究+转录组的范例(文后点评)
收藏 IP: 111.36.136.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-1-8 10:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部