|||
功能:1)优化实验设计;2)评估与比较RNA-Seq差异表达分析的功效(power)。
杂志:Bioinformatics
作者信息:
安装:https://github.com/bvieth/powsimR
方法:
1)选择负二项分布或零膨胀负二项分布拟合用户上传或者软件包自带的案例数据。负二项分布表示的是在一系列伯努利试验中成功次数达到指定次数时失败次数的离散概率分布,其概率质量函数如下:
零膨胀负二项分布是实际数据中零值太多,超出了普通负二项分布的预测能力,于是我们赋予零值以更高的出现概率,其公式如下:
2)利用多项式拟合估计每个基因的表达值的离散度(dispersion)依靠均值的变化函数。这里分散度指的是数据内部相互之间的偏差程度,例如:标准差。
3)以表达数据的分布和离散度-平均值的拟合函数来模拟表达数据的对数倍数变化(log fold change)的分布。在模拟之前,用户需要设定每个条件下样本的数量、基因的数量以及差异表达基因(differentially expressed genes,DEG)的比例。
4)运行常规的差异表达分析软件并计算其真阳性率(true positive rate,TPR)和错误发现率(false discovery rate,FDR)。这里的真阳性率又叫功效。
5)最后,根据尝试的多个样本数的取值,预测出在FDR不超过一定值的前提下能够识别出一定比例的DEG,所需的最低样本数量。
讨论:由于聚类分析的性能通常与差异表达分析的性能成正比,所以功效分析也可以用来改良聚类分析的实验设计。
算法流程图:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-18 14:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社