||
edgeR 4.0:支持小计数和大数据的差异表达分析升级版
在过去的15-20年里,下一代测序(NGS)已经彻底改变了生物医学研究。RNA-seq已成为分析基因和转录物表达的标准技术,而其他技术如ChIP-seq、ATAC-seq、CUT&Tag、BS-seq和Hi-C则可以高分辨率地探索表达调控的分子机制。
edgeR是一个R软件包,用于以基因或基因组特征的序列读取计数的形式对NGS或类似技术产生的数据进行差异分析。它特别用于检测在实验条件或细胞类型之间丰度水平发生变化的基因或特征。edgeR率先在基因组研究中使用负二项(NB)广义线性模型(GLMs)来模拟读取计数。edgeR实现了一系列新颖的统计方法,包括在基因之间借用信息的方法,这一策略对于小样本量的基因组实验至关重要。它已成为广泛测序技术的基础分析引擎,包括ChIP-seq、Hi-C、亚硫酸盐测序甚至蛋白质组学。使用显式概率计数分布允许edgeR即使对于非常低的计数也能做出有意义的推断,并区别于与基于常态的方法(如limma)。
edgeR软件包自2008年作为Bioconductor项目的一部分首次发布以来,经历了多次重大修订。原始的edgeR v1管道(现在称为“经典”管道)使用精确条件似然来实现NB-离散度的无偏估计,使用精确NB检验来进行组间两两比较,使用加权似然经验贝叶斯来借用基因之间的强度。这些创新的统计方法使edgeR能够实现稳定和可靠的结果,即使实验与非常少的生物重复。
2010年9月,edgeR引入了完整的GLM功能,允许edgeR对任意复杂的实验进行建模,包括多个处理因素、批量效应和连续协变量。所有原有的功能都被转移到GLM上下文中,Cox-Reid近似条件推理取代了精确的条件似然,似然比检验取代了精确的NB检验。2011年,edgeR GLM管线作为edgeR v2发布。
第二次重大修订是在2012年1月引入了准似然(QL)方法。QL模型增加了第二个弥散参数,即QL-弥散,这增加了edgeR对技术和生物变异源进行建模的能力。另一个关键优势是,可以通过将limma的参数经验贝叶斯(EB)程序应用于遗传GLM偏差来估计QL色散,这反过来又使edgeR能够利用limma的一些精确小样本理论。可以根据手头的具体数据优化应用于基因分散体的EB调节量。GLM似然比检验可以被准F检验取代,准F检验允许在估计基因离散度时存在不确定性,从而即使在小样本量下也能严格控制错误发现率(FDR)。2012年,edgeR QL管道作为edgeR v3的一部分发布。
最近,edgeR v4于2023年10月发布,包含了一系列应用领域的新开发。修订后的软件包实现了两个基本的变化,改进了edgeR对小计数的处理,并影响了大多数分析。首先是NB分布的连续概化,允许edgeR接受小数计数而不舍入。第二个是基于改进GLM基础上的经典统计理论,对QL管道进行了重大修订。即使在读取计数非常小的情况下,修订也确保了无偏的QL分散估计,并显着减少了具有许多样本的大型数据集的计算时间。同时,edgeR包的大部分已经用C++重写,以提高速度并减少内存使用。
该软件包还具有差异甲基化分析、差异转录物表达、差异外显子使用、差异转录物使用、与折叠变化阈值相关的测试和途径分析的新功能。
文献[1]回顾了edgeR(图1)的统计框架和计算实现,简要总结了所有现有的特性和功能,但特别注意了新特性和以前没有描述的特性。
图1 edgeR流程图。该图显示了edgeR的主要步骤。每个步骤中涉及的单个功能显示在右侧
edgeR作为一个独立的集成分析环境,也被其他分析特定技术的软件包用作底层引擎。已有186个下游Bioconductor包依赖或建议使用edgeR。文献[1]总结了edgeR包的设计和功能,并描述了edgeR包的历史。edgeR 4.0进一步引入了新的统计思想,提高了计算效率,扩展了软件包的应用范围。统计创新包括分数计数建模,更精细的GLM偏差建模,以在小计数情况下实现更准确的QL分散估计,以及分割计数的想法,以提取转录本量化产生的过度分散。在C++中实现低级函数允许edgeR更有效地处理更大的数据集。新的数据分析包括转录水平差异表达、差异外显子使用、差异转录物使用、差异甲基化分析、单细胞RNA-seq伪批量分析和与折叠变化阈值相关的假设检验。edgeR 4.0还包括直接支持通路分析和基因集富集分析。
edgeR相关链接见https://bioconductor.org/packages/edgeR。
参考文献
[1] Yunshun Chen, Lizhong Chen, Aaron T. L. Lun, Pedro L. Baldoni, Gordon K. Smyth. edgeR 4.0: powerful differential analysis of sequencing data with expanded functionality and improved support for small counts and larger datasets. bioRxiv 2024.01.21.576131; doi: https://doi.org/10.1101/2024.01.21.576131.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 12:03
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社