||
GeneFEAST:基因功能富集分析总结和可视化工具
在高通量“组学”实验时代,功能富集分析(Functional Enrichment Analysis,FEA)在我们解释这些研究所产生的“大”生物数据的能力中起着至关重要的作用。在典型的工作流程中,一个实验产生大量的基因(即“感兴趣的基因”)以供进一步分析。RNA-Seq实验可用于鉴定在实验条件和对照条件之间差异表达的基因组。然后,基于某些术语数据库将生物相关标签分配给基因、通路或标记,例如GO和KEGG。
l 在过代表性分析(ORA)FEA中,超几何检验用于比较由注释条目的感兴趣的基因数量与在基础实验中测定的背景基因组中该注释条目的基因数量。
l 在基因集富集分析(GSEA)FEA中,该过程略有不同,因为FEA本身有助于鉴定感兴趣的基因。特别地,所有测定的基因最初被认为是推定的感兴趣基因,并根据实验结果进行排名。例如,在RNA-Seq实验中,基因可以在病例与对照中从最过度表达到最低表达进行排序。然后,为每个条目计算富集分数(ES),其反映该条目的基因集合位于排序列表的顶部或底部的频率。最后,通过排列测试获得ES的p值,并报告对条目的ES有贡献的核心基因的“前沿”子集,然后具有显著ES的条目的所有前沿基因的超集是最终的感兴趣基因。
当使用FEA方法时,在FEA工作流程的最后一步,总结所有条目结果并生成报告。这最后一步对于研究人员从FEA中获得生物学见解至关重要,但它往往因信息量庞大而复杂化,这些信息可能是多维的,也包含冗余信息。
重要的是,FEA通常是更广泛过程的一部分,有助于以基因为中心的假设生成和下游验证实验。因此,除了总结丰富的条目外,全面的总结工具必须能够系统地探索条目之间的联系、其相关的刚兴趣基因这些基因的定量数据。这种数据的常见例子是RNA和DNA-Seq实验中的倍数变化或拷贝数变化,这样的工具应该突出显示驱动多重富集的定量数据中的基因集和模式。此外,它应该能够系统地比较在多个研究中发现的富集。目前,没有FEA汇总工具提供所有这些功能。为了填补这一空白,Taylor等人最近提出了Python包GeneFEAST(图1,https://github.com/avigailtaylor/GeneFEAST),用于总结和可视化由条目的任何标准组学数据库和上游FEA流水线产生的FEA结果。
图1 输出HTML/CSS/JavaScript报告的结构和内容。总结单个FEA的报告具有“社区概述”首页(灰色插图),其中提供了Meta社区、社区和条目的列表(灰色插图中的绿色框架)、社区的轮廓图(i)和社区检测参数的图形网格搜索(ii)。社区概述主页具有锚链接(黑色实线箭头)进入“完整报告”:每个Meta社区都有链接(红色框架),其中每个成员社区的单独链接(蓝色框架,左下角),指向未形成较大Meta社区一部分的丰富条目社区的链接(孤立的蓝色框,右),以及不属于丰富条目社区的条目链接(黄色框架)。带有“社区概述”和“完整报告”菜单的顶部导航栏固定在报告的顶部,并且始终可见,随时提供对报告每个部分的直接访问。总结多个FEA的报告以首页开始,该首页显示在每个输入FEA中被识别为丰富的条目集的翻转图(左上绿色框)。将在两个或更多个FEA中找到的每个条目集称为“FEA条目集交集”。此首页顶部的导航栏提供了一个“报告”菜单,用户可以从中导航到总结每个FEA术语中的条目的单独报告-集合交集。每个单独的报告都具有总结单个FEA的报告的结构。在GeneFEAST报告中,每个Meta社区和术语都有一个信息框架,以HTML和CSS实现,可以缩放以适应用户的显示器。在每个框架中,JavaScript可以切换内容。Meta社区框架包含:圆圈和翻转图显示成员社区的基因集重叠、分割热图,其中条目注释被顶部热图中的基因社区成员资格替换,并对每个基因进行文献检索。Meta社区框架具有指向成员社区的链接(黑色,虚线箭头)。在适用的情况下,社区框架具有返回到其Meta社区以及其Meta社区中的兄弟社区的链接(黑色虚线箭头);另外,也有一个链接列表,链接到共享一些基因集重叠的条目。条目框架包含社区框架内容的子集,并具有指向弱连接社区的链接(黑色虚线箭头)
GeneFEAST需要Python 3.12才能运行,可以从https://pypi.org/project/genefeast的Python包索引pip安装。查看HTML输出报告需要支持HTML 5和JavaScript 1.6的Web浏览器。访问http://avigailtaylor.github.io/GeneFEAST获得GeneFEAST完整的安装说明和用户指南。
参考文献
[1] Taylor A, Macaulay VM, Miossec MJ, Maurya AK, Buffa FM. GeneFEAST: the pivotal, gene-centric step in functional enrichment analysis interpretation. Bioinformatics. 2025 Mar 3:btaf100. doi: 10.1093/bioinformatics/btaf100.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-4-7 20:38
Powered by ScienceNet.cn
Copyright © 2007-2025 中国科学报社