zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

DeepGSEA:单细胞转录组数据的可解释深度基因集富集分析

已有 1151 次阅读 2024-7-26 09:46 |个人分类:科普|系统分类:科普集锦

DeepGSEA:单细胞转录组数据的可解释深度基因集富集分析

自提出以来,单细胞RNA测序(scRNA-seq)因其捕捉生命基本单元单细胞内基因特征的能力而令人们兴奋不已。通过测量单个细胞的表达谱,研究人员发现了大量RNA-seq数据中未发现的基因表达的大量细胞异质性。为了处理单细胞分析中的细胞异质性,已经提出了各种深度学习(DL)方法来模拟复杂的基因表达分布,进而处理scRNA-seq数据的规范化处理,例如批次校正、细胞类型鉴定和患者分类。

scRNA-seq数据分析的一个重要下游任务是基因集富集(GSE)分析。基因集是一组具有共同生物学功能、染色体位置或规则的基因。通过比较不同条件下细胞中的基因表达,GSE分析确定了在大量基因中过度代表或不足的富集基因集,帮助我们了解表型或感兴趣的临床条件的机制。表型特指研究人员想要研究的不同细胞表型(例如,肿瘤细胞)、实验条件(例如,病毒感染的细胞)或患者的表型(例如,疾病)

大多数现有的GSE分析方法是基于差异表达(DE)基因,要么通过选择预定义的DE基因列表,要么通过计算每个基因的DE分数。 虽然大多数此类方法最初是为bulk RNA-seq数据设计的,但近年来提出了许多变体以适应scRNA-seq数据集。然而,这些基于DE基因的方法可能没有充分利用基因集可能具有的基因表达谱的复杂分布。另一种GSE分析方法是多功能类评分(multiple functional class scoringFCS)。多种FCS方法将一个基因集的所有基因视为多变量特征,并比较高维空间中细胞间基因表达的分布。除了现有的多种FCS方法使用传统的统计分析来测试GSE,尝试使用深度神经网络(DNN)捕获不同表型细胞可能具有的复杂转录模式。虽然提出了各种事后方法来解释黑箱DNN的决策过程,但它们固有的不透明性仍然使它们不如基于统计测试的同行可靠,这限制了它们在生物医学中的潜在应用。

随着可解释人工智能的快速发展,人们提出了预先解释方法来构建既强大又具有内在可解释性的DNN,其中基于原型的架构是一个很有前途的分支,可以为训练模型提供基于案例的推理。最近,Xiong等人提供了一种解决方案,以利用DNN的表达性进行GSE分析,同时保留预测的可解释性。具体来说,作者们提出了DeepGSEA(图1https://github.com/Teddy-XiongGZ/DeepGSEA),这是一个DL增强的GSE分析框架,可以通过利用内在可解释的基于原型的DNN来模拟基因集的复杂表达分布,其中每个细胞原型对应于感兴趣的特定表型类别。

image.png

1 DeepGSEA概述。主干编码器E、基因集头h1···hT和基因集原型包含可学习参数。ω0 ω1···ωT为可学习偏差和权重,用于组合来自不同基因集的信息

可以对每个基因集进行显著性检验,以便筛选基因集富集。此外,神经网络学习到的基因集的潜在分布可以使用学习到的细胞嵌入和原型来可视化。通过共享骨干编码器的设计,DeepGSEA可以学习跨基因集共享的公共编码知识。DeepGSEA研究结果表明,这提高了模型从每个基因集挖掘表型知识的能力。作者们通过与常用的现有工具比较,在四项模拟研究中检查其敏感性和特异性,证明了DeepGSEA在执行GSE分析中的表达能力。此外,还使用三个不同的真实世界数据集测试了DeepGSEA在实际应用中的性能。在这些数据集上,作者们通过可视化富集基因集的学习复杂潜在分布来证明DeepGSEA的可解释性。

参考文献

[1] Xiong G, LeRoy NJ, Bekiranov S, Sheffield NC, Zhang A. DeepGSEA: explainable deep gene set enrichment analysis for single-cell transcriptomic data. Bioinformatics. 2024;40(7):btae434. doi:10.1093/bioinformatics/btae434

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

 

image.png

 



https://blog.sciencenet.cn/blog-571917-1443821.html

上一篇:hubEnsembles:R集成方法
下一篇:[转载]癌症研究中的空间转录组学:机遇与挑战
收藏 IP: 39.128.48.*| 热度|

2 郑永军 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-13 05:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部