zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

DAZZLE:使用 dropout 增强改进基因调控网络推理

已有 1244 次阅读 2025-11-24 10:01 |个人分类:科普|系统分类:科普集锦

DAZZLE:使用 dropout 增强改进基因调控网络推理 

从表达数据中推断基因调控网络(GRN)提供了体内基因间相互作用的上下文模型。理解这些相互作用对于深入了解发育、病理以及可能适合治疗干预的关键调控点至关重要。 

虽然基于批量转录组数据推断调控网络(GRN)已有较长的历史,但许多近期研究认为单细胞 RNA 测序数据(scRNA-seq)提供了更具体的上下文信息。单细胞 RNA 测序使研究人员能够分析单个细胞的转录组特征,相比传统批量方法,它提供了更详细和准确的细胞多样性视图。然而,机遇往往伴随着挑战。一篇关于 GRN 推断的最新基准论文总结了单细胞数据中导致 GRN 推断挑战的主要问题:细胞多样性、测序深度在细胞间的差异、细胞周期问题以及由于 dropout 导致的稀疏性。 

尽管存在这些挑战,许多方法已仅从单细胞 RNA 测序数据中提出了针对特定上下文的基因调控网络推理方法。在已建立的方法中,GENIE3 GRNBoost2是基于树的方法,最初是为批量数据提出的,但发现无需修改即可在单细胞数据上表现良好。LEAP估计伪时间以推断多个滞后窗口内的基因共表达,并建议滞后时间可用于推断调控关系。SCODE SINGE应用类似伪时间的概念,结合常微分方程(ODE)和格兰杰因果性集合来模拟结果。PIDC 使用部分信息分解来整合基因集之间的互信息,模拟细胞异质性。 

其他方法通过整合转录组和其他数据源来推断 GRN。例如,SCENIC首先使用 GENIE3/GRNBoost2 识别基因共表达模块,然后识别调控这些模块或调控域的关键转录因子(TF)。scMTNI使用多任务学习框架研究不同细胞簇中的 GRNGRNUlar通过结合 TF 信息,使用最近开发的展开算法从单细胞数据中推断无向 GRNNetREX-CF基于先验 GRN 网络进行优化,并使用协同过滤来解决先前数据的完整性问题。PANDA使用消息传递进一步优化先验 GRN 网络。然而,在特定情境下,单细胞数据比整合的多组学数据集更广泛可用和易于获取。 

神经网络(NN)在单细胞数据分析中的应用近年来取得了快速进展。作为基于神经网络的基因调控网络(GRN)推理方法的领先者之一,DeepSEM 参数化邻接矩阵,并使用在重建误差上优化的变分自编码器(VAE)架构。事实上,在正确网络(大约)已知的 BEELINE 基准测试中,DeepSEM 报告了优于其他方法的性能,并且比大多数方法运行速度显著更快。然而,DeepSEM 的一个问题是,随着训练的进行,推理网络的品质可能会迅速下降。一个可能的解释是,在模型收敛后不久,它可能会开始过度拟合数据中的 dropout 噪声。 

单细胞数据通常具有过多的零表达计数,称为“零膨胀”。例如,以往研究通过检查的九个数据集中,观测到的57%~92%计数中有一定比例是零。在这些零值中,“dropout”描述了这种情况:转录本没有被测序技术计数,通常这些转录本在细胞中的表达水平较低或中等。后来的基于液滴的协议,如 inDrops 10X Genomics Chromium,帮助提高了检测率。然而,“dropout”问题仍然存在,因为即使是最近的方法,其灵敏度也相对较低。 

因此,已有针对单细胞分析的数据插补方法的研究。提出了几种方法来识别并用插补值替换缺失数据。然而,这些方法中的许多依赖于限制性假设,并且一些方法需要额外信息,例如 GRNs或批量转录组数据。 

最近,Zhu等人为单细胞分析和 GRN 推理领域引入了两个新的贡献。首先,他们提出了“dropout augmentation”DA),这是一种通过添加少量模拟 dropout 噪声来增强数据以减轻零膨胀问题影响的新方法。作者们发现,虽然这个想法看似反直觉,但它可以有效地正则化模型,使模型能够抵抗 dropout 噪声。 

人们早已知道,在训练过程中向输入数据添加噪声,可以提高许多机器学习模型的鲁棒性,有时甚至能提升性能。Bishop 首先指出添加噪声相当于 Tikhonov 正则化。Hinton 进一步提出了在输入或模型参数上使用随机“dropout”来提高训练性能的想法。因此,DA 的理论基础也是坚实的。 

作者们的第二个贡献是 DAZZLE 模型(图1https://bcb.cs.tufts.edu/DAZZLEhttps://github.com/TuftsBCB/dazzle),即用于零膨胀学习增强的 Dropout 增强。DAZZLE 使用了 DeepSEM DAG-GNN引入的基于VAEGRN学习框架,但它采用了dropout增强和若干其他模型改进。这些改进包括一种优化邻接矩阵稀疏性控制策略的新方法、简化的模型结构以及闭式先验。与DeepSEM相比,DAZZLE在基准实验中表现出更好的模型稳定性和鲁棒性。

image.png 

1 DAZZLEDeepSEM之间一个主要的不同之处是Dropout增强的使用。Dropout增强通过在每次训练迭代中模拟少量随机dropout,使模型免受dropout 噪声的负面影响。带圆角的方框表示可训练的模型参数 

参考文献

[1] Zhu H, Slonim DK (2025) Improved gene regulatory network inference from single cell data with dropout augmentation. PLoS Comput Biol 21(10): e1013603. https://doi.org/10.1371/journal.pcbi.1013603 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1511511.html

上一篇:scUnified:单细胞数据分析的AI标准化资源
下一篇:SDMap:空间药物扰动图谱数据库
收藏 IP: 39.128.48.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-12-5 21:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部