zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

GRouNdGAN:基因调控网络引导的因果隐式生成模型来模拟单细胞数据

已有 412 次阅读 2024-6-7 14:00 |个人分类:科普|系统分类:科普集锦

GRouNdGAN:基因调控网络引导的因果隐式生成模型来模拟单细胞数据

揭示基因调控相互作用,通常被表示为基因调控网络(GRN),在研究不同条件下的生物过程、模拟敲低和敲除实验和确定治疗药物靶点中起着至关重要的作用。 已经提出了许多算法,单独使用或与其他模式一起使用批量或单细胞RNA测序数据(scRNA-seq)来重建GRN。虽然这些进展提供了很好的生物学见解,但由于研究中的生物过程缺乏可靠的基础真理,评估GRN推理算法的性能仍然具有挑战性。现有的评估方法往往求助于精心策划的数据库。然而,这些数据库中的调控相互作用来自广泛的数据集,并不特定于生物系统,由于基因调控的上下文特异性,它们不是理想的基准。另一种策略是通过对所研究的系统进行扰动实验来验证调节相互作用。然而,这种方法乏味、冗长且昂贵。另一种方法是使用scRNA-seq模拟器。尽管在这一领域取得了很大进展,但大多数模拟器缺乏这项任务的基本特性,例如基因身份的保存和基于用户提供的基准GRN的模拟。例如,scGANcscGANscDESIGN2SPARSIM在其数据集中捕获基因间相关性。然而,由于它们没有显式地施加已知的GRN(可以作为基础真理),因此它们不适合对GRN推理方法进行基准测试。

一小部分模拟器(例如,BoolODE, SERGIOGeneNetWeaver (GNW))明确地纳入了捕获转录因子(TF)-基因动力学的GRNGNW用于生成DREAM挑战基准。然而,作为一个批量RNA-seq工具,其模拟数据集不能复制实验scRNA-seq数据集的分布,也不能显示其统计特性,尽管试图通过外部诱导退出事件来适应这一目的。SERGIOBoolODE设计用于模拟scRNA-seq数据使用随机微分方程(SDE),并已用于基准的各种GRN推理方法。然而,基于实验数据和模拟数据的基准测试结果往往不匹配,这可能归因于模拟数据集和实验数据集之间的差异。例如,在BEELINE研究中(使用BoolODE),在模拟基准测试中,一些排名靠前的方法在策划和实验基准测试中报告了近乎随机的性能。这两个模拟器都使用户能够通过仔细选择SDE参数的值来模拟更真实的数据集。此外,使用参考数据集,SERGIO允许在迭代过程中微调添加的技术噪声,直到生成的数据集和参考数据集匹配为止。虽然这些步骤可以帮助提高与真实数据集的相似性,但它们通常不是最优的,并且给用户带来了不必要的负担。例如,在SERGIO中,用户必须基于五个不同的统计数据评估相似性,并迭代地更改三个参数,直到实现所需的相似性(这本身可能是主观的)。此外,由于GRN是在干净数据集上施加的,但随后添加了技术噪声,这一步可能会以一种非琐碎的方式改变编码的因果关系(这可以解释为什么GRN推理方法的性能在应用于有噪声的数据集时接近随机)。此外,SERGIOBoolODE并没有很容易地保留基因身份,并对协同调控做出了简化的假设。这些缺点表明需要能够生成真实的scRNA-seq数据的模拟器,这些数据保留了用户定义的GRN指定的调节动态。重要的是,随着人们对因果推理的兴趣日益浓厚,我们非常需要能够施加因果GRN的模拟器。

GRouNdGAN (1https://github.com/Emad-COMBINE-lab/GRouNdGANGRN引导的单细胞数据的计算机模拟,使用因果生成对抗网络)是一种因果隐式生成模型,用于基于参考的GRN引导的scRNA数据模拟,灵感来自CausalGAN。给定一个输入GRN和一个参考scRNA-seq数据集,可以训练它生成与参考数据无法区分的模拟数据,并忠实于输入GRN的因果调控作用。与基于模型的模拟器依赖于简化协同调控模式的假设不同,在GRouNdGAN中,这些模式是通过复杂的函数来学习的。这使得它不会在系统的潜在复杂性上妥协,并对复杂的调控动态进行建模。GRouNdGAN在现实的scRNA-seq数据生成中提供了最优的性能,同时保留了基因身份、因果基因调控作用和细胞动力学(例如,谱系轨迹和伪时间顺序)。这是通过隐式参数化实现的,不需要手动调优。使用GRouNdGANZinati等人对8GRN推理方法进行了基准测试,并发现结果与BEELINE的预测结果一致。此外,GRouNdGAN的因果结构使其能够用于从介入性和观察性数据分布中取样,从而实现计算机敲除实验。

image.png

1 GRouNdGAN的结构和训练程序。A表示训练过程的步骤和每一步模型的总体架构的流程图。下标GRE分别表示生成的、实际的和估计的。B使用参考(真实)训练集对WGAN-GP进行预训练,生成逼真的模拟细胞。C移除训练后的WGAN-GP生成器(B)LSN层,冻结其权重,作为因果控制器生成非归一化TF表达值(丢弃因果控制器生成的靶基因表达)。根据所提供的因果GRN,将这些TF表达式值连同噪声向量作为输入提供给靶标生成器。生成的基因和TF表达值被重组并通过LSN层传递。然后将归一化的模拟表达向量和实验参考数据(B相同的训练集)传递给评估器,以估计参考和生成数据分布之间的Wasserstein距离。反标签器根据生成的靶标基因表达来估计TF值。标记器执行类似的任务,但除了接收生成的值外,它还利用参考数据中的靶标基因表达值。标记器和反标记器确保因果GRN被靶标生成器纳入

参考文献

[1] Zinati Y, Takiddeen A, Emad A. GRouNdGAN: GRN-guided simulation of single-cell RNA-seq data using causal generative adversarial networks. Nat Commun. 2024;15(1):4055. doi:10.1038/s41467-024-48516-6

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

 

image.png

 



https://blog.sciencenet.cn/blog-571917-1437238.html

上一篇:MicroRNA测序数据的统计建模
下一篇:发育多巴胺能信号调节神经回路形成与ASD表型相关
收藏 IP: 112.116.155.*| 热度|

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-18 20:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部