||
CSGRN:基于因果图嵌入推断细胞特异性基因调控网络
细胞的身份和行为动态受复杂的基因相互作用所调控,这些相互作用最终塑造了细胞的形态和功能。基因调控网络(GRN)阐明了转录因子(TF)与其靶基因之间的复杂相互作用,对细胞分化、组织发育和疾病进展等生物过程产生显著影响。在基因调控网络中,基因之间的调控关系被表示为一个图,其中节点代表调控因子及其相应的靶基因,而边则表示这些基因之间的调控相互作用。
已开发出多种计算技术从大量的表达数据集和 scRNA-seq 数据中推断基因调控网络。这些方法通常可分为两类:无监督和有监督。无监督方法探索基因表达数据中的潜在特征和结构,以推断调控相互作用,而不依赖于在现有网络的基础上。例如,DeepSEM 采用β变分自编码器(β-VAE)框架,通过多层感知器识别基因间的相互作用关系。类似地,PMF-GRN 结合概率矩阵分解和变分推理技术,从 scRNA-seq 数据中推断调控网络。与无监督方法相比,监督方法不仅利用基因表达数据,还结合了已建立的基因相互作用知识、生物学背景和多组学数据。DGRNs 代表一种混合深度学习架构,集成了门控循环单元(GRUs)和卷积神经网络(CNNs),以有效从基因表达矩阵中提取时空特征,从而促进调控网络的推断。DeepRIG 通过整合共表达先验与通过图自编码器(GAE)学习的基因嵌入来推断调控网络。IGEGRNS 结合图神经网络和 CNNs,根据基因特征预测基因调控相互作用。基于深度学习的推断调控网络(GRN)的方法通常涉及两个主要阶段:初始阶段涉及从基因表达数据中提取基因的特征表示随后应用深度神经网络模型来预测调控相互作用。尽管这些方法在各种生物应用中取得了显著的成功,但在准确推断 GRN 方面仍面临一些挑战。首先,单细胞数据固有的高噪声水平,加上基因表达之间的冗余相关性,会导致推断网络中产生大量假阳性调控关系,从而影响结果的可靠性。其次,现有的大多数方法主要关注基因相互作用,往往忽略了细胞间异质性。这种疏忽导致特征学习不足,进而限制了模型的性能。此外,深度学习算法的“黑箱”特性削弱了它们对预测结果背后生物机制的解释能力。
为解决这些局限性,Li等人引入了一种名为 CSGRN(图 1,https://github.com/ lgj459/CSGRN)的监督深度学习框架,该框架基于图嵌入和 CCSNs的原理。该框架采用 GraphSAGE 生成基因的局部特征嵌入矩阵,并利用 CCSN为基因生成全局特征矩阵。通过实施对比学习来合并这些矩阵,并应用 top-k 池化来识别重要节点,构建了一个调控边矩阵,该矩阵作为链接模块的输入,用于预测基因之间的潜在调控关系。CSGRN 的主要优势如下:首先,CSGRN 通过在 CCSN 中应用条件独立性测试来过滤间接关联,并嵌入因果图以保留直接调控关系,从而减轻预测 GRN 中的假阳性——这是由于 scRNA-seq 数据中的噪声和冗余相关性带来的主要挑战。这些机制确保了生物学上有意义的边预测,正如消融研究所示,当包含这些模块时,假阳性率降低。其次,CCSN 对单细胞表达数据进行条件独立性测试,以构建稀疏的细胞特异性调控网络,从中计算条件网络度矩阵(CNDM)。 这个矩阵捕捉了网络拓扑和不同细胞类型中基因调控活动的变化,为 CSGRN 提供了一个全局特征表示,阐明了调控关系和整体模式。第三,局部和全局特征矩阵的对比融合增强了模型的鲁棒性,并丰富了多尺度上调控动态的表示。 最后,下游分析,如信号流图和基因扰动模拟,量化了调控关系,揭示了分化过程中细胞状态的变化,为生物调控机制提供了更深入的见解。

图1 CSGRN 模型概述。(A) CSGRN 模型架构示意图,包含五个主要步骤:基因特征学习、对比学习融合矩阵构建、top-k 池化、调控边矩阵开发以及链接预测。(B) 该模型还支持四种下游分析:信号流分析,阐明基因表达模块内的信息流;细胞类型特异性分析,旨在识别特定细胞类型独特的基因表达模式;目标基因富集分析,评估在不同条件下特定生物过程中基因集的富集情况;以及基因扰动模拟分析,用于模拟转录因子扰动的效应,并阐明细胞在分化过程中发生的动态变化
参考文献
[1] Li G, Qiao R, Xu Y, Jiao F, Li P, Chen L. Inferring cell-specific gene regulatory networks based on causal graph embedding. Cell Rep Methods. 2026 Apr 29:101423. https://doi.org/10.1016/j.crmeth.2026.101423
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-30 02:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社