zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

SCALD:通过循环因果结构学习推理生物调控网络

已有 571 次阅读 2025-12-3 08:37 |个人分类:科普|系统分类:科普集锦

SCALD:通过循环因果结构学习推理生物调控网络 

生物网络是模拟生物分子之间复杂调控关系的有效工具,例如基因调控网络(GRN)、信号转导网络(STN)、蛋白质-蛋白质相互作用网络(PPI)、代谢网络等。以 GRN 推理为例,目前大多数网络构建方法基于广义相关性,大致可分为以下几类:(i)基于回归的方法(TIGRESSGenie3GRNBOOST2 PLSNET);(ii)基于互信息的方法(CLRARACNE PIDC);(iii)贝叶斯网络方法(catnetMMPC BMA);(iv)基于常微分方程(ODE)的方法(NARROMI CNNC);(v)基于深度学习的方法(3DCEMA DeepSEM)。然而,在生物系统中,调控本质上是一种具有方向性的因果关系,仅靠相关性无法充分描述。通常,广义相关性方法通常由于混杂因素的存在导致大量冗余和虚假的边。因此,从因果关系的角度推断 GRN 来建立调控关系更为合理。 

尽管时间序列数据常通过利用因果关系先于结果的原则来促进因果推断,但获取高质量的生物时间序列数据却是一项重大挑战。因此,基于非时间序列观测数据的因果发现成为更具普遍适用性的方法。利用非时间序列观测数据的因果发现方法通常假设因果图遵循有向无环图(DAG)结构,主要分为三类:基于约束的方法、基于因果函数的方法和基于评分的方法。基于约束的方法通过变量间的条件独立性检验来推断因果关系,基于因果马尔可夫假设和因果忠实假设。该类别中常用的方法包括 PCIC FCI。然而,马尔可夫等价类的存在总是使得因果方向无法识别。基于结构方程模型(SEM)和因果充分性假设提出的基于因果函数的方法,通过分析变量间回归残差中的不对称性来定向边,如加性噪声模型(ANM)和后非线性模型(PNL)中的方法。这种方法有效解决了与马尔可夫等价类相关的不可识别性问题。评分方法,如贪婪等价搜索(GES),使用多种评分方法(包括贝叶斯信息准则(BIC)和贝叶斯高斯等价(BGe))评估潜在因果图,并最终选择得分最高的图。然而,上述方法获得有向无环图(DAG)本质上涉及组合搜索。随着变量数量的增加,这种搜索的复杂度呈指数级增长,在尝试为大规模 DAG 寻找最优解时带来了重大挑战。与传统方法通常使用局部启发式方法来保持无环性不同,连续可优化的 DAG 约束能够将搜索过程转化为连续可优化的等式约束,例如 Notears DAG-GNN,它们通过采用变分自编码器(VAE)模型揭示非线性因果关系。 

近年来,因果发现技术逐渐应用于生物网络推理。受 DAG-GNN 启发,DeepSE 采用变分自编码器学习基因的低维表示,并运用结构方程模型预测调控关系的强度。Zhang 等人提出一种基于 PC 算法的因果发现方法 DirectTarget,专门用于推断异质数据中的 miRNA-mRNA 因果调控关系。尽管现有的基于 DAG 假设的因果发现方法在推断调控网络方面已被证明有效,但它们忽略了生物系统中由大量反馈回路形成的循环结构。此外,维持调控系统稳定性至关重要,因为失败可能导致系统扩张或功能收缩。因此,从因果角度推断生物网络时,必须考虑反馈机制及其在稳定调控中的作用。鉴于此,已提出一些方法探索定向循环图(DCG)的推理。 Bongers 将非循环 SEM(结构方程模型)扩展为循环 SEM,并为基于 DCG 的结构方程模型提供了一套完整的定理。这项工作证明,除自环外,DCG 中的其他所有环都可以用因果结构模型来表示。然而,值得注意的是,生物系统中反馈机制的稳定调控在现有的因果调控网络推理研究中很少被涉及。 

最近,Jiang等人提出了 SCALD(结构因果模型用于循环图,https://github.com/JhyOnya/SCALD,图1),这是一个用于在反馈调控下推断生物网络因果结构的新框架。这种方法将表示变量之间关系的非线性结构方程模型与通过连续优化实现的稳定反馈控制条件相结合。这是首个将因果结构发现与反馈回路考虑相结合以推断有向生物网络的研究。作者们进行了广泛的实验并与现有基准方法进行了比较,以评估 SCALD 在识别基因调控网络和信号转导网络中分子之间调控关系方面的性能。此外,通过公共转录因子扰动实验,评估了 SCALD 在预测转录因子与其对应靶基因之间转录调控关系方面的敏感性和准确性。对于新预测的未知调控关系,通过 ChIP-seq 数据分析提供了额外的验证。除了验证之外,还探索了 SCALD 的下游应用。例如,研究了它在识别促进结肠炎症向癌症转化的关键驱动因素方面的潜力,通过识别调控网络的动态变化来实现。 

image.png

1 SCALD 概述。(A)给定包含 n 个独立同分布观测数据样本的集合X,每个样本包含 d 个基因,首先基于 Spearman 相关性确定基因-基因关联的符号,然后根据相关性显著性得到一个符号图。(B)使用非线性结构方程模型学习一个无符号的粗略有向图。(C)设计了两个约束条件,分别试图在环中负边数量为零和偶数时避免截面数据中的不稳定反馈 

参考文献

[1] Jiang H, Wang Y, Feng K, et al. Biological Regulatory Network Inference through Circular Causal Structure Learning. arXiv preprint arXiv:2511.02332, 2025. https://doi.org/10.48550/arXiv.2511.02332 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1512709.html

上一篇:基于深度学习的基因扰动效应预测并没有比简单的线性基线好
收藏 IP: 39.128.48.*| 热度|

1 王涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-12-5 21:46

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部