zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

基于贝叶斯网络的单细胞数据中基因调控网络的因果评估

已有 427 次阅读 2026-1-10 15:38 |个人分类:科普|系统分类:科普集锦

基于贝叶斯网络的单细胞数据中基因调控网络的因果评估 

单细胞转录组学(SCT)在生物学和医学中被广泛用于深入理解疾病机制。SCT 数据分析涉及许多任务,如细胞聚类和注释,支持基因调控网络(GRN)的推断。在实现这些功能的软件工具中,有两个选项:SCENIC,它使用转录因子和基因关系;以及 hdWGCNA,它使用加权基因相关网络分析来评估从 SCT 数据中学习的 GRN 

贝叶斯网络(BN)是一类定义在随机变量集合上的图形模型,这些随机变量对应于有向无环图(DAG)的节点。BN已被广泛应用于许多研究中,用于从转录组数据中推断基因调控网络(GRN),这些数据是通过微阵列或批量 RNA-seq 技术收集的 mRNA 测量值。与无向网络模型不同,有向图给基因之间的调控关系指定了方向。BN允许基于从干预数据、观测数据或它们的组合中学习到的结构进行概率推理,这些数据可能根据扰动实验的成本而可用。在附加假设下,例如因果充分性,可以将 BN 用作因果网络,并通过模拟干预和反事实来进行因果推理。尽管有软件可以从时间序列表达数据中估计有向关系,但用于从集成到现有系统生物学通路分析(SCT)数据管道中的观测、横断面数据中学习有向 GRN的替代方案却很少。 

我们可以使用多种机器学习方法,基于贝叶斯网络从数据中学习基因调控网络。Han 等人成功使用惩罚回归,从卵巢腺癌肿瘤样本和癌症细胞系百科全书中的 mRNA 谱中学习稀疏高斯贝叶斯网络形式的基因调控网络。Xu 等人使用基于贝叶斯网络的多组学整合方法揭示胰岛素抵抗的机制。Choi Ni 基于零膨胀泊松模型构建贝叶斯网络,用于识别原发性结直肠癌肿瘤中的关键枢纽基因。作为替代方案,基于障碍模型的贝叶斯网络构建在早期无向网络上,用于零膨胀数据。此外,还提出了使用变分自编码器联合建模 SCT 数据中的基因调控网络和基因表达,生成对抗网络,以及基于梯度提升的推理方法,用于从数据中学习每个基因的邻居。 

尽管这些研究已经调查了基因调控网络(GRN)推理的性能以及基于机器学习方法的 GRN 在回答特定临床问题上的能力,但很少有研究将这些 GRN 作为机制系统模型进行结构化评估,以编码因果关系。能够忠实再现实际生物学因果关系的网络是生成假设的理想工具,因为通过网络的模拟扰动效应的传播与相应分子干预的影响密切相关。因果发现文献已经提出了许多用于评估贝叶斯网络(BN)的结构化指标,但由于计算成本高、在评分从观测数据中学习到的因果等价网络时存在不一致性,以及与分子网络已建立的实用质量指标缺乏一致性等原因,这些指标尚未应用于 GRN 

这些理论和方法的局限性,因缺乏能够从 SCT 数据中学习贝叶斯网络(BN)并以其概率正确、可靠、可扩展和用户友好的方式评估其结构的软件而加剧。为解决这一需求,Sato等人开发了 R scstruc(图1https://github.com/noriakis/scstruc),该包主要功能: 

1. 基于广泛使用的合适数据结构(如 SingleCellExperiment)将多种结构学习算法应用于 SCT 数据。

2. 通过比较多种方法,系统地评估学习到的网络在编码因果关系方面的表现,而不假设参考真实网络的可用性。使用标准生物相互作用数据库进行进一步验证。

3. 识别不同组之间调控通路的不同。 

image.png

1 包含 scstruc 的典型工作流程。展示了该包的典型工作流程。包含多个样本的单细胞转录组(SCT)数据存储在 R 类对象中,并用作多个针对 SCT 数据定制结构学习算法的输入。学习完成后,基于包括评估基因间因果效应的指标对网络进行验证,而不管参考定向网络是否可用。可以根据学习网络中的调控关系识别出区分不同条件的标记弧 

scstruc 旨在促进和简化 BN SCT 数据中的应用。反过来,学习 GRN 的能力将有助于生成新的假设以推动生物学和临床实验,并提供对 SCT 数据背后机制的更深入理解。 

参考文献

[1] Noriaki Sato, Marco Scutari, Seiya Imoto. Causal assessment of gene regulatory network in single-cell transcriptomics data based on Bayesian networks. bioRxiv 2025.12.17.695014; doi: https://doi.org/10.64898/2025.12.17.695014 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1517902.html

上一篇:Profiler:一个用于多组学分析的开放网络平台
收藏 IP: 183.224.110.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-1-11 07:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部