zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

SEMgraph:用结构方程模型对高通数据进行因果网络推理的R包

已有 1415 次阅读 2023-12-29 09:21 |个人分类:科普|系统分类:科普集锦

SEMgraph:用结构方程模型对高通数据进行因果网络推理的R 

发现和理解复杂表型特征背后的机制在生物医学研究中至关重要。随着高通量测序技术的出现,患病(通常是表型)性状背后的实际复杂性变得突出,在分子生物学和医学领域也开启了大数据时代。生物学模型通常由信号通路、代谢反应链或非常大的蛋白质-蛋白质相互作用网络(也称为相互作用组)来表示。生物系统的复杂性源于其组成部分之间的相互作用和反应。由于有大量可公开获得的生物医学数据库,结构化的生物化学和生物医学信息可以很容易地转换为网络和统计模型:我们通常将它们称为基于知识的模型。从现有的知识出发,网络模型应该在一个简单明了的工作流程中进行更新和测试。从计算的角度来看,挑战在于让用户直接从定量数据中选择初始设置、估计算法和模型参数中解脱出来,并使用高效且可并行化的方法。在这一挑战的激励下,Grassi等人开发了RSEMgraph,并将其用于结构方程建模(structural equation modelSEM),从而能够对复杂的生物网络进行因果推理。 

SEMgraph包为网络生物学和医学的自动化和数据驱动的因果推理提供了一个R环境,将模型语法与图分析集成在一起。典型的SEMgraph工作流包括四个主要步骤:(i)数据导入和图预处理;(ii)因果架构学习;(iii)搜索(受干扰的)网络社区和路径;()模型拟合。SEMgraph的主要目标是识别最佳因果模型中的关键参与者,该模型由同时涉及模型构建和分析的三个上下文信息源定义:图架构、定量数据和可能的干扰原因。为了实现这个目标,SEMgraph使用igraph作为输入。需要模型拟合的函数也使用lavaan语法中的内部SEM表示。用户可以使用简单的转换实用程序在这些表示之间手动更改。所采用的方法是通用的,足以接受不同的图类型(例如有向、无向或混合)和任何类型的定量数据,包括生物分子、测序和临床数据。 

image.png 

1 SEMgraph基本分析工作流程 

SEMgraph附带了来自常用生物数据库的互作组集合,包括KEGG, STRINGReactome。本工作中使用的互作组和数据可在SEMdata数据包中获得:https://github.com/fernandoPalluzzi/SEMdata。作为工作示例,Grassi等人导入KEGG通路肌萎缩性侧索硬化症(ALS),从可用的图中构建SEMALS是一种神经退行性疾病,其特征是大脑和脊髓的运动神经元进行性变性。ALS转录组数据是一个高维数据矩阵(160样本17695个基因),其中139ALS病例和21例健康对照。与健康对照相比,SEMrun()ALS患者中得到16个差异调节节点和3个差异调节边。已知的ALS模型能够检测到明显受扰动的节点和边,但如全局拟合统计量所示,很大一部分数据变异性仍然无法解释。利用因果结构学习算法,modelSearch()函数提取出拟合良好的DAG模型。在这个例子中,输出模型显示了SOD1基因的失调是如何导致神经元直径的变化的,而SOD1基因的失调是如何导致神经元直径的变化的。由于BCL2-DAXX, CYCS-MAPK13TOMML40-MAP2K6的新连接,这种在输入模型中缺失的间接连接现在成为可能,表明细胞凋亡和神经元直径调节之间存在密切关联,两者在神经退行性疾病中都失调。此外,作者们还提供了使用SEMgsa()SEMdci()函数在神经退行性疾病额颞叶痴呆中应用的网络查询的额外数值和图形结果。 

总之,SEMgraphhttps://cran.r-project.org/web/packages/SEMgraph)是一个快速、用户友好、功能强大的因果网络分析包。弥合图论和SEM,它传达了多元线性网络框架内的因果结构学习,结合了准确的数据驱动发现和混淆调整模型的可解释性。 

参考文献

[1] Grassi M, Palluzzi F, Tarantino B. SEMgraph: an R package for causal network inference of high-throughput data with structural equation models. Bioinformatics. 2022 Oct 14;38(20):4829-4830. doi: 10.1093/bioinformatics/btac567.

 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

 

image.png




https://blog.sciencenet.cn/blog-571917-1415761.html

上一篇:非编码RNA提高了网络医疗的预测能力
下一篇:单细胞脑类器官筛选识别自闭症发育缺陷
收藏 IP: 39.128.55.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 22:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部