||
scMultiomeGRN:基于深度学习的细胞类型特异性基因调控网络推断方法
定义细胞身份和状态之间的转换对于理解生物发育和人类疾病的机制至关重要。因此,探索这些转换可以揭示生物发育和人类疾病的潜在过程。基因调控网络(GRN)描述了转录调控因子与多个顺式调控DNA序列之间的复杂相互作用,在确定细胞身份中起关键作用。识别人类健康和疾病中GRN细胞异质性的结构和功能为细胞重编程的新方法铺平了道路,并且有助于发现了疾病机制和推进治疗开发。
转录因子(TF)是特异性结合DNA序列的蛋白质,单独或与其他蛋白质/基因一起调节基因表达。TF之间复杂的互作关系通常以TF介导的GRN为代表。GRN提供了遗传和基因组信息如何在生命系统中转移的全面视图,并且是理解基因表达过程的关键组成部分。识别GRN中的网络模块和基序(GRN拓扑结构和组织模式的基础),可以揭示生物发育和进化中的转录调控机制。构建GRN的传统方法主要依赖于破译TF与其靶基因之间的相互作用。由于GRN的复杂性,使用实验方法在多种人类细胞类型中系统地鉴定GRN是极其困难的。单细胞测序和单细胞ATAC测序方法能够收集大规模的转录组和表观基因组图谱,为系统鉴定GRN铺平了道路。
随着高通量测序技术的快速发展,单细胞水平的GRN分析已成为可能,但常用的计算方法主要基于相关系数或互信息来衡量基因共表达模式,无法处理高维数据,并且对噪声敏感。近年来,随着深度学习在自然语言处理领域的巨大成功,研究人员越来越多地开始探索将深度学习应用于复杂疾病的GRN推断,从而探索疾病的发病机制并预测潜在药物。例如,Xie等人开发了一种筛选工作流程,该流程结合了先进的人工智能和经典的湿实验室方法,以识别新型线粒体自噬调节剂,作为阿尔兹海默病治疗的潜在候选药物。为了更深入了解阿尔兹海默病的潜在基因调控,Zhu等人提出了一种基于图学习的单细胞调控网络方法,用于从单细胞数据中识别潜在的调控机制。DeepSEM提出了一种基于β-VAE框架的结构方程模型来预测GRN邻接矩阵中基因间的调控关系。此外,共表达卷积神经网络(CNNC)也被提出,CNNC将基因对的共表达精细地转换为图像直方图,从而将卷积神经网络应用于基因-基因关系预测。然而,大多数这些方法仅关注基因对的调控关系,未能利用GRN的固有全局调控结构,对细胞数量较少的罕见细胞类型/亚型的总体性能较差。此外,在避免引入额外噪声的同时整合多组学数据集仍然是一个重大挑战。
最近,Xu等人提出了一种新方法scMultiomeGRN(图1,https://doi.org/10.5281/zenodo.14848389),这是一个深度学习框架,通过scRNA-seq和scATAC-seq数据的独特整合来推断生物学相关的GRN。具体来说,将GRN假设为属性图,其中节点表示TF,并包含来自scRNA-seq和scATAC-seq分析数据的特征。边表示TF之间的基因组调控关系,其特征在于基因表达(scRNA-seq)和染色质可及性(scATAC-seq)。 随后,scMultiomeGRN通过构建特定模态邻域聚合器和跨模态注意力来学习TF表示。通过学习特定模态邻域聚合器,计算出每个TF的一组表示,解决了有效整合异构多组学数据的挑战。引入了跨模态注意力模块,通过准确捕获每个TF的模态异构表示来计算最终的TF表示,在多个单细胞多组学基准数据集(scRNA-seq和scATAC-seq)中证明了scMultiomeGRN与最先进的模型相比的高性能。通过scMultiomeGRN,使用阿尔兹海默病作为原型案例鉴定了小胶质细胞的病理生物学特异性GRN。
图1 scMultiomeGRN工作流程概述。scMultiomeGRN以scATAC-seq和scRNA-seq数据为输入,由三个步骤组成。第一步,(A)构建GRN骨架,由一组最大似然TF-TF交互(链接)组成。GRN骨架由初始邻接矩阵表示。(B)第二步是计算每个细胞中每个TF节点的特征以及TF与TF之间的边缘特征。最后是(C)模型的构建与验证
结论
作者们提出了一个新的深度学习模型scMultiomeGRN,用于从scRNA-seq和scATAC-seq数据中推断GRN。与以往的模型不同,scMultiomeGRN将GRN概念化为属性图,其中节点表示TF并结合来自不同组学数据的特征。此外,构建了两个模块来聚合scRNA-seq和scATAC-seq数据的特征信息:模态特定邻居聚合模块和跨模态注意层模块,其中模态特定邻居聚合分别用于聚合scRNA-seq和scATAC-seq数据的邻居信息,在聚合邻居信息时,跨模态注意层用于在组合组学特征时添加注意机制,以学习线性模式之间的非相关性。scMultiomeGRN能生成真实的调控网络,以及针对稀有细胞类型/亚型的GRN推断。此外,通过分析预测的GRN特异性,可以提高各种方法推断具有生物学意义的GRN精确度。这种详细的评估对于阐明基因调控的复杂机制以及理解疾病的病因和进展至关重要。例如,scMultiomeGRN通过比较正常和阿尔兹海默病样本之间的GRN改变,确定了SPI1和RUNX在阿尔兹海默病风险基因座中的核心TF调控作用。总之,scMultiomeGRN旨在整合scRNA-seq和scATAC-seq数据,以推断由于知识不完整而导致的TF相互作用缺乏,更有利于推断GRN结构的内在信息。
目前研究中存在一些潜在的局限性。首先,scMultiomeGRN独特地整合了scRNAseq和scATAC-seq数据,以便于推断多种组织特异性疾病中的GRN。然而,了解不同组织和器官之间的空间特异性调控机制仍然是一个挑战。未来的工作应集中在整合空间转录组学数据,以提供更全面和详细的理解,从而更准确地推断GRN的拓扑结构和机理。其次,scMultiomeGRN在很大程度上依赖于ChIP-seq数据集的数据质量。这在过滤掉<10%的峰后显著减少了TF数量。未来的工作可以扩展scMultiomeGRN,使其不太容易受到数据集稀疏性的影响。此外,扩展框架以包括非TF基因并考虑TF与其靶基因之间的因果调控关系是至关重要的。最后,scRNA-seq和scATAC-seq的单细胞基础模型将提供丰富的多组学数据,以在未来鉴定生物学相关的GRN。
参考文献
[1] Xu J, Lu C, Jin S, Meng Y, Fu X, Zeng X, Nussinov R, Cheng F. Deep learning-based cell-specific gene regulatory networks inferred from single-cell multiome data. Nucleic Acids Res. 2025 Feb 27;53(5):gkaf138. doi: 10.1093/nar/gkaf138.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
1/1 | 閹槒顓�:1 | 妫f牠銆� | 娑撳﹣绔存い锟� | 娑撳绔存い锟� | 閺堫偊銆� | 鐠哄疇娴� |
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-4-7 17:11
Powered by ScienceNet.cn
Copyright © 2007-2025 中国科学报社