||
CeSpGRN:细胞特异性基因调控网络识别
基因调控网络(GRN)代表基因在生物过程中如何相互调控。从基因表达数据中推断 GRNs是一个长期且具有挑战性的问题。单细胞基因表达数据已被用于推断 GRN,其中每个细胞被用作一个样本。这些方法旨在从一个细胞簇或一个数据集中的所有单细胞群体的基因表达数据中学习一个 GRN。然而,据报道 GRN 具有高度动态性,其拓扑结构会随时间进程或空间景观发生变化。每个细胞可以根据其在动态过程中的发育阶段拥有其独特的 GRN。获得细胞特异性调控网络(GRN)具有重要意义,因为它使研究人员能够研究动态过程中 GRN 的变化或空间景观中的 GRN 变化。Dictys被提出用于利用单细胞基因表达数据推断分化轨迹上的时变 GRN。该方法沿着轨迹移动一个窗口,并在每个窗口步骤中推断 GRN。然而,该方法没有在单细胞分辨率上推断 GRN,并且要求细胞预先按伪时间排序,但伪时间推断步骤也可能引入错误。Dai 等人开发了 CSN,它试图使用统计测量计算单细胞中的成对基因-基因关联。然而,CSN 独立地分析每对基因的关联。在 GRN 推断中,所有基因同时被考虑,这比成对基因-基因关联分析更具挑战性。基于 CSN,提出了 c-CSN,它考虑了其他基因的影响并消除了基因之间的间接相互作用。p-CSN 再向前迈出一步,通过使用部分统计独立性。另一方面,LocCSN提出了一种用于相关测试的局部种群构建方法,该方法减少了 CSN 算法检测到的假阳性边。
与此同时,单细胞多组学测序技术的进步使得利用多模态信息推断更准确的调控网络成为可能。最近,人们提出了利用联合分析的 scATAC-seq 和 scRNA-seq 数据来推断调控网络的方法。SCENIC+在 SCENIC的基础上进行了扩展,并将 scATAC-seq 数据中编码的转录因子靶点信息整合到调控网络推断流程中。CellOracle从 scATAC-seq 数据构建顺式调控网络,并通过线性回归模型利用 scRNA-seq 数据对网络进行优化。scMTNI 是一种概率图模型,利用细胞谱系树、scATAC-seq 数据和 scRNA-seq 数据来推断细胞类型特异性的调控网络。另一方面,scMultiomeGRN 使用图神经网络融合不同模态提供的调控知识,并推断细胞群体的调控网络。这些方法,不论算法细节如何,都遵循相同的两步推断框架:它们首先使用 scATAC-seq 数据构建一个包含 TF和目标基因之间可能调控事件的“先验图”,然后使用 scRNA-seq 数据来优化“先验图”。然而,由于它们仍然专注于群体水平的 GRN 推断,因此“先验图”仍然通过 scATAC-seq 数据中的群体水平区域信息构建,未能考虑细胞间开放染色质区域的差异。另一方面,空间转录组学(ST)数据提供了细胞的空间位置以及基因表达数据。功能相似的细胞往往在许多组织中形成空间分层结构,这表明在这些组织中,空间邻近的细胞可能具有相似的 GRN。
最近,Zhang 等人提出了 CeSpGRN(细胞特异性基因调控网络推断,图1,https:// github.com/PeterZZQ/CeSpGRN),一种从单细胞多组学和空间数据中推断细胞特异性 GRN 的计算方法。典型的 GRN 推断方法需要足够数量的细胞来推断一个 GRN,这使得为所有细胞推断细胞特异性 GRN 似乎不可能。在 CeSpGRN 中,假设细胞的 GRN 沿着细胞轨迹或空间景观平滑变化。这一假设使得可以在不同细胞之间进行“信息借用”:在推断某个细胞的 GRN 时,CeSpGRN 不仅使用该细胞自身的数据,还使用其邻近细胞的数据。CeSpGRN 中的邻近细胞是根据基因表达数据或空间位置的相似性定义的。通过“信息借用”策略,CeSpGRN 不需要许多高分辨率 GRN 推断方法中使用的额外轨迹推断或细胞聚类步骤,从而避免了这些步骤引入的潜在错误。CeSpGRN 使用高斯 Copula 图模型(GCGM)来建模基因表达数据。 GCGM 是在高斯图模型(GGM)的基础上扩展的。与 GGM 相比,GCGM 考虑了单细胞基因表达数据的非高斯特性。CeSpGRN 的设计使其能够应用于单细胞多组学数据集。给定同时测量每个细胞的配对 scATAC-seq 和 scRNA-seq 数据,CeSpGRN 从scATAC-seq 数据中学习细胞特异性先验 GRN,并使用 scRNA-seq 数据细化细胞级先验 GRN。当 scATAC-seq 数据不可用时,CeSpGRN 通过转录因子信息构建先验 GRN。给定 ST 数据,CeSpGRN 还可以将空间信息整合到加权核构建中。

图1 CeSpGRN 框架概述。CeSpGRN 可应用于配对的 scATAC-seq 和 scRNA-seq 数据,或 ST 数据。它推断细胞特异性 GRN,这些 GRN 可用作细胞潜空间的可视化细胞特征,以及用于研究随时间或空间变化的调控动态
在三个涵盖不同 GRN 推理场景的真实数据集上测试了 CeSpGRN,包括一个配对的 scATAC-seq 和 scRNA-seq 数据集、一个 scRNA-seq 数据集和一个 ST 数据集。还对模拟数据集上 CeSpGRN 的性能进行了定量评估。测试结果表明 CeSpGRN 的广泛适用性及其在重建动态重连调控方面的优越性能。
参考文献
[1] Zhang Z, Han J, Song L, Zhang X. CeSpGRN: inferring cell-specific gene regulatory networks from single-cell multi-omics and spatial data. Bioinformatics. 2026;42(6):btag324. https://doi.org/10.1093/bioinformatics/btag324
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-6-29 10:16
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社