||
CSCN:基于单细胞数据推断细胞特异性因果网络
理解基因如何相互作用以调控细胞行为是分子生物学的一个基本目标。基因-基因网络,如基因调控网络(GRNs),提供了一个强大的框架来模拟基因之间的协调活动。然而,大多数现有方法在组织或群体水平构建这些网络,隐含地假设细胞间的调控同质性。越来越多的证据表明,基因相互作用模式可以从细胞到细胞显著不同,这受到内在异质性、发育动态和微环境因素的影响。
这一认识推动了在单细胞分辨率下构建基因网络的兴趣,旨在捕捉每个细胞的独特调控和功能景观。单细胞 RNA 测序(scRNA-seq)的进步现在能够实现单细胞水平的基因表达分析,促进基于每个细胞的基因-基因网络的计算重建。单细胞分辨率的基因网络通过捕捉塑造细胞功能的底层控制逻辑,提供了更详细的基因调控视图。它们为理解单个细胞如何解释环境信号、维持独特身份以及经历状态转换提供了关键见解。与原始表达谱相比,基于网络的表示往往更稳定且具有生物学信息量,使其特别适用于下游单细胞分析,并有助于更深入地理解细胞异质性。
基于这一基础,提出了细胞特异性网络(CSN)框架,通过捕获非线性依赖关系并构建网络度矩阵(NDM)来替代原始表达数据,从而增强下游分析。然而,由于 CSN 完全依赖边缘独立性检验,它无法区分直接依赖和间接依赖,常常导致假阳性。例如,两个由共同转录因子独立调控的基因可能尽管缺乏直接相互作用,却表现出连接关系。
为了区分直接依赖和间接依赖,条件细胞特异性网络(c-CSN)框架通过引入条件独立性检验扩展了 CSN,从而减少每个细胞网络中的假阳性。尽管 c-CSN 提高了特异性,但它仍然受限于两个因素。首先,其单基因条件策略无法解决多个调节因子共同控制基因对时的间接联系——例如,由因子 X 和 Y 共同调控的基因 A 和 B 可能仍然表现出虚假关联。其次,c-CSN生成无向网络,既缺乏边的方向性,也缺乏因果可解释性。例如,它无法区分基因 A 是否调控基因 B,反之亦然,或者它们之间的关系是否互惠。所有情况都被视为等价,可能会掩盖真实的调控方向,并降低下游分析的生物学有效性。
为了解决这些局限性,Wang等人提出了细胞特异性因果网络(CSCN)框架(图1),以实现单细胞分辨率的因果基因调控网络推断。CSCN 通过明确建模因果关系来构建有向图,以表示基因调控相互作用,而不是依赖简单的关联。这使得 CSCN 能够消除间接和虚假的连接,生成稀疏、可解释且具有生物学意义的单细胞分辨率网络。由此产生的因果视角提供了更准确和稳健的基因调控动态表示,增强了下游的可解释性。CSCN 采用了 Peter Clark提出的因果推理算法,并结合基因水平的条件独立性检验。为了应对因果发现的高计算需求,作者们引入了 KD树数据结构和位图索引,显著加速了大规模基因和细胞数据的条件独立性检验。

图1 单细胞表达矩阵开始,应用预处理和降维(通过 NMF、WGCNA 或目标子集)。对于每个细胞,使用全条件集进行条件独立性测试,得到一个修剪后的无向骨架。定向阶段由 Peter–Clark 算法实现,为骨架分配因果方向,形成部分有向无环图(PDAG)。CSCN 采用KD树和基于位图的加速使全条件测试成为可能,最终得到定向的细胞特异性因果网络。
模拟实验证明,与现有方法相比,CSCN 能显著减少假阳性结果。为了评估推断因果网络的质量,基于因果 Katz 矩阵(CKM)进行聚类分析,CKM 是从每个细胞特异性因果图中推导出的表示方法。CKM 使用 Katz 中心性量化基因调控的重要性,既能捕捉直接和多步因果影响,又能保持原始表达矩阵的维度,以兼容标准的下游分析。在多个 scRNA-seq 数据集上的实证结果表明,基于 CKM 的聚类分析在准确性、鲁棒性和生物学可解释性方面均优于传统表示方法,包括 GEM、NDM 和 CNDM。此外,CSCN 通过识别与疾病表型直接相关的因果基因,促进了生物标志物的发现,为疾病机制提供了见解。
总之,CSCN 提供了首个可扩展的框架,用于推断定向的细胞特异性基因调控网络,并从中推导出 CKM,以支持准确、可解释和鲁棒的下游分析。
参考文献
[1] Menghan Wang, Junya Yang, Luyao Lyu, Jiaxing Chen. CSCN: Inference of Cell-Specific Causal Networks Using Single-Cell RNA-Seq Data. bioRxiv 2025.10.09.681381; doi: https://doi.org/10.1101/2025.10.09.681381
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-5 18:27
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社