||
使用缩减控制函数在大规模单细胞扰动数据中估计鲁棒性因果基因网络
单细胞扰动筛选已成为研究基因调控的一种强大方法,它结合了池化 CRISPR 扰动和单细胞转录组读数。通过测量单个细胞在靶向扰动后的转录反应,这些实验提供了超越仅从观察性单细胞数据中可以学到的干预变异,因此为基因调控系统中的因果发现提供了有前景的基础。早期的实现如 Perturb-seq和相关平台证实了具有单细胞读数的池化 CRISPR 筛选可以系统地在大规模上绘制遗传扰动的下游后果。最近的进展进一步实现了更大规模的扰动筛选,扩展了剖析细胞程序和调控机制的范围。
在这个背景下,一个核心目标是重建因果基因网络,其中有向边编码调控影响而非无向关联。这些网络自然地表示为有向无环图(DAG)——其边具有方向且不包含有向环,因此一个基因不能通过闭合反馈回路间接地自我调控。恢复这种 DAG 结构的网络对于理解基因如何协调细胞状态、扰动如何通过调控程序传播,以及哪些效应是直接的而非通过下游通路介导的至关重要。同时,现代扰动筛选的规模不断扩大,使得大规模网络重建成为一个日益重要且紧迫的问题。然而,从单细胞扰动数据中进行因果发现仍然困难,因为这些数据是高维的、稀疏的、基于计数的,而潜在的调控结构既受实验干预的影响,也受生物异质性的影响。 特别是,潜在因素可以同时影响多个基因,如果它们没有得到适当的考虑,就会产生虚假的依赖关系,从而混淆网络重建。
感染倍数(Multiplicity of infection,MOI),定义为每个细胞接收的平均扰动次数,也是单细胞扰动筛选中的关键设计参数(图 1b)。在低 MOI 条件下(MOI < 1),病毒递送被滴定,使得大多数感染细胞只接收一次扰动,这简化了下游的因果归因。然而,这种设计扩展性较差:所需细胞的数量与目标基因数量呈线性关系。对于全基因组文库,需要独立观察每个扰动,这带来了巨大的测序负担。因此,大规模低 MOI 筛选可能变得极其昂贵。这些局限性促使人们对高 MOI 筛选(MOI > 1)的兴趣日益浓厚,在高 MOI 筛选中,细胞经常同时接收多个扰动。高 MOI 设计扩展了可访问的扰动空间,并能够研究基因相互作用,但它们也引入了非平凡的解析挑战。在实践中,许多计算流程通过使用启发式或统计标准为每个细胞分配一个主要扰动,来调整最初为低 MOI 数据开发的方法。 这种简化忽略了同一细胞中其他扰动联合的调控效应,因此可能引入系统性的标签偏差和噪声,掩盖潜在的因果关系。这些挑战使得对那些与高 MOI(细胞密度)筛查数据具有内在兼容性的方法的需求日益增加。
另一个有趣的观点是,这些实验中使用的扰动从因果关系上看并不完全相同。如图 1c 所示,一个重要的区别在于硬干预和软干预。硬干预移除对扰动基因的上游调控影响,而软干预在保留其依赖上游调控因素的同时,改变该基因的条件分布。在实践中,CRISPR KO自然更接近硬干预,因为它旨在破坏基因功能,而 CRISPRi 和 CRISPRa更好地被视为软干预,因为它们在不完全取代基因调控机制的情况下抑制或激活转录。这种区别很重要,因为针对仅一种干预模式定制的方法在应用于另一种干预时可能会变得不稳定。
目前大多数已建立的因果网络算法都是针对低 MOI 场景设计的,假设每个细胞最多只接受一次干预。包括 inspre、IBC和 dotears在内的几种最新方法依赖于线性模型,而这些模型并不适合转录计数数据的稀疏、离散特性。专门为计数数据开发的方法,如 ODS和 ZIPBNs,通常依赖于限制性的分布假设,并且难以扩展到单细胞环境。此外,许多现有方法仅针对一种类型的干预进行设计,并未明确考虑未测量的混杂因素。这些不足共同凸显了需要一种统一框架的必要性,该框架能够模拟基于计数的 Perturbseq 数据,适应组合型高 MOI 干预,并保持对未测量混杂因素的鲁棒性。因此,Ge和Li提出了一个用于大规模单细胞干预筛选中鲁棒识别因果纠缠的集成框架(RICE,图1,https://github.com/HowardGech/RICE),该框架既支持硬干预和软干预,又能抵抗潜在混杂因素,并能自然地扩展到高 MOI 场景。

图1 RICE 框架和实验范式概述。a, RICE 流程示意图。对于每个基因,将表达水平对扰动指标和观察到的混杂因素进行回归以获得残差。所得数据在 DAG 约束下使用广义线性模型(GLM)进行建模。b, 低感染倍数和高感染倍数(MOI)筛选的示意图。在低 MOI 条件下,受扰细胞接收单个扰动,而高 MOI 筛选允许每个细胞同时进行多个并发扰动。c, 软干预和硬干预下因果基因网络的示意图。软干预保留了底层网络拓扑,而硬干预(如基因敲除)消除了目标基因的所有入边
参考文献
[1] Changhao Ge, Hongzhe Li. Robust causal gene network estimation for large-scale single-cell perturbation screens using reduced control function. bioRxiv 2026.04.20.719759; doi: https://doi.org/10.64898/2026.04.20.719759
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-17 06:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社