博文

SCCVAE：变分因果推理学习遗传扰动效应

已有 204 次阅读 2026-2-24 10:54 |个人分类:科普|系统分类:科普集锦

SCCVAE：变分因果推理学习遗传扰动效应

基因编辑技术为细胞中基因调控的研究提供了有用的探针。通过扰动单个基因并观察转录组变化，我们可以分离和解析这些扰动的下游效应。这些见解促进了各种下游应用，从识别参与基本细胞过程的基因，到发现潜在的药物靶点用于治疗。有许多潜在的靶基因可以进行扰动。Perturb-seq 通过结合高通量 CRISPR 基因编辑与单细胞 RNA 测序允许大规模探索。最近的进展进一步扩大了其规模，能够收集数百万细胞中全基因组扰动的数据。理解这些高通量数据中引入的遗传扰动引起的细胞反应非常重要。

已经提出了多种计算方法来解释和预测扰动效应。其中一条主要的研究方向探索了流行深度学习架构带来的表现能力和归纳偏差。例如，结合对抗网络的组合架构，将扰动效应与基底细胞状态分离。利用两个独立的自动编码器来学习特定于扰动的和特定于细胞的潜在表示，并采用归一化流在这些表示之间进行映射。使用基于图的网络，利用基于基因本体的图，同时学习扰动嵌入及其对应效应。提出了一种经过修改的变分自动编码器，具有精心设计的噪声模型，将扰动效应建模为这些噪声分布的稀疏偏移。使用具有图注意力架构的变分自动编码器来编码基因调控。提出使用扩散模型来建模单细胞转录组数据。使用包含解耦概念嵌入的交叉注意力机制。概念嵌入受预定义因果图的约束，该图编码了概念（例如，组织、细胞类型、扰动）之间的因果关系，从而能够在改变这些概念时生成反事实。请注意，这个因果图与上面描述的基因调控因果图不同，因为它建模了层次化概念之间的关系。此外，也有人提出了基于变分推理的分析方法来解释观察到的扰动。最近，Transformer 架构也被用于学习细胞和基因的无监督表示，扰动预测是下游任务。虽然这些方法在插值观察数据方面表现出色，但它们容易过拟合，这可能限制它们泛化到未见扰动的能力。观察到简单的线性模型在泛化到未见扰动方面可以优于复杂的深度学习模型。然而，他们的方法侧重于伪批量分析，而解决单细胞层面的扰动效应任然处于未知。

在推广到未见过的扰动时，有几个维度需要考虑。首先，泛化任务可能涉及从单基因扰动推断到靶向多个基因的组合扰动，或靶向新基因的单基因扰动，这些扰动可能以不同的穿透率/感染倍数施用。最近的一项工作中，Liu等人主要关注推断到新的单基因扰动。其次，根据任务的不同，所使用的泛化原则可能也会有所不同。例如，要泛化到组合扰动，一个流行的原则是使用加性来组合效应（可能在潜在空间中），并将相互作用学习为残差。为了推广到未见过的新的扰动，主要有两个原则：利用新目标与已观察目标之间关系的前验知识或一个指定扰动根据基因调控网络传播的机制模型。如上所述，著名的深度学习模型大多是基于先验知识的，通常依赖于基因本体论注释，而这类注释可能因为通常只捕捉部分相关性而泛化能力较差。另一方面，机制模型具有更大的外推潜力，因为它们捕捉了调控信息。前期的机制模型通常对扰动如何改变转录组谱做出假设。例如，使用了一个基于从 ChIP-seq 数据推断的预固定基因调控网络的线性模型，并展示了其用于推荐直接分化的转录因子的效用。此外，有研究者采用了一个基于通过因果发现算法学习到的基因调控网络的线性因果模型，并展示了其在半合成实验中干预设计方面的有用性。还有研究者使用化学主方程来模拟转录。然而，由于参数假设过于简单和/或昂贵的随机微分方程模拟，他们的应用仅限于相对较小的研究。

最近，Liu等人提出了一种结合机理因果模型与变分深度学习的混合模型，称为单细胞因果变分自编码器（SCCVAE，图1，https://github.com/uhlerlab/sccvae）。机理因果模型通过采用学习到的调控网络来捕获调控信息，并将扰动建模为通过该网络传播的转移干预。它在低维空间上定义，捕获必要信息以重建整个转录组读数。为了解决大多数机理模型中参数假设过于简单的问题，SCCVAE 将此模型集成到变分自编码器中。这种集成使 SCCVAE 能够学习和生成丰富、全面的转录组响应。研究结果表明，SCCVAE 在超越观察到的扰动进行泛化方面表现出色，能够准确预测未见的单基因扰动，并且优于标准和最先进的基线模型。机理模型指定了扰动的穿透性，允许模拟穿透性不同的单基因敲低扰动。关于观察到的扰动，由于 SCCVAE 学习扰动如何改变由机制模型定义的变量，它可以提取这些信息作为扰动表示，并观察到可以捕捉功能扰动模块。

图1 SCCVAE 的关键部分。(A) 结构因果模型的示意图，其中与基因 i 相关的参数被标注。(B) SCCVAE 的架构。它包含：一个将 X 映射到外生噪声变量 Z 的表达式编码器，一个将 p 映射到偏移向量 S^p 的偏移编码器，一个结构因果模型，该模型将 Z 和 S^p 映射到 U^p，以及一个表达式解码器

参考文献

[1] Liu E, Zhang J, Uhler C (2026) Learning genetic perturbation effects with variational causal inference. PLoS Comput Biol 22(2): e1013194. https://doi.org/10.1371/journal.pcbi.1013194

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC