||
DoFormer:基因扰动因果Transformer
基于 Transformer 的可扩展、快速 AI 模型的进步,以及跨多种细胞类型和组织的图谱级单细胞 RNA 表达数据的出现,推动了众多转录组基础模型的发展,这些模型旨在准确预测上下文外及未见过的细胞扰动。这些 AI 模型的核心问题是它们能否增进我们对健康与疾病中细胞因果生物学机制的理解。在基础模型时代之前,因果发现与推理在严格的假设下为机制理解提供了一个可靠的框架,前景广阔。然而,由于该框架的概率性质,经典因果发现方法存在两个主要局限性。 首先,他们通常假设有向无环图(DAG),这需要对基因调控网络(GRN)做出非常不切实际的假设,而 GRN 中经常包含循环和反馈回路。其次,它们无法整合多种数据模态,极大地限制了使用日益丰富和有价值的数据集,这些数据集使我们能够同时查看细胞表型的不同方面——这是一套潜在的革命性技术。
最近,Karbalayghareh等人介绍 DoFormer(图1),一个无需任何 DAG 假设的因果多模态 AI 模型,它为每个基因使用两种互补的信息来源:RNA 表达及其蛋白质的序列信息,通过蛋白质语言模型(PLM)嵌入。任何可靠的因果 AI 模型都需要以下四个特征:1)可扩展性,2)多模态,3)生物学导向的损失函数,4)正确的计算机模拟扰动。得益于基于 Transformer 的架构,当前的基础模型已经具备可扩展性,并且可以接受 PLM 嵌入。然而,它们的基本局限性在于缺乏适当的计算机模拟扰动建模。DoFormer 的主要贡献在于展示如何正确地模拟基因扰动。

图1 在简化的三基因场景中,当基因 1 被扰动时,DoFormer 的注意力模块在观测状态和扰动状态下的示意图
从因果性文献中知道,仅靠观察数据不足以学习因果模型。幸运的是,我们有机会利用大规模扰动数据(CRISPRi/a、KO、过表达等)与观察性 scRNA-seq 数据相结合,同时学习基因-基因相互作用并模拟计算机模拟扰动。由于 Transformer 架构在基因层面运行,它允许我们使用 do 算子进行计算机模拟扰动,从因果性文献中借用这个算子来模拟计算机模拟扰动。这种设置能够避免做出不合理的前提假设,即底层 GRN 是一个有向无环图,并且通过在扰动效应上训练模型,它将强调因果相互作用,并忘却仅由 scRNA-seq 数据诱导的相关性相互作用。
得益于因果推理文献,我们拥有一种数学上严谨的扰动方法:do 算子。本质上,如果我们对图中的一个基因进行干预,应该移除所有指向该基因的边,并将其表达值设置为干预值。将 do 算子应用于 Transformer 架构,并因此命名该模型为 DoFormer。在 DoFormer 中,通过不让被扰动的基因参与其他基因的交互,并将其表达值设为零来模拟计算机模拟扰动。换句话说,从被扰动的基因到所有其他基因的注意力分数被设为零,使模型能够区分数据是观察性还是扰动性,并相应地调整其结构。现有的基础模型在观察性数据和扰动性数据上都是以相同的方式进行训练的,这就是它们无法优于非常简单的基线模型的原因。
DoFormer 的另一个贡献是基于扰动差异表达(DE)分析的统计数据设计生物学聚焦的损失函数。一个重要的注意点是,在扰动数据中,有未匹配细胞的扰动,而在模型中预测的是相同细胞的扰动。因此,在真实扰动中应进行非配对(双样本)DE 检验,在预测扰动中应进行配对(单样本)DE 检验。将训练分为两个阶段,预训练和微调,因为模型在每个阶段学习不同的任务。首先通过掩码语言建模(MLM)在观察性对照细胞上预训练 DoFormer,然后使用加权均方误差(WMSE)损失在扰动细胞上对其进行微调,其中权重来自 Wilcoxon 秩和 DE 检验的Z分数。在预训练中,模型通过预测掩码基因的 RNA 表达值来学习一般的基因-基因相互作用。这些相互作用不一定具有因果性,但它们为微调提供了有意义的初始化。在微调过程中,模型计算计算机模拟的效果大小,并试图匹配真实的效果大小,从而将相互作用优化为因果关系。
参考文献
[1] Alireza Karbalayghareh, Evan Paull, Andrea Califano. DoFormer: Causal Transformer for Gene Perturbation. bioRxiv 2026.05.02.722054; doi: https://doi.org/10.64898/2026.05.02.722054
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-30 17:58
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社