博文

基于深度学习的基因扰动效应预测并没有比简单的线性基线好

已有 1685 次阅读 2025-12-1 09:29 |个人分类:科普|系统分类:科普集锦

基于深度学习的基因扰动效应预测并没有比简单的线性基线好

大型语言模型在知识表示方面的成功激发了将基准模型概念应用于生物学的努力。已发布几个在来自数百万个单细胞的转录组数据上训练的单细胞基准模型。两个最近的模型——scGPT 和 scFoundation——声称能够预测由基因扰动引起的基因表达变化。

最近，Ahlmann-Eltze等人将这些模型的性能与 GEARS 和 CPA 进行了基准测试，并与故意简化的基线进行了比较。为了提供额外的视角，作者们还包含了三个单细胞基础模型——scBERT、Geneformer 和 UCE，这些模型并非专门为这项任务设计，但可以通过结合线性解码器（将细胞嵌入映射到基因表达空间）来重新用于该任务。

作者们首先评估了双重扰动后表达变化的预测。使用了 Norman 等人提供的数据，其中 100 个单个基因和 124 对基因在 K562 细胞中通过 CRISPR 激活系统被上调。这些 224 个扰动的表型，加上无扰动的对照组，是 19,264 个基因的 log 转换 RNA 测序表达值。

对所有 100 个单一扰动和 62 个双重扰动进行了模型微调，并在剩余的 62 个双重扰动上评估了预测误差。为了稳健性，使用不同的随机划分对每个分析进行了五次运行。为了对比，包含了两个简单的基线：(1)“无变化”模型，它总是预测与对照条件相同的表达量，以及(2)“加性”模型，它针对每个双重扰动，预测各个单个对数倍数变化（LFC）的总和。这两个模型都不使用双重扰动数据。

所有模型的预测误差都显著高于加性基线（图 1a,b）。这里，预测误差是指对 1,000 个表达量最高的基因，预测值与观测值之间的 L 距离。还考察了其他汇总统计量，例如 Pearson delta 度量，以及其他基因子集的 L 距离：n 个表达量最高或 n 个差异表达量最高的基因。作者们得到了相同的结果。

接下来，考虑了模型预测基因互作的能力。从概念上讲，如果两个（或更多）同时扰动下的表型是“出乎意料的”，则存在基因互作。将这一点操作化为双重扰动表型，其与加性预期的差异大于在具有正态分布的零模型下预期的差异。使用完整数据集，在 5%的错误发现率下识别了 5,035 个基因互作（在潜在的 124,000 个互作中）。

然后，通过计算每个模型对其 310,000 个预测（1,000 个基因和 62 个在五个测试-训练拆分中保留的双重扰动）的预测表达与加性预期之间的差异，并如果该差异超过给定的阈值 D，则称为预测互作，从而从每个模型中获得了基因互作预测。然后，对于所有可能的 D 选择，计算了真阳性率（TPR）和错误率比例，这导致了图 1c 中显示的曲线。加性模型没有竞争力，因为根据定义，它不预测互作。

没有任何模型比“无变化”基线表现更好。使用其他指标时，观察到相同的模型排名。为了进一步分析这一发现，将相互作用分类为“缓冲”、“协同”或“相反”（图 1d,e ）。所有模型预测的 LFC 约为 0—类似于“无变化”基线—对于这两个基因的双重扰动，尽管它们具有强烈的单独效应。更普遍地，作者们注意到，对于大多数基因，scGPT、UCE 和 scBERT 的预测在不同扰动中没有变化，而 GEARS 和 scFoundation 的预测与真实值相比变化要小得多。

图1 双重扰动预测。a, 预测误差的蜂群图。对于五个测试-训练分割中的 62 种双重扰动。预测误差通过测量 n=1,000 个表达量最高的基因的预测表达谱与观测表达谱之间的 L 距离来评估。水平红色线显示了每个模型的平均值，对于表现最好的模型，用虚线延伸。b，62 种双重扰动中一个示例的观测表达与预测表达的散点图。数字表示通过 L 距离和 Pearson delta (R)测量的误差。c，交互的 TPR（召回率）基于与加性预期的差异（误差线表示加性范围）。e，观察到的相互作用类别的组成柱状图。f，顶部：观察值与预测表达值与加性预期相比的散点图。每个点是在五个测试-训练拆分中的 62 种双重扰动下的 1,000 个读出基因之一。与加性预期偏差最大的 500 个预测用更大、更饱和的点表示

GEARS、scGPT 和 scFoundation 也声称能够预测未见过扰动的效应。GEARS 使用共享的 Gene Ontology 注释从训练数据中推断，而基础模型则被认为在预训练期间学习了基因之间的关系。

为了评估这一功能，使用了 Replogle 等人使用 K562 和 RPE1 细胞获得的两个 CRISPR 干扰数据集，以及 Adamson 等人使用 K562 细胞获得的数据集。作为基线，设计了一个简单的线性模型。该模型用 K 维向量表示每个读出基因，用 L 维向量表示每个扰动。这些向量分别收集在矩阵 G 和 P 中，其中 G 的每一行对应一个读出基因，P 的每一行对应一个扰动。G 和 P 要么通过训练数据的降维嵌入获得，要么由外部来源提供。

作者们还包括了一个更简单的基线 b，即训练集中扰动值的平均值，这是根据 Kernfeld 等人及 Csendes 等人发表在本文修改期间的前置论文所进行的。没有一个深度学习模型能够持续地超过平均值预测或线性模型（图 2a ）。作者们没有将 scFoundation 纳入这次基准测试，因为它要求每个数据集必须与其预训练数据的基因完全匹配，而对于 Adamson 和 Replogle 数据，所需的大部分基因都缺失了。作者们也没有包括 CPA，因为它不是设计用来预测未见过扰动的效果的。

接下来，作者们询问 GEARS、scGPT 和 scFoundation 在预训练过程中学习到的数据表示是否具有实用价值。分别从 scFoundation 和 scGPT 中提取基因嵌入矩阵 G，从 GEARS 中提取扰动嵌入矩阵 P。上述线性模型，配备了这些嵌入，表现与 scGPT 和 GEARS 自带解码器相当或更好（图 2c）。此外，使用 scFoundation 和 scGPT 基因嵌入的线性模型优于“均值”基线，但它们并未始终优于使用训练数据中的 G 和 P 的线性模型。

图2 单个扰动预测。a, 预测的蜂群图。针对 134、210 和 24 个未见过的单个扰动，在两个测试-训练拆分中的误差。预测误差通过 n=1,000 个表达量最高的基因的平均预测和观测表达谱之间的 L 距离来衡量。水平红线显示了每个模型的平均值，对于表现最好的模型，用虚线延伸。DL，深度学习；LM，线性模型。b，LM 的示意图及其如何适应可用的基因（G）或扰动（P）嵌入。c, 森林图比较所有模型相对于“均值”基线的性能。点范围显示了在两个测试-训练拆分中，对于 134、210 和 24 个未见过的单个扰动，每个模型与基线之间引导平均比值的总体均值和 95%置信区间。如果置信区间包含 0，则点范围的透明度会降低

始终优于所有其他模型的办法是使用在 Replogle 数据上预训练的 P（使用 K562 细胞线数据作为 Adamson 和 RPE1 数据的预训练，以及使用 RPE1 细胞线作为 K562 数据的预训练）。对于 K562 和 RPE1 之间相似性更高的基因，预测更准确。综合这些结果，单细胞图谱数据的预训练仅比随机嵌入提供微小的优势，但扰动数据的预训练提高了预测性能。

总之，作者们展示了预测任务，其中当前的基础模型在经过深度学习模型微调所需的大量计算成本后，表现并未优于故意设计的简单线性预测模型。由于故意简单基准无法代表真实的生物学复杂性，但基础模型并未超越这些基准。介绍 GEARS、scGPT 和 scFoundation 的出版物包括了与 GEARS 和 CPA 以及线性模型的比较。其中一些比较可能碰巧特别“容易”。例如，CPA 从未被设计用来预测未见过扰动的效果，并且在双重扰动基准中尤其不具竞争力。scGPT 基准中使用的线性模型似乎被设置成对于任何未见的扰动都会回归预测控制条件下的无变化。

作者们的结果与先前发表的基准测试结果一致，这些基准测试评估了用于其他任务的基础模型性能，并发现与更简单的方法相比几乎没有优势。作者们的结果也与两项先前研究一致，这两项研究表明简单基线在预测未知的单点或双点扰动时优于 GEARS。又发布了几个其他基准测试，这些测试也表明深度学习模型难以超越简单基线。其中两个预印本提出了比作者们的线性模型更简单的基线，即始终预测总体平均值。

该基准测试的一个局限性是仅使用了四个数据集。选择这些是因为它们被用于展示 GEARS、scGPT 和 scFoundation 的出版物中。另一个限制是所有数据集都来自癌细胞系，例如，Theodoris 等人因为担心它们的高突变负荷而将这些数据排除在训练数据之外。作者们还未尝试改进原始质量控制，例如，通过排除那些不影响其靶基因表达的扰动，从而可能无法按预期工作。

深度学习在单细胞组学的许多领域都十分有效。然而，正如目前的工作所示，预测扰动效应仍然是一个开放的挑战。可以预计，对性能指标和基准测试的更多关注将有助于促进将迁移学习应用于扰动数据的最终成功。

参考文献

[1] Ahlmann-Eltze C, Huber W, Anders S. Deep-learning-based gene perturbation effect prediction does not yet outperform simple linear baselines. Nat Methods. 2025;22(8):1657-1661. https://doi.org/10.1038/s41592-025-02772-6

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC