博文

我们是否已准备好使用深度学习进行生物系统的因果发现？

已有 240 次阅读 2026-5-16 21:44 |个人分类:科普|系统分类:科普集锦

我们是否已准备好使用深度学习进行生物系统的因果发现？

因果发现技术在生物系统的进步

因果关系仍然是跨不同科学领域的基础研究领域。尽管在过去三十年中，在基本概念、视角和计算方面取得了一系列进展，但大规模生物系统因果发现的能力却日益增强。当前的研究正转向强大、高效且可扩展的神经网络方法，这些方法能够从输入数据中映射变量之间的单个因果边，而不是去完成识别整个候选网络的艰巨任务。这种能力是高级智能的核心，然而在生物学领域仍然是一个悬而未决的问题，最好通过迄今为止的发展趋势来解读。为此，迄今为止提出的技术可以按以下方式分类，同时承认该领域的内在复杂性和无序演变：

1. 那些根本上需要贝叶斯统计形式化进行因果推理的

这些方法代表了在全面搜索合理网络时多样化、但数据和高计算需求的方法，因此面临着搜索空间（2ⁿ²）超指数增长的棘手问题（随着变量数量n的增加），以及分数相当但图形上不同的解决方案的挑战。

这些经典技术随后被创新性地嵌入贝叶斯无环性约束到连续目标搜索函数中，从而通过强大的优化算法实现高效探索。通过显著允许随机梯度下降算法，新的公式进一步解锁了具有新能力的神经网络方法。总而言之，该发展增强了扩展到更大系统的潜力。

这些即兴方法中的许多也通过利用干预数据绕过了使用观察来推断因果关系的基本限制。尽管有些甚至进化到使用监督学习来实现更有效的发现，但绝大多数仍然坚持全局有向无环性的假设（不存在反馈回路），这是自调节生物系统中因果发现的一个致命弱点。仅在特定温和条件下，高效的神经因果发现（ENCO）可以放弃这一假设。

2. 其他将因果发现重新表述为一个更简单的问题，即二元分类问题

鉴于分子反馈回路对于细胞功能（如时间和决策过程）的关键性，一些后来的谱系通过放弃其核心的贝叶斯概念，摆脱了全局有向无环性的束缚。相反，它们专注于使用监督学习来区分所有变量对之间是否存在有向边。这类技术本身无需探索一个随系统规模增长而超指数增长的搜索空间，却可以由于监督的存在而提供更可靠的推断。

为了说明这种发展，一种最近开发的方法——深度判别因果学习（D²CL），据报道在人工系统中可扩展到50,000个变量，与经典的最先进方法相比具有优势，例如结构发现干预（SDI）为48个变量，可微因果发现干预（DCDI）为100个变量，以及可微因果发现因子图（DCD-FG）为1000个变量。此外，D²CL仅需103个样本（包括观察和干预）即可实现，而DCD-FG至少需要5×10⁴个这样的样本。类似地，DCDI至少需要更多的样本（10⁶）并在所有节点上进行干预实验；ENCO也有样本量要求，并且其系统可扩展性在其同行范围内。

从推理角度来看，D²CL 在广泛的信噪比范围内，对于非线性1500变量系统中的直接和祖先因果效应，都优于 ENCO、DCD-FG 和可扩展因果学习（SCL），同样优于几种第一代经典方法。

要明确，D²CL 在其设计的目标机制（即生物医学应用所在领域）中优于其他技术：

——数据维度远超样本量

——但已有关于因果关系的部分知识

D²CL恰当地利用后者进行监督学习，以缓解前者的诅咒，使用强大且高度可扩展的神经网络方法。作为权衡，D²CL不寻求推断具体的数据生成模型，这与贝叶斯方法不同，后者需要比数据维度更多的样本才能做到这一点。换句话说，后者是为不同的用例设计的：系统维度明显小于可用样本数量，且对其因果关系知之甚少。

D²CL然而仍然使用可能与生物系统行为不一致的假设。它假设每个因果因素独立运作，并且通过改变它，可以在其目标中观察到反应。此外，因素被认为以相似的方式起作用，从而能够从他人的知识中学习未知的因果边。虽然这些假设的预测成本仍然不清楚，但作者们已经在酵母基因删除数据集（跨场景ROC AUC 0.79–0.85）和人类基于CRISPR的干预数据集（ROC AUC 0.65–0.73）上展示了良好的性能。在比较的方法中，只有SCL（与D²CL属于同一类别）在酵母数据集上实现了类似的结果（ROC AUC 0.75–0.77）。

虽然D²CL专注于通过收集系统和因果知识来推断系统中的因果关系，另一种新兴算法——基于注意力的因果结构归纳（CSIvA）——利用Transformer 来监督从多样化的合成系统到未见或甚至是自然系统（即元学习）的学习。与D²CL类似，CSIvA 已被证明在推理方面优于 DCDI 和 ENCO（例如，对于多达 80 个变量、不同的图密度以及线性和非线性数据集）。

然而，该算法依赖于干预数据，并假设在各个因果因素上实施足够丰富的干预后，整个网络是可识别的。这再次意味着因果因素在一定程度上需要独立作用，以便其操纵能在其目标上产生可观察的变化。然而，即使案例研究中的合成数据是这样设计的，CSIvA 也需要大量的数据：对于一个只有 80 个变量的系统，CSIvA 需要 40,000 个网络和每个网络 1500 个样本的多样性。此外，待推断网络的拓扑结构必须被充分表征，以生成具有匹配分布的训练数据。在这方面，作者报告了在不同类型的网络之间泛化学习存在困难的案例。更大的、更密集的图以及某些数据生成函数也被发现更难学习。

总体而言，CSIvA 通过利用注意力机制来捕捉样本之间和影响因素之间的变化，从而揭示特定因果关系，仍然代表了一种新颖的方法。在这方面，有可能捕捉更多因果信息，例如在不同时间点和不同数据模态之间，且存在有效的机制（图 1b）。

从计算角度来看，虽然 CSIvA 和D²CL在小系统（<1000 个变量）上的训练时间可能比 ENCO 在小系统上的推理时间要长，但所花费的时间可以在多次使用中摊销，而推理只需几分钟（DCDI 的计算时间要长得多）。

展望

CSIvA 和 D²CL的发展表明技术突破可能即将到来，因为深度学习分类器有望在更多生物系统中实现因果关系发现，这些系统通常存在于自然界中（即规模更大且自我调节的系统），这比以往任何时候都更加可能。然而，目前对于新兴深度学习技术的理论局限性、应用边界条件或潜在故障模式的研究还非常缺乏，因为计算机科学家们才刚刚开始探索其适用性。此外，在人类能够实现因果关系所承诺的更深入理解和更强推理能力之前（图 1a），至少有五个技术障碍需要克服：

需要区分抑制和激活相互作用以支持邻近分析（例如控制理论、动态建模），这在许多其他科学领域也是如此。这将允许得出更清晰、更符合生物学的见解。值得注意的是，这种大规模的方法并不存在，可能由于问题的额外复杂性。

此外，专注于通过基本相互作用（例如物理化学相互作用）识别直接因果关系，将为进一步推断所涉及的机制（例如反应）及其控制方程奠定基础。了解使用基本原理开发真实细胞数字孪生的重要性，以及一个机制如何指导采取正确纠正措施的示例。在这方面，DeepMind 正在进行一项雄心勃勃的努力，以预测“所有生命分子的相互作用”。然而，尚不清楚何种方法或数据能够在不同类别的生物分子中普遍适用，以及考虑到相互作用的高度情境性和动态性，此类数据是否已经可用或能否以足够的数量生成。

对于细胞系统而言，重大挑战是利用多组学数据推断物理化学调控机制，这与中心法则和事件顺序相一致（图 1b）。由于计算机科学家仍在探索使用单组学数据进行因果推理的理论和实践极限，因此将这些方法扩展到多组学数据的努力非常有限。然而，这种方法将允许构建虚拟细胞，其意义由 Demis Hassabis 在其 LinkedIn 帖子中优雅地描述：

‘想象一下，在计算机上进行的“in silico”实验比在湿实验室中快几个数量级。科学家可以快速验证假设，模拟复杂的通路，并观察药物如何影响细胞。这将不仅对基础生物学，也对医学带来巨大的益处。’毫无疑问，挑战是巨大的。然而，如果我们反过来思考这个问题，将已知的调控结构作为第一性原理约束，可能会有效缓解样本量需求、模型可识别性、噪声鲁棒性和过拟合等问题。但核心问题可能仍然是长期的，因为更大、更复杂、更多样化的生物网络仍然需要更多更好的数据（和计算能力），这将给基础设施带来压力，并需要进一步创新，如量子计算，才能高效地找到解决方案。（注意到，已经提出了一些与此有些相关的方法来探索因果关系的通用中介，这些方法可以使用但不区分不同类型的组学数据。）

合成数据应通过紧密模拟基本定律和真实噪声（例如生物数据的异方差噪声）来追求情境真实性，以增强信心。此外，迄今为止开发的方法都是基于人工模型生成的数据作为真实情况，因此对其在现实世界问题中的潜在适用性和泛化能力知之甚少。加剧这一问题的是，许多自然规律仍然理解不足，这造成了潜在的鸡生蛋还是蛋生鸡的困境。

当前有效的因果预测样本要求（>> 1000）远超大多数生物学研究能够提供的范围，除了在单细胞组学的某些背景下。然而，即使这些情况也大多是观察性的而非干预性的，除了少数专业案例。结合该领域的初生阶段，这意味着目前还没有临床应用或可采取的生物学假设出现。为了解决这个问题，必须通过更好的合理化和优化数据需求来补充组学数据集的生成进展，例如应用设计-构建-测试-学习周期（图1a）以及Radivojevi ´c等人给出的相关建议。

图1 实现生物学系统因果发现工具的具有意义和广泛应用的必要进展。(a) 实现生物学因果网络所承诺的更深入理解和更强推理必须克服的关键技术障碍。其中包括两个已取得显著近期进展的（即关于反馈回路和可扩展性）以及另外五个正在进行的。 (b) 可能用于因果推理的变化：在单一模态内的因素（类型 I）、具有与中心法则一致的调控关系的不同数据模态因素（类型 II）、样本间个体因素的变化（类型 III）以及时间点间个体因素的变化（类型 IV）。图中展示了每种类型的示例。目前，仅实现了类型 I 和 III。这里面临的重大挑战是：开发一个能够灵活定制数据模态间交互数量和性质的通用架构

当然，最终的解决方案（也是障碍）必须同时有效解决其中几个挑战。

参考文献

[1] Yeo HC, Selvarajoo K. Are we ready for causal discovery in biological systems using deep learning? Brief Bioinform. 2026 Mar 1;27(2):bbag127. https://doi.org/10.1093/bib/bbag127

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC