博文

DAZZLE：使用 dropout 增强改进基因调控网络推理

已有 1909 次阅读 2025-11-24 10:01 |个人分类:科普|系统分类:科普集锦

DAZZLE：使用 dropout 增强改进基因调控网络推理

从表达数据中推断基因调控网络（GRN）提供了体内基因间相互作用的上下文模型。理解这些相互作用对于深入了解发育、病理以及可能适合治疗干预的关键调控点至关重要。

虽然基于批量转录组数据推断调控网络（GRN）已有较长的历史，但许多近期研究认为单细胞 RNA 测序数据（scRNA-seq）提供了更具体的上下文信息。单细胞 RNA 测序使研究人员能够分析单个细胞的转录组特征，相比传统批量方法，它提供了更详细和准确的细胞多样性视图。然而，机遇往往伴随着挑战。一篇关于 GRN 推断的最新基准论文总结了单细胞数据中导致 GRN 推断挑战的主要问题：细胞多样性、测序深度在细胞间的差异、细胞周期问题以及由于 dropout 导致的稀疏性。

尽管存在这些挑战，许多方法已仅从单细胞 RNA 测序数据中提出了针对特定上下文的基因调控网络推理方法。在已建立的方法中，GENIE3和 GRNBoost2是基于树的方法，最初是为批量数据提出的，但发现无需修改即可在单细胞数据上表现良好。LEAP估计伪时间以推断多个滞后窗口内的基因共表达，并建议滞后时间可用于推断调控关系。SCODE和 SINGE应用类似伪时间的概念，结合常微分方程（ODE）和格兰杰因果性集合来模拟结果。PIDC 使用部分信息分解来整合基因集之间的互信息，模拟细胞异质性。

其他方法通过整合转录组和其他数据源来推断 GRN。例如，SCENIC首先使用 GENIE3/GRNBoost2 识别基因共表达模块，然后识别调控这些模块或调控域的关键转录因子（TF）。scMTNI使用多任务学习框架研究不同细胞簇中的 GRN。GRNUlar通过结合 TF 信息，使用最近开发的展开算法从单细胞数据中推断无向 GRN。NetREX-CF基于先验 GRN 网络进行优化，并使用协同过滤来解决先前数据的完整性问题。PANDA使用消息传递进一步优化先验 GRN 网络。然而，在特定情境下，单细胞数据比整合的多组学数据集更广泛可用和易于获取。

神经网络（NN）在单细胞数据分析中的应用近年来取得了快速进展。作为基于神经网络的基因调控网络（GRN）推理方法的领先者之一，DeepSEM 参数化邻接矩阵，并使用在重建误差上优化的变分自编码器（VAE）架构。事实上，在“正确”网络（大约）已知的 BEELINE 基准测试中，DeepSEM 报告了优于其他方法的性能，并且比大多数方法运行速度显著更快。然而，DeepSEM 的一个问题是，随着训练的进行，推理网络的品质可能会迅速下降。一个可能的解释是，在模型收敛后不久，它可能会开始过度拟合数据中的 dropout 噪声。

单细胞数据通常具有过多的零表达计数，称为“零膨胀”。例如，以往研究通过检查的九个数据集中，观测到的57%~92%计数中有一定比例是零。在这些零值中，“dropout”描述了这种情况：转录本没有被测序技术计数，通常这些转录本在细胞中的表达水平较低或中等。后来的基于液滴的协议，如 inDrops和 10X Genomics Chromium，帮助提高了检测率。然而，“dropout”问题仍然存在，因为即使是最近的方法，其灵敏度也相对较低。

因此，已有针对单细胞分析的数据插补方法的研究。提出了几种方法来识别并用插补值替换缺失数据。然而，这些方法中的许多依赖于限制性假设，并且一些方法需要额外信息，例如 GRNs或批量转录组数据。

最近，Zhu等人为单细胞分析和 GRN 推理领域引入了两个新的贡献。首先，他们提出了“dropout augmentation”（DA），这是一种通过添加少量模拟 dropout 噪声来增强数据以减轻零膨胀问题影响的新方法。作者们发现，虽然这个想法看似反直觉，但它可以有效地正则化模型，使模型能够抵抗 dropout 噪声。

人们早已知道，在训练过程中向输入数据添加噪声，可以提高许多机器学习模型的鲁棒性，有时甚至能提升性能。Bishop 首先指出添加噪声相当于 Tikhonov 正则化。Hinton 进一步提出了在输入或模型参数上使用随机“dropout”来提高训练性能的想法。因此，DA 的理论基础也是坚实的。

作者们的第二个贡献是 DAZZLE 模型（图1，https://bcb.cs.tufts.edu/DAZZLE或https://github.com/TuftsBCB/dazzle），即用于零膨胀学习增强的 Dropout 增强。DAZZLE 使用了 DeepSEM 和 DAG-GNN引入的基于VAE的GRN学习框架，但它采用了dropout增强和若干其他模型改进。这些改进包括一种优化邻接矩阵稀疏性控制策略的新方法、简化的模型结构以及闭式先验。与DeepSEM相比，DAZZLE在基准实验中表现出更好的模型稳定性和鲁棒性。

图1 DAZZLE与DeepSEM之间一个主要的不同之处是Dropout增强的使用。Dropout增强通过在每次训练迭代中模拟少量随机dropout，使模型免受dropout 噪声的负面影响。带圆角的方框表示可训练的模型参数

参考文献

[1] Zhu H, Slonim DK (2025) Improved gene regulatory network inference from single cell data with dropout augmentation. PLoS Comput Biol 21(10): e1013603. https://doi.org/10.1371/journal.pcbi.1013603

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC