博文

geneRNIB：基因调控网络推理的动态基准

已有 2662 次阅读 2026-1-5 09:55 |个人分类:科普|系统分类:科普集锦

geneRNIB：基因调控网络推理的动态基准

基因调控网络（GRN）是理解健康与疾病中细胞身份和行为的基础。这些网络描述了基因表达如何通过转录因子（TF）、顺式调控元件（CRE）和关键辅因子之间的复杂相互作用得到控制，这些相互作用受表观遗传修饰和反式调控元件的影响。鉴于直接实验验证调控相互作用的成本和时间限制，计算基因调控网络推理已成为一种日益有价值的方法。基因调控网络根据生物体、细胞类型、疾病状态和环境条件表现出特定于环境的变异，要求基因调控网络推理方法为给定条件模拟调控动态。然而，这些计算方法往往产生不一致的结果，并且由于实验确认相互作用的有限可用性，其准确性难以验证。为解决这一问题，持续的性能评估是必要的，这不仅是为了整合新的基因调控网络推理方法，也是为了改进评估指标和数据集，确保在不同生物学背景下进行稳健可靠的推理。

单细胞测序技术的出现通过大幅增加训练数据集的规模、提供单细胞分辨率以及允许重建特定背景的调控网络，极大地改变了基因调控网络推理。基因调控网络推理中的一个持续挑战是因果关系推理，这推动了探索各种计算和实验方法以进行改进。整合干预数据，如基因敲除、纵向数据和多模态数据集，已被探索用于增强因果发现。鉴于调控相互作用跨越多个分子层次——包括 DNA、RNA 和染色质修饰——因此，多组学方法对此产生了越来越多的兴趣。特别是，整合基因表达和染色质可及性数据由于其成本效益和改进因果推理的潜力而显示出前景。

评估 GRN 推理的复杂性源于缺乏真实数据，因为高通量直接测量调控相互作用仍然不可行。为解决这一问题，人们提出了多种策略。一种方法涉及使用模拟网络和合成基因表达数据，这些数据提供了可控的评估条件，但通常不能代表真实的生物信号。尽管这些数据集为评估提供了可控场景，但它们通常不能代表真实的生物信号。另一种方法是接受真实数据的替代品，即所谓的银标准，通过定义一个参考标准，该标准基于从不同来源（如转录因子结合数据、扰动实验或文献和公共数据库的整理数据库）获得的实验先验信息。

尽管这些资源很有价值，但它们本质上存在噪声，并且仅捕捉了已知相互作用的一部分。此外，它们多样的来源进一步模糊了特定上下文的调控动态，使得难以获得精确的、条件特定的见解。此外，转录因子结合本身并不能保证调控活性，这限制了它们作为基因调控因果真值的有效性。作为替代方案，人们设计了间接方法来规避对真值的依赖。例如，CausalBench 挑战引入了多种指标来评估推断的转录因子-靶基因相互作用中的因果性，通过比较在转录因子扰动后靶基因表达的变化来实现。Kamal 等人提出了一种基于特征的评估框架，该框架使用回归模型从 GRN 拓扑中构建特征空间，并随后预测基因表达数据。在这种方法中，核心假设是更准确和全面的 GRN 会产生更好的预测任务特征空间。Badia 等人最近引入了 GRETA 框架，该框架整合了基于先验知识和间接方法的多种评估指标。这包括评估一种方法是否能够利用敲除数据正确识别受扰动的转录因子，并采用类似的基于特征的方法从 GRN 衍生特征中预测基因表达。

尽管这些研究提供了有价值的基准测试见解，但它们仍然受限于银标准指标和数据集范围的局限性。例如，CausalBench 挑战仅使用了两个数据集和一组有限的代理指标，而 Badia 等人中的干预数据来自与用于推理的不同实验，降低了上下文特异性。此外，这些基准测试研究仅评估了一部分推理方法，忽略了最近的进展。不可避免地，任何基准测试在其方法和数据集纳入方面都将面临限制，因为随着技术、标准和数据可用性随时间演变，这些基准测试也会随之变化。因此，一个可适应的基准测试框架对于建立 GRN 推理方法选择和进步的标准至关重要。

最近，Nourisa等人介绍了 geneRNIB（基因调控网络推理基准），一个用于 GRN 推理的动态基准（图 1，https://github.com/openproblems-bio/task_grn_inference）。geneRNIB 是一个开源的云基准平台，旨在集成不断出现的新数据集、指标和推理算法。它提供标准化的、特定上下文的数据集、可重复的评估协议，以及一个动态更新的排行榜，用于跟踪推理方法的表现。与静态基准工作不同，geneRNIB 在添加新功能时重新评估先前基准测试的 GRN 推理方法，确保持续的性能评估和可重复性。此外，geneRNIB 支持单模态和多组学 GRN 推理。通过提供一个标准化的、可适应的基准测试框架，geneRNIB 旨在推动更准确、上下文感知的 GRN 推理方法的发展。

图1 geneRNIB 概述。geneRNIB 提供可复现的云端计算基础设施，集成了推理和评估数据集、GRN 模型、标准化评估指标以及动态排行榜，用于追踪 GRN 基准测试的最新状态。(a) 提供了五种具有不同干预性质和细胞类型的标准化推理和评估数据集。干预强度通过相对于对照组的表达倍数和标准差（STD）倍数来衡量。OPSCA 数据集通过提供配对的单细胞基因表达和染色质可及性数据，支持多组学 GRN 推理，而其他数据集则提供干预基因表达数据用于 GRN 推理。(b) 标准化评估指标采用干预数据来评估推理的 GRN 模型。回归 1（R₁）评估基于 GRN 调控权重预测目标基因表达的能力。回归 2（R₂）评估基于转录因子表达预测目标基因表达的能力。Wasserstein（WS）距离通过量化控制条件和扰动条件下目标基因表达变化的强度来评估边的真实性。（c）geneRNBI 中的集成 GRN 模型。多组学 GRN 推理方法整合了 scRNA-seq 和 scATAC-seq，利用增强子驱动方法来识别调控相互作用。相比之下，基于转录组学的方法仅依赖基因表达数据来推断调控网络。此外，还实现了三个基线模型——阳性对照、阴性对照和 Pearson 相关性——作为参考基准

参考文献

[1] Jalil Nourisa, Antoine Passemiers, Marco Stock, Berit Zeller-Plumhoff, Robrecht Cannoodt, Christian Arnold, Alexander Tong, Jason Hartford, Antonio Scialdone, Yves Moreau, Yang Li, Malte D. Luecken. geneRNIB: a living benchmark for gene regulatory network inference bioRxiv 2025.02.25.640181; doi: https://doi.org/10.1101/2025.02.25.640181

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC