博文

WhatIsMyGene：回归基因富集基础

已有 2064 次阅读 2026-3-2 17:58 |个人分类:科普|系统分类:科普集锦

WhatIsMyGene：回归基因富集基础

现代转录组协议通常能识别出 20,000 种 RNA 分子。蛋白质组数据集现在可能包含超过 8,000 种蛋白质。在大多数情况下，研究人员感兴趣的是已识别实体的子集，例如在干扰素应用于特定细胞系时显著上调的转录本集合。一旦选择了这样的子集，研究人员便试图将其与反映重要生物过程的精选基因列表（curated gene lists，CGL）进行比较。在干扰素实验的案例中，一个包含“先天性免疫”等术语的 CGL 很可能与实验子集（ES）最匹配。在许多情况下，研究人员对这种比较的结果可能抱有很小的期望。大量工作已经投入到精选列表的构建中。至今，GO 联盟提供 42,887 个术语，而 KEGG、PANTHER、REACTOME、GSEA（通过“标志性”基因集）以及其他数据库也各自提供数千个术语。

CGL代表了生物学在多个实验中反复出现的基因集的最佳识别尝试。然而，当应用各种统计测试以分离这一目标时可能会出现问题。以及根据实验结果对最佳匹配的 CGL 进行排序。这些问题包括 CGL 中可能缺少重要基因、某些基因在多个 CGL 中过度代表、CGL 是从一小部分相关研究和细胞类型中推导出来的、CGL 的组成随时间发生显著变化（所谓的“可重复性危机”）、生成 CGL 时缺乏人工监督、多功能基因在 CGL 中的影响导致的扭曲，以及生物实体独立表达的假设值得怀疑。其中一些缺陷的责任不应完全归咎于维护机构，因为实验者可能会为了追求工作保障和其他世俗的考虑而选择研究可预测或“热门”的基因。除了上述问题，还要补充一点：典型的 ES 可能并非由 CGL 容易概括的主题来最佳描述，而是由不共享明显功能的基因模块来描述。最后一个重要的问题是，CGL 缺乏背景。也就是说，从 CGL 子集中抽取的基因完整集合，这一对统计分析至关重要的输入是未知的。通常，分析工具在操作时假设 CGL 的背景仅仅是该生物体已知的基因总数，或者是所有 CGL 中发现的基因总数。基因富集教程可能会强调实验子集的背景必须仔细考虑，但似乎并未关注 CGL 本身并不具备背景这一事实。

为解决上述问题，人们已尝试通过生成更优化的基因富集分析算法来应对。Hodge和Saethang提倡的解决方案并非主要依赖于算法，而是富集数据库的构成：采用“研究/研究”方法，将自身的实验子集与由其他研究者生成的子集进行匹配。例如，RNA-seq 结果通常不会受到流行基因的过度代表、故意忽略罕见或不感兴趣的基因、领域内的潮流或多功能基因出现的不寻常偏差的影响。通过 RNA-seq 实验确定的实验子集预计不会随时间“演变”。此外，RNA-seq 实验的背景可以通过经验性确定。最近，Hodge和Saethang探讨了使用 CGLs时提出的一些困难，并详细说明 WhatIsMyGene （WIMG，https://www.whataremygenes.com/，图1）如何通过庞大的数据库规模以及多种分析工具和方法，极大地帮助生成生物学见解。

图1 WhatIsMyGene （WIMG）官网

粗略的实验表明，基因富集过程中生成的 p 值以及随之而来的不同基因列表的排序对基因集背景大小的假设非常敏感。仅统计四个最受欢迎的富集工具/算法的引用次数，得出一个 18 万的数据，这意味着这些工具在约相同数量的论文中被使用。这个数据并未包括众多“次要”工具、商业平台（例如 IPA）、未引用的情况，或实验人员使用这些工具驱动假设但未发表的情况。不仅大量差异调控基因在没有某种形式的汇总的情况下在认知上是难以处理的，这意味着没有富集就很难进行转录组学或蛋白质组学，而且某种形式的富集也被认为是最佳实践。鉴于基因富集在现代生物学中的关键作用，相对于算法本身，背景定义的优化之所以受到很少关注，这似乎令人惊讶。

通过香农信息评估了基因集背景化的各种方法。这些指标被建议作为评估基因富集方法的一种工具。插补背景表现优异。然而，结果并非没有细微之处。在一种情况下，仅将 CGL 和 ES 背景设置为 20,000 就导致了最高熵，这种情况还表现为异常的偏斜。因此，信息分辨率的提高必须与其他因素一起考虑，包括偏斜、峰度和生物“现实”的指标。

在比较对 CGL/ES 和 ES/ES 值矩阵的评价时，应该指出的是，大多数 CGL 代表广义的生物学过程（例如，“细胞周期”），并且不能按组织类型进行解析。因此，它们最好通过反映蛋白质组或转录组平均可检测性的较低背景来进行建模。相比之下，实验推导基因列表的插补利用组织特异性丰度数据，允许更精确地校准背景。如果 CGL 简单地与推荐的特定组织背景相结合，那么广义本体论与实验现实之间的差距可能会缩小。

对背景的另一种评估是在特定 GO-CGL 层面进行的，目的是找到那些最能推动这些 CGL 达到预期高排名而非无关 CGL 的背景。在此，插补背景明显最优；仅仅将所有 CGL 设置为单一背景，从 3,000 到 25,000，始终不如合理背景估计方法表现好。在无插补的情况下，低背景显著优于高背景。这一结果放大了熵分析中的发现，即简单地将 CGL 背景设置为 5,000 优于 10,000 和 20,000 的设置。

已经证明，GO-CGL，以及可能其他类似构建的列表，在 ES 竞争排名中表现不佳。这不仅仅是因为特定过程的“平均化”实例无法预期在非常具体的 ES/ES 组合中表现良好，正如 WIMG 列表WIMG 在众多场合中表现优于 ES 竞争者。WIMG 展现出强大的能力，能够将输入数据的已知方面反馈给用户。换句话说，该工具最大化了真正正确定义的识别。WIMG 还处理了基因集重叠等标准富集障碍，以及 ORA 算法中任意截断值的问题。建议将基因在 CGL 中进行排序，并将背景分配给 CGL，以此提高它们与实际实验子集的相关性。

给定一个基因输入列表，预测细胞类型，并在一定程度上预测扰动类型的能力可能会让一些人感到惊讶。例如，人们可能会假设在 a549 细胞系进行的 p53 敲除实验中差异表达的基因（DEG）会倾向于与其他涉及 p53 或其通路扰动的实验中的 DEG 最好重叠。相反，更有可能的是该研究只会与其他 a549 研究重叠。反复地，看到细胞系实验可以与体内研究区分开来，药物研究更可能与其他药物研究重叠（而不是，比如说，敲除研究），疾病研究倾向于与其他疾病研究最好匹配等等。这些观察结果具有实际意义，因为在检查用于添加到数据库中的研究时，经常看到数据集，其中一种药物应用于多种细胞类型，但每种细胞类型只由一个测试样本和控制样本代表。结果是通常会得到一个没有显著差异表达的基因列表，这可能无法通过批次校正来恢复。

似乎在由 CGL 输出表示的普遍、易于理解但相对不重要的类别和特定、有时晦涩且重要的 ES 输出之间存在某种张力。例如，如果发现邻近超保守 DNA 片段的基因列表与参与氧化磷酸化的基因强烈重叠，可能会出现一个假设的线索：这些片段参与保存古老的关键代谢基因。实际上并非如此；相反，发现超保守基因与转录因子 pcgf2、phc1 和 jarid2靶标基因重叠。在这种情况下，提出假设可能更困难，尽管涉及这些转录因子的研究人员可能能够建立联系。还可以想象一个情况，即超保守片段确实邻近氧化磷酸化基因，但与特定转录因子靶标的重叠显著性要低得多。在没有 ES 数据的情况下，研究人员可能会优先考虑 CGL，而这些 CGL 的出现实际上是对实际机制驱动因素的次要表现。

和任何基因富集工具一样，WIMG 不应被视为一站式解决方案。已经指出了一些与其他工具相比可能存在不足的功能。除此之外，强调数据库批量处理可能会以牺牲质量控制输出速度为代价。主要数据来源包括 GEO 和 GREIN数据库，在大多数情况下，除了这些网站提供的批次校正外，不会对测试组与对照组进行额外的批次校正。另一个来源是补充数据集，对其采取“表面价值”的态度。然而，具有明显性别偏差（例如测试组中男性过多而对照组中男性过少）、异常小的背景以及靶向阵列（例如仅关注癌症基因的阵列）的数据集通常会被排除在数据库之外。假设数据库中嘈杂、信息贫乏的数据集通常不会出现在输出排名的前列，但这可能会被证明是错误的。

另一个问题是基准测试。已经进行了一些比较各种基因富集工具性能的尝试。然而，在所知的所有情况下，CGL都被用作分析的“金标准”。最能将白血病 ES 与癌症 CGL 匹配的工具被宣布为胜者。即使是利用模拟数据的合成基准测试方法，最终也依赖于 CGL作为“真实情况”的目标。鉴于对 CGL使用的诸多担忧，避免采用这种方法。在特定的练习中，选择“内部”基准测试，而不是“外部”基准测试（例如，估计的矩阵信息含量以及测试特定背景绘制 CGL到其预期的基因富集输出位置的能力）。

WIMG 可以归类为一种 ORA 方法。问题在于 FCS 是否能够克服关于背景未定义的 CGL 的上述问题。简而言之，假设一个背景为 20000 的癌症 ES 和一个有效背景为 4000 的癌症 CGL。那么人们会期望 80%的真正相关的癌症基因在 CGL 中缺失，这些真正的阳性基因实际上会从 FCS 运行和中减去。然而，没有理由认为 FCS 算法不能被修改以适应具有不同背景的 CGL 和 ES。

WIMG 的未来方向包括一个更动态的界面，能够生成相关图形。理想情况下，某些工具的运行时间应该减少。新功能可能包括一个通过 FCS 方法分析输入数据的选项。最重要的是，WIMG 数据库中 ES 的巨大数量为基于 AI 的输入 ES 和整个数据库的分析创造了机会。

参考文献

[1] Kenneth Hodge, Thammakorn Saethang. WhatIsMyGene: Back to the Basics of Gene Enrichment. bioRxiv 2023.10.31.564902; doi: https://doi.org/10.1101/2023.10.31.564902

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC