博文

统计Knockoff改善转录组数据中的生物标志物发现

已有 298 次阅读 2026-6-28 22:11 |个人分类:科普|系统分类:科普集锦

统计Knockoff改善转录组数据中的生物标志物发现

得益于测序技术的进步，现在可以收集和获取大量患者群体的测序和基因组信息，为这些技术在生物技术和医学应用中的使用铺平了道路。特别是基于测序实验结果对患者进行分层和疾病分级被视为多种疾病（尤其是癌症）的几个有前景的途径。但尽管在相关领域进行了大量研究，使用转录组数据发现生物标志物仍然具有挑战性。特别是人们经常指出，疾病的转录组特征并不总是可靠的，难以重复，并且选作生物标志物的基因通常高度不稳定。

在这种情况下，生物标志物发现尤其困难的原因有几个。首先，尽管队列规模有所增加，解释变量的数量仍然远大于患者数量，众所周知这是一个困难的统计设置（通常称为“高维”或“大 p 小 n”）。由于不同基因表达之间的高相关性，又产生了一个额外的困难。事实上，相互作用以参与共同生物学功能的基因通常由相似机制共同调控，从而在基因表达之间产生相关性。因此，很难区分那些真正与感兴趣的结果相关联的基因，以及那些仅仅因为与一个真正相关的基因相关联而看似与结果相关联的基因。

最近，一种名为 Knockoff（KO）的新型统计方法被提出，用于解决高维相关特征变量选择的问题。KO 已被应用于一系列生物学问题，特别是在全基因组关联研究中，其中证明 KO 能够控制假发现的数量。然而，到目前为止，只有少数研究建议将 KO 应用于转录组数据，将 KO 应用于高维转录组数据进行分类仍然未被探索。因此，KO 是否能够改善转录组数据的变量选择仍有待研究。此外，由于 KO 是一种灵活的方法，确定将其应用于真实数据的最佳方式很复杂，这可能会阻碍其在实践中的应用。例如，已经开发了许多方法来生成 KO 矩阵，其效力可能取决于用户数据的特异性。

此外，生物标志物发现的一个特殊困难在于，人们通常得到不稳定的结果，即模型选择的特征往往随着输入数据的微小扰动而变化很大，这使得将结果从一个患者队列转移到下一个队列变得尤其困难。虽然使用 KO 已被证明可以改善错误发现控制，但这种统计方法对所选特征稳定性的影响很少被研究。事实上，由于 KO 生成是非确定性的，相同方法的不同运行之间可能会出现结果差异。缓解此问题的一种方法是一次运行多次 KO 框架并汇总结果。

最近，Cartier等人旨在研究 KO 方法（https://github.com/Julie-cartier/RNAKnockoffs）在应用于分类任务的转录组数据变量选择时是否能够提升性能。首先，他们对不同 KO 生成方法和统计量的性能进行了系统比较。接着，通过模拟实验将 KO 框架与其他变量选择方法进行比较，并在实验中包含了 KO 聚合以评估其性能。随后，评估了 KO 框架在变量选择中的稳定性，重点关注不同的选择场景，并证明特征相关性会降低方法的效能。最后，将所得到的 KO 方法应用于三个真实世界数据集：其中两个包含肺癌患者，另一个包含乳腺癌（BC）患者。

作者们比较了不同的统计量和 KO 生成方法，发现所有 KO 生成方法在模拟中产生了相似的结果。MLR 和 LCD 统计量在线性模拟设置中表现最佳，但与其他统计量一样，在交互模拟设置中无能为力。广泛模拟研究表明，与转录组研究中的标准特征选择程序相比，KO 成功显著降低了 FDR。虽然使用 KO 也会降低统计功效，但在模拟中，KO 框架在错误发现率方面表现出比标准方法更好的功效。最后，使用 KO 聚合策略可以减轻基因选择的不稳定性，这是一个在比较特征选择程序时经常被忽视的问题，但仍然具有重大意义。然而，这些结果是在一个相对简单的模拟框架下获得的，这可能无法完全反映真实生物场景的复杂性。

将 KO 应用于真实转录组数据也展示了该框架的局限性。首先，KO 框架往往非常保守，导致在研究的几个真实例子中发现的基因非常少，有时甚至没有发现。然而这些真实案例来自先前的研究，其中作者选择数十或数百个基因来构建性能良好的临床分类器，这表明数据中存在信号和可选择的特征。虽然这突出了 KO 程序的保守性，但这种差异也表明原始研究中选择的基因可能包含许多错误发现。

其次，展示当特征中度相关时，KO 方法表现良好，但当非零特征之间的相关性达到非常高的值时，其效能会下降。虽然 KO 方法正是为了对相关特征进行变量选择而构建的，但分析表明这种有效性仅限于某个程度。有趣的是，发现真实非零特征之间的相关性水平对 KO 选择过程的性能影响，比非零特征与零特征之间的相关性影响更为显著。

第三，在模拟中主要关注了 k=10 个真实非零特征的情况。定性地看，对于 k=30 的情况也得到了相似的结果（即 KO 方法仍然优于其他特征选择方法）。然而，当重要特征的数量增加时，KO 方法的性能会下降。同样，随着零特征数量的增加，KO 方法的性能也会下降。尽管如此，即使使用所有可用特征，KO 方法仍然优于 LASSO 方法。对于样本数量 n 较大的情况，KO 框架的表现还有待研究。在高维空间工作的另一个困难在于 KO 矩阵生成的计算成本，随着数据集规模的增加，这一成本会迅速增长。

最后，当基因表达与结果之间的联系不是线性关系时，变量选择性能会崩溃。然而，对于许多生物过程，特征与结果之间的依赖关系很可能不是线性的。这种困难不仅限于 KO，因为比较的所有经典方法在模拟中表现都非常差。因此，结果强调了在非线性分类设置中处理相关数据特征选择的需求，需要开发新的方法。为了应对这一挑战，一种方法可以是分组属于相似生物通路的基因，这种方法已经多次成功实施。为此，一种策略可以是结合 KO 使用基于核的方法。另一种策略是使用深度学习方法，它们提供了一个灵活的框架，可能有助于非线性环境。尽管初步尝试结果非常差，可能由于队列样本量较小，但使用强化学习方法或许能够克服样本量挑战。研究中的另一个有趣结果是强调了经典基因选择程序的不稳定性，这与之前观察到的现象一致。虽然标准 KO 方法并未提高选择稳定性，这主要是因为 KO 框架本身的随机性，作者们发现使用 KO 聚合方法（如 KOPI）能显著提高选择程序的稳定性（图 1），同时保持相似的统计功效。然而注意到 KOPI 校准并不理想，FDR 控制显得非常保守，因此以 0.2 的目标 FDR 率获得的新发现非常少。在模拟中，以 0.2 的目标率获得假发现率较低（<5%），但代价是统计功效有限（41%）。尽管如此，这些结果表明与其他方法相比，具有更好的统计功效与假发现率之比。

图1 在不同变量选择框架中，被多次选择的特征的频率直方图，其中选择频率通过每种方法和模拟结果在 10 次十折子采样迭代中计算得出，在线性模拟设置下，k = 10，使用 CRUKPAP 特征矩阵。(a-b)：使用 LASSO 惩罚逻辑回归进行选择，(a) λ = λ_min 或者 (b) λ = λ_oracle；(c-d)：使用 KO 进行选择，FDR 水平 q = 0.2 (c) 和 q = 0.5 (d)；(e-f)：使用 KOPI 进行选择，目标 FDR 水平 q = 0.2 (e) 和 q = 0.5 (f)；n 表示在 100 × 10 次迭代中，在 749 × 10 个特征中至少被选择一次的特征数

总体而言，研究进一步证明了使用转录组数据进行分类任务的难度。尽管如此，展示了 KO可以构成一种有趣策略，特别是在提高基因选择可靠性方面。研究表明 KO 如何应用于转录组数据集，为更复杂的方法铺平道路，例如将 KO 与生物通路分析相结合。

参考文献

[1] Cartier J, Lagoas J, Ayadi Y, Fermanian A, Azencott CA, Massip F. Statistical knockoffs improve biomarker discovery from transcriptomic data. Brief Bioinform. 2026;27(3):bbag148. https://doi.org/10.1093/bib/bbag148

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC