博文

MRF-IMD：一种用于鲁棒生物标志物发现的集成多组学随机森林框架

已有 2736 次阅读 2025-3-23 10:34 |个人分类:科普|系统分类:科普集锦

MRF-IMD：一种用于鲁棒生物标志物发现的集成多组学随机森林框架

近年来，高通量测序、质谱和成像技术的进步导致了跨越基因组、表观基因组、转录组、蛋白质组和代谢组的多组学数据激增。与单独分析任何单个组学层相比，整合这些不同的数据源可以提供更全面的复杂生物系统图景。如果有效地完成，整合可以突出不同数据类型的共享分子特征，为疾病机制、患者分层和临床应用的潜在生物标志物提供新见解。

尽管多组学整合的前景看好，但这一过程仍然具有挑战性。传统的方法，如稀疏偏最小二乘（sPLS）和典型相关分析（CCA），主要关注线性关系。虽然广泛使用，但这些方法在高维环境中可能会遇到困难，易于过拟合，并且可能无法捕获非线性相互作用。非线性扩展，包括内核CCA，有助于解决其中的一些问题，但通常面临可扩展性和可解释性的限制，使它们不太适合许多实际情况。

集成学习技术，特别是随机森林，因其稳健性、非线性建模能力和对过度拟合的相对弹性而受到重视。将随机森林扩展到处理多个响应变量，从而产生了多变量随机森林（MRF），它非常适合处理复杂的多组学数据。然而，MRF在多组学集成中的应用有限，其用于生物标志物发现和特征选择的优势得到发挥。

最近，Zhang等人引入了一个新框架MRF-IMD（图1，https://github.com/TransBioInfoLab/multiRF-vs），该框架采用逆最小深度（inverse minimal depth，IMD）度量在多个组学数据集上进行变量选择。通过将响应变量分配给决策树节点并使用IMD量化特征重要性，该方法可以识别出不同数据层共享的关键变量。这种策略自然地降低了选择噪声变量的风险，并有助于关注那些具有一致影响的变量。通过对癌症基因组图谱（TCGA）真实数据集的模拟和应用，该方法与sPLS和CCA等方法进行了比较，证明了其性能、稳定性和可解释性。所识别的生物标志物对应于有意义的生物学通路，可以帮助区分具有不同结果的患者群体。

图1 MRF-IMD模型的树图示。数据集使用潜在模型生成的，每个数据集的前20个变量都是互相关的。变量Y₁到Y₂₀与变量X₁到 X₂₀互相关。来自的互相关变量用黄色表示

总之，MRF-IMD框架为多组学整合提供了一个强大而灵活的解决方案。通过拥抱非线性关系，解决高维问题，并保持可解释性，MRF-IMD有可能推进生物标志物的发现，并为复杂的生物学和临床问题提供有价值的见解。

参考文献

[1] Wei Zhang, Hanchen Huang, Lily Wang, Brian D. Lehmann, Steven X. Chen. An Integrative Multi-Omics Random Forest Framework for Robust Biomarker Discovery bioRxiv, 2025.03.05.641533; doi: https://doi.org/10.1101/2025.03.05.641533

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC