||
MRF-IMD:一种用于鲁棒生物标志物发现的集成多组学随机森林框架
近年来,高通量测序、质谱和成像技术的进步导致了跨越基因组、表观基因组、转录组、蛋白质组和代谢组的多组学数据激增。与单独分析任何单个组学层相比,整合这些不同的数据源可以提供更全面的复杂生物系统图景。如果有效地完成,整合可以突出不同数据类型的共享分子特征,为疾病机制、患者分层和临床应用的潜在生物标志物提供新见解。
尽管多组学整合的前景看好,但这一过程仍然具有挑战性。传统的方法,如稀疏偏最小二乘(sPLS)和典型相关分析(CCA),主要关注线性关系。虽然广泛使用,但这些方法在高维环境中可能会遇到困难,易于过拟合,并且可能无法捕获非线性相互作用。非线性扩展,包括内核CCA,有助于解决其中的一些问题,但通常面临可扩展性和可解释性的限制,使它们不太适合许多实际情况。
集成学习技术,特别是随机森林,因其稳健性、非线性建模能力和对过度拟合的相对弹性而受到重视。将随机森林扩展到处理多个响应变量,从而产生了多变量随机森林(MRF),它非常适合处理复杂的多组学数据。然而,MRF在多组学集成中的应用有限,其用于生物标志物发现和特征选择的优势得到发挥。
最近,Zhang等人引入了一个新框架MRF-IMD(图1,https://github.com/TransBioInfoLab/multiRF-vs),该框架采用逆最小深度(inverse minimal depth,IMD)度量在多个组学数据集上进行变量选择。通过将响应变量分配给决策树节点并使用IMD量化特征重要性,该方法可以识别出不同数据层共享的关键变量。这种策略自然地降低了选择噪声变量的风险,并有助于关注那些具有一致影响的变量。通过对癌症基因组图谱(TCGA)真实数据集的模拟和应用,该方法与sPLS和CCA等方法进行了比较,证明了其性能、稳定性和可解释性。所识别的生物标志物对应于有意义的生物学通路,可以帮助区分具有不同结果的患者群体。
图1 MRF-IMD模型的树图示。数据集使用潜在模型生成的,每个数据集的前20个变量都是互相关的。变量Y1到Y20与变量X1到 X20互相关。来自的互相关变量用黄色表示
总之,MRF-IMD框架为多组学整合提供了一个强大而灵活的解决方案。通过拥抱非线性关系,解决高维问题,并保持可解释性,MRF-IMD有可能推进生物标志物的发现,并为复杂的生物学和临床问题提供有价值的见解。
参考文献
[1] Wei Zhang, Hanchen Huang, Lily Wang, Brian D. Lehmann, Steven X. Chen. An Integrative Multi-Omics Random Forest Framework for Robust Biomarker Discovery bioRxiv, 2025.03.05.641533; doi: https://doi.org/10.1101/2025.03.05.641533
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-3-25 13:54
Powered by ScienceNet.cn
Copyright © 2007-2025 中国科学报社