zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

MRF-IMD:一种用于鲁棒生物标志物发现的集成多组学随机森林框架

已有 461 次阅读 2025-3-23 10:34 |个人分类:科普|系统分类:科普集锦

MRF-IMD一种用于鲁棒生物标志物发现的集成多组学随机森林框架 

近年来,高通量测序、质谱和成像技术的进步导致了跨越基因组、表观基因组、转录组、蛋白质组和代谢组的多组学数据激增。与单独分析任何单个组学层相比,整合这些不同的数据源可以提供更全面的复杂生物系统图景。如果有效地完成,整合可以突出不同数据类型的共享分子特征,为疾病机制、患者分层和临床应用的潜在生物标志物提供新见解。 

尽管多组学整合的前景看好,但这一过程仍然具有挑战性。传统的方法,如稀疏偏最小二乘(sPLS)和典型相关分析(CCA),主要关注线性关系。虽然广泛使用,但这些方法在高维环境中可能会遇到困难,易于过拟合,并且可能无法捕获非线性相互作用。非线性扩展,包括内核CCA,有助于解决其中的一些问题,但通常面临可扩展性和可解释性的限制,使它们不太适合许多实际情况。 

集成学习技术,特别是随机森林,因其稳健性、非线性建模能力和对过度拟合的相对弹性而受到重视。将随机森林扩展到处理多个响应变量,从而产生了多变量随机森林(MRF),它非常适合处理复杂的多组学数据。然而,MRF在多组学集成中的应用有限,其用于生物标志物发现和特征选择的优势得到发挥。 

最近,Zhang等人引入了一个新框架MRF-IMD(图1https://github.com/TransBioInfoLab/multiRF-vs),该框架采用逆最小深度(inverse minimal depthIMD)度量在多个组学数据集上进行变量选择。通过将响应变量分配给决策树节点并使用IMD量化特征重要性,该方法可以识别出不同数据层共享的关键变量。这种策略自然地降低了选择噪声变量的风险,并有助于关注那些具有一致影响的变量。通过对癌症基因组图谱(TCGA)真实数据集的模拟和应用,该方法与sPLSCCA等方法进行了比较,证明了其性能、稳定性和可解释性。所识别的生物标志物对应于有意义的生物学通路,可以帮助区分具有不同结果的患者群体。 

 image.png

1 MRF-IMD模型的树图示。数据集使用潜在模型生成的,每个数据集的前20个变量都是互相关的。变量Y1Y20与变量X1 X20互相关。来自的互相关变量用黄色表示

总之,MRF-IMD框架为多组学整合提供了一个强大而灵活的解决方案。通过拥抱非线性关系,解决高维问题,并保持可解释性,MRF-IMD有可能推进生物标志物的发现,并为复杂的生物学和临床问题提供有价值的见解。 

参考文献

[1] Wei Zhang, Hanchen Huang, Lily Wang, Brian D. Lehmann, Steven X. Chen. An Integrative Multi-Omics Random Forest Framework for Robust Biomarker Discovery  bioRxiv, 2025.03.05.641533; doi: https://doi.org/10.1101/2025.03.05.641533 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

 image.png



https://blog.sciencenet.cn/blog-571917-1478899.html


收藏 IP: 39.128.48.*| 热度|

1 许培扬

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

IP: 223.72.64.*   回复 | 赞 +1 [1]许培扬   2025-3-23 12:02
MRF-IMD通过集成随机森林与多组学数据,提供了一种鲁棒、可解释的生物标志物发现框架。其核心价值在于整合跨组学信息、降低噪声干扰,并为复杂疾病的机制解析和精准医疗提供工具支持。未来可结合图神经网络、因果推理等方法进一步提升标志物的生物学意义和临床转化潜力。

1/1 | 总计:1 | 首页 | 上一页 | 下一页 | 末页 | 跳转

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-3-25 13:54

Powered by ScienceNet.cn

Copyright © 2007-2025 中国科学报社

返回顶部