zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

BiomarkerML:生物标志物发现的蛋白质组学机器学习工作流

已有 838 次阅读 2025-11-17 09:55 |个人分类:科普|系统分类:科普集锦

BiomarkerML:生物标志物发现的蛋白质组学机器学习工作流 

质谱(MS)和基于亲和力的蛋白质组学技术,如 Olink SomaScan,通过能够同时测量来自大型临床队列的许多样本中的数千种蛋白质,加速了生物标志物发现领域的发展。这尤其重要,因为疾病生物标志物在早期诊断、预后和治疗干预中发挥着关键作用。然而,蛋白质组学数据的规模、复杂性和非线性带来了巨大的分析和解释挑战。解决这些挑战并实现这些数据的潜力,同时确保结果的可重复性,一个强大的方法是使用针对蛋白质组学数据分析的自动化、计算效率高的机器学习(ML)和深度学习(DL)工作流程。然而,尽管在用于蛋白质组学数据的生物标志物发现的 ML DL 算法性能方面取得了快速进展,但协调这些复杂计算流程的挑战仍然是生物医学研究人员采用的主要障碍。开发一个针对蛋白质组学生物标志物发现、通过易于使用的界面实现机器学习最佳实践的全面机器学习工作流程,对于使这些方法被生物医学研究人员使用至关重要。最近,Zhou等人介绍了 BiomarkerML(图1),一个基于云的工作流程,用于自动、可重复且高效的蛋白质组学数据分析,用于生物标志物发现,专为初学者级机器学习用户设计,并使用 PythonR 和工作流描述语言(WDL)实现。 

image.png

1 BiomarkerML 工作流程概述 

为确保复杂的机器学习分析既易于使用又严谨,BiomarkerML 集成了四个对实现这些目标至关重要但现有流程中往往代表性不足的高级方法论方面。首先,BiomarkerML实现了一个带内层和外层重采样循环的类权重嵌套交叉验证框架,这有助于减轻选择偏差、减少数据泄漏,并提供稳健的模型性能估计,这对高维和类不平衡的蛋白质组学数据尤其关键。其次,BiomarkerML在嵌套设计中使用可扩展的搜索算法自动进行超参数优化,从而减轻手动调优的负担,同时确保可重复性。第三,BiomarkerML结合了模型无关的中位数 SHapley Additive exPlanationsSHAP)值,通过平均所有样本的 SHAP 值来量化蛋白质级特征重要性,从而提高模型可解释性并实现透明的生物标志物识别。最后,认识到使用纯机器学习/深度学习方法识别的任何假想生物标志物列表始终会是分类或回归问题中最小的解释器集合,BiomarkerML使用蛋白质网络分析来扩展假想生物标志物列表,包括那些平均 SHAP 值较低但与高平均 SHAP 值蛋白质具有生物学关联的蛋白质。这些功能共同解决了蛋白质组学机器学习工作流中的常见陷阱,并提供了一个统一的解决方案,支持多种机器学习和深度学习算法中的线性和非线性建模策略。 

为了实现这些方面,BiomarkerML 实现了以下功能:

1. 数据预处理:BiomarkerML 处理缺失值,并在异构测量平台和模态之间对数据进行标准化。

2. 数据可视化:该工作流还使用降维技术(例如 PCAUMAPt-SNE)提供交互式可视化,以探索数据结构。

3. 机器学习和深度学习模型目录:BiomarkerML 包括适用于二元分类、多类分类和回归的成熟及最先进的机器学习和深度学习模型,使其能够应用于一系列生物学和临床问题。

4. 类别加权嵌套交叉验证:该工作流采用带有内循环和外循环的类别加权嵌套交叉验证,以确保无偏模型评估。

5. 降维和特征选择:BiomarkerML 提供线性和非线性方法进行降维和特征选择,这些方法可以与不适合高维蛋白质组学数据的模型结合使用。

6. 自动超参数调整:超参数是模型配置变量,必须在训练模型之前进行调整;BiomarkerML 自动进行这些调整。

7. 性能指标可视化:工作流程使用标准的分类和回归指标比较模型。

8. 基于平均 SHAP 的生物标志物识别:BiomarkerML 使用平均 SHAP 值来量化每个蛋白质对模型预测的贡献,从而能够在广泛的机器学习和深度学习模型中一致地比较特征重要性。

9. 蛋白质网络分析以进一步检测生物标志物:该工作流程还对具有高平均 SHAP 值的蛋白质进行共表达和相互作用网络分析,以识别第一级生物学相关蛋白质,将其作为假设生物标志物的扩展列表。

10. 报告生成:最后,BiomarkerML 将结果汇总并生成自动报告。结果还以逗号分隔值格式输出为表格,用于下游分析流程的输入。 

现有工具包含了这些功能的子集,但 BiomarkerML 是首个将全部十个功能集成到一个统一解决方案中,用于蛋白质组学生物标志物发现,其中一些功能在其他地方很少被实现。重要的是,BiomarkerML没有像 MLme 工作流程那样聚合现有模型或依赖黑盒机器学习工具,而是使用 scikit-learn PyTorch Python 中本地实现学习和深度学习模型,从而最大化软件的透明度、可重复性和可扩展性。值得注意的是,BiomarkerML提出了两种基于变分自编码器的定制分类架构——这是一种在更广泛的深度学习范式中的生成式 AI 模型类别——专门针对蛋白质组数据的独特挑战进行了优化,包括高维度、非线性以及多重共线性。总体而言,BiomarkerML 是一个模块化、全自动的端到端工作流,使用 PythonR WDL 实现。通过整合严格的评估、自动超参数优化、模型可解释性和生物学背景化,该工作流使研究人员——无论其 ML 专业知识如何——能够对复杂的蛋白质组数据进行可扩展、可重复的分析,以进行生物标志物发现和治疗靶点优先级排序。 

参考文献

[1] Yuhan Zhou, Anand K. Maurya, Yun Deng, Micah P. Fletcher, Connia Ren, Avigail Taylor. BiomarkerML: A cloud-based proteomics ML workflow for biomarker discovery. bioRxiv 2025.10.16.682839; doi: https://doi.org/10.1101/2025.10.16.682839 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1510527.html

上一篇:ScIsoX:测量单细胞中异构体水平转录组复杂性
下一篇:SMTdb:癌症空间元转录组资源
收藏 IP: 39.128.48.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-12-5 18:27

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部