||
MLOmics:癌症多组学数据的机器学习方法基准
多组学分析在加速癌症研究方面显示出巨大潜力。一个有希望的趋势在于将各种癌症作为机器学习问题进行构建,在这种问题中,通过将多组学数据整合到机器学习模型中,可以揭示出复杂的分子相互作用和与特定肿瘤队列相关的失调。在分子亚型、疾病-基因关联预测和药物发现中已经取得了一系列成绩。
好的机器学习模型需要足够数据量和足够预处理的高质量训练数据集。尽管存在多个公共数据门户,包括癌症基因组图谱(TCGA)多组学计划或诸如LinkedOmics之类的开放基础数据,但对于现有机器学习模型,这些数据库并不是现成的。为了使这些数据模型准备好,必须进行一系列费力的,特定于任务的处理步骤,例如元数据审查、示例链接和数据清洗。所需的领域知识以及对多种医学数据类型的深刻了解和生物信息学工具的熟练程度已成为此类背景以外的研究人员的障碍。强大的机器学习模型不断增长的体系与缺乏充分准备的公共数据之间的差距已成为主要的瓶颈。当前,一些现有研究使用不一致的实验协议验证了提出的机器学习模型,包括数据集和数据处理技术的变化以及评估策略。这些研究可以从对统一数据集的统一基础上进行广泛的基准进行公平评估。基准测试在指导生物信息学研究人员设计和精心挑选最合适的模型方面也起着关键作用。
为了满足社区不断增长的需求,Yang等人最近引入了MLOmics方法(https://github.com/chenzRG/Cancer-Multi-Omics-Benchmark),这是一种开放的癌症多组学基准,旨在更好地为生物信息学和机器学习模型的开发和评估提供服务。MLOmics收集了8,314个患者样本,涵盖了TCGA项目的所有32种癌症类型。将所有样品均匀处理以包含四种组学类型:mRNA表达、microRNA表达、DNA甲基化和拷贝数变化,然后进行分类、协议验证、特征分析、转换和注释。基于处理后的数据,构建了20个学习任务和相关数据集,用于泛癌分析、癌症亚型和组学缺失值插补。对于每个数据集,作者们提供三个功能版本:原始、对齐和顶部以支持可行的分析。例如,顶部版本包含所有样品中通过ANOVA检测选择的最重要功能,以滤除潜在的噪声基因。
使用6-10个基准方法仔细检查了MLOmics数据集。这些基准通过各种指标进行了严格复制和评估,以确保公平比较。此外,MLOmics支持基本的下游生物学分析,例如聚类可视化、生存分析和火山图。最后,作者们通过本地部署的生物基础资源为跨学科分析提供支持。跨学科的研究人员可以通过STRING和KEGG等资源来检索和整合癌症组学研究的生物知识。例如,支持对生物网络定位和模拟基因敲除的探索。总而言之,MLOmics提供了一个用户友好的接口,使非专家可以轻松地利用其开放且准备好的数据集来开发/评估机器学习模型,进而进行跨学科分析并支持癌症研究和更广泛的生物学研究。图1提供了数据库及其特征的详细概述。
图1 创建MLOmics的示意性工作流程。该过程始于收集涵盖TCGA项目32种癌症类型的患者样品。各种数据类型和大小的所有资源都是均匀整合和处理的,以包含四种组学类型的数据。基于处理的数据构建了基准机器学习任务的数据集。 MLOmics还选择了基准、指标和资源来支持下游生物学分析。MLOmics提供了一个用户友好的界面,用于开发和评估基于癌症多组学数据的机器学习模型。 MLOmics提供三个特征量表的数据集,用于20个分类、聚类和组学插图学习任务。 MLOmics还为每个任务提供了统计。MLOmics提供了与其他生物知识数据库链接的资源,从而为机器学习评估、基因-疾病关联探索、网络推理和功能分析等应用程序提供了外部资源的集成
参考文献
[1] Ziwei Yang, Rikuto Kotoge, Xihao Piao, Zheng Chen, Lingwei Zhu, Peng Gao, Yasuko Matsubara, Yasushi Sakurai, and Jimeng Sun. MLOmics: Benchmark for Machine Learning on Cancer Multi-Omics Data. arXiv:2409.02143v2, doi: https://arxiv.org/html/2409.02143v2
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-3-20 01:51
Powered by ScienceNet.cn
Copyright © 2007-2025 中国科学报社