||
癌症多组学生物标志物发现的计算方法基准测试
高通量技术使得能够在基因组、转录组、表观基因组、蛋白质组和代谢组层面大规模分析人类癌症。这些检测共同构成了肿瘤生物学的全面且互补的视角,极大地扩展了从庞大的分子候选者库中发现能够提供预后信息并指导治疗选择生物标志物的领域。然而,数据的维度高、肿瘤样本的异质性以及组学之间的复杂相互依赖使得稳健且具有临床意义的生物标志物发现本质上具有挑战性。
在过去的几年里,为了满足这一需求,已经开发出多种多样的计算方法。统计和机器学习方法扩展了矩阵分解、典型相关分析或统一流形近似和投影(UMAP)等经典框架,以提取组学间的共享模式并导出可解释的潜在表示。最近,深度学习(DL)架构,包括前馈神经网络(FNN)、自动编码器、图神经网络和 Transformer,通过学习分子层之间的非线性关系和层次结构,已被应用于多组学融合。这些方法在广泛的癌症相关任务上取得了优异的性能,包括预测癌症亚型、转移状态、病理分期、生存结果和治疗反应。除了预测,许多方法还集成了可解释性模块,以发现具有生物学意义的特征,从疾病相关子网络、失调通路,以及最常见的是分子生物标志物。
尽管在方法学上取得了显著进展,但生物标志物识别性能的系统评估仍然有限。在单个方法研究中,对发现生物标志物的评估通常是基于替代指标或定性的,依赖于功能富集分析或文献支持。此类评估具有推断性,容易受到选择偏差的影响,更多地表现为合理性的展示,而非验证。现有的基准研究也面临类似的局限性,因为许多研究依赖于预测性能作为评估所选生物标志物的替代指标。此外,尽管一些研究利用具有预定义区分性特征的合成数据集进行直接和定量的评估,但这些数据集通常过于简单,无法模拟现实世界癌症数据的复杂性和异质性。此外,尽管近年来开发了众多用于生物标志物识别的多组学和基于深度学习的方法,但它们通常被排除在先前的基准研究之外,导致其生物标志物识别能力在很大程度上未被检验。
为解决这些不足,Li等人提供了一套针对多组学生物标志物识别的计算方法的系统基准测试(图1)。先前研究的一个主要障碍是缺乏用于真实评估的全面、任务特定的生物标志物集。为应对这一问题,作者们从癌症变异临床解读(CIViC)、纪念斯隆凯特琳癌症中心精准肿瘤学知识库(OncoKB)以及癌症基因组解释器中收集了根据 AMP/ASCO/CAP 指南定义的 Tier I 生物标志物。利用从已建立的癌症知识库中收集的这些金标准生物标志物,基准测试能够对生物标志物识别性能进行直接、定量和具有临床意义的评估。使用系统过滤步骤从癌症基因组图谱(TCGA) 构建了五个真实世界的任务数据集,以确保计算可行性和生物标志物与任务之间的对齐。

图1 基准测试工作流程概述。a,生物标志物从三个肿瘤学知识库中收集,包括 CIViC、OncoKB和 CGI,并根据 AMP/ASCO/CAP 指南中确定的 Tier I 证据保留。b,真实世界数据包括 30 个涵盖五种任务和六种组学组合的多组学数据子集。预后和治疗任务的肿瘤类型和药物与可用的生物标志物相匹配,并通过一系列过滤规则(见方法)确定。真实世界数据用作 InterSIM模拟多组学数据生成的统计参考。c,十二种深度学习方法进行了基准测试,包括前馈神经网络(FNN)、自动编码器、图和 Transformer 等不同架构选择。八种统计和机器学习方法也进行了基准测试。d,基于排名的性能量化指标。使用了六种准确性和三种稳定性指标
作者们评估了 8 种统计和机器学习方法以及 12 种深度学习方法,涵盖了广泛的代表性建模和特征识别方法。它们的性能在不同实验设置和指标下进行了评估。几种方法表现出强大的能力来恢复临床验证的生物标志物,频繁地在实验中出现在金标准生物标志物的顶端。对组学类型贡献的分析进一步刻画了生物标志物和方法特定的偏差。基于 Transformer 的模型通过整合生物学通路与高级后处理特征归因方法,实现了最高准确性和强稳定性,而单变量特征消融方法在这两个维度上都表现不佳。模拟实验表明,统计和机器学习方法对真实特征判别信号的变动更为敏感,但与真实数据结果的差异突显了在真实癌症队列上评估的不可或缺性。此外,通过整合表现最优的方法的结果,推导出多组学癌症生物标志物共识面板,为未来的研究提供了潜在候选者。本文的开源基准数据集、结果和流程构成了多组学生物标志物发现未来研究的重要资源(https://github.com/athanzli/benchmarking_multiomics_biomarker_identification_methods)。
参考文献
[1] Athan Z. Li, Yuxuan Du, Yan Liu, Liang Chen, Ruishan Liu. Benchmarking computational methods for multi-omics biomarker discovery in cancer. bioRxiv 2025.12.18.695266; doi: https://doi.org/10.64898/2025.12.18.695266
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-1-13 00:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社