||
M&M:基于RNA-seq数据的儿童肿瘤泛癌分类器
儿童癌症是高收入国家儿童疾病相关死亡的主要原因。正确的诊断对于治愈尽可能多的儿童和提高生活质量至关重要。然而,诊断肿瘤并不是一件小事,因为儿童可能患有许多肿瘤。虽然儿童癌症本身是罕见的,但在肿瘤实体的集合中,有许多不经常发生的癌症,影响不到400名儿童中的一名。罕见肿瘤类型的诊断往往更困难,因为它们的低频率和伴随的不熟悉的病理学家和血液学家,以下简称诊断专家。因此,这些肿瘤与观察者之间的变异性增加和高于平均水平的误分类率相关。为了改善治疗选择并最终影响患者的预后,特别罕见的肿瘤类型的分类需要更加准确。
改进诊断程序的一种方法是在医疗保健中使用机器学习算法。通过执行计算分类,诊断专家可以获得额外的信息,这些信息既可以确认他们的诊断,也可以将诊断过程推向正确的方向。在海德堡的DKFZ内开发的基于甲基化谱的中枢神经系统分类器被证明可以提高患者的生存率。近年来,基于DNA甲基化或RNA-seq数据开发了几种儿科分类器。然而,这些分类器只涵盖了儿童癌症中现有肿瘤(亚)类型的一个子集。最新出版的儿科肿瘤分类器OTTER是第一个使用泛癌症方法的。然而,OTTER的分类与WHO儿科肿瘤分类中包含的诊断之间没有直接联系,这使得诊断专家对其不太友好。此外,OTTER也只能对儿童肿瘤的一个子集进行分类。因此,迫切需要一个更具包容性的泛癌症分类器来推进诊断效用。
在荷兰,大多数患有癌症的儿童都在单一的国家儿科肿瘤中心进行诊断和治疗,在那里,全外显子组测序和RNA测序是常规诊断目的。在现有的数据中,RNA-seq基因表达最直接地反映了肿瘤细胞的行为,认为这一数据为分类器的开发提供了信息。最近,Fleur等人在medRxiv预印本中提出了少数和多数分类器(Minority and Majority,M&M,https://github.com/princessmaximacenter/MnM,图1),这是一种基于集成的RNA-seq机器学习方法,用于在泛癌症设置中对(罕见的)儿科肿瘤实体进行分类。M&M可以分类52种不同的肿瘤类型,以及它们潜在的96种形态和/或生物学上不同的肿瘤亚型。由于机器学习算法是基于在国家中心为常规诊断顺序收集的数据,因此它比以前的分类器更准确地表示儿童肿瘤人群。对于包含的肿瘤类型,M&M诊断精度达到99%左右。为了平衡不同患病率肿瘤的分类准确性,作者们使用了一种集成两种分类器的方法,这些分类器专门用于分类罕见肿瘤(亚)类型(少数分类器)或更常见的肿瘤(亚)类型(多数分类器)。因此,整个频率范围内的肿瘤类型可以以相当的精度进行分类。综上所述,M&M有可能对儿童肿瘤的诊断准确性产生积极影响,可能会提高癌症儿童的总体生存率和生活质量。
图1 M&M框架。a) M&M框架的概述,显示单独的少数派(左图)和多数派分类器(右图)机器学习工作流程,涉及特征选择、特征约简、下采样过程,以及它们各自的算法选择。注意:大多数分类器中的步骤没有按顺序描述,因为队列子集在特征选择之前发生。在运行单独的分类器之后进行分类器集成。最后的概率是通过取单个分类器的平均概率来计算的。如果只有一个分类器发出了某个指令,那么最终的概率将被除以10而不是取平均值来惩罚分类标签。b,c)不同样本频率下肿瘤类型(b)和亚型(c)的单独少数派(红色)、多数(蓝色)和综合M&M分类器(紫色)的准确性,在参考队列中进行10倍分层交叉验证
参考文献
[1] Fleur S.A. Wallis, John L. Baker-Hernandez, Marc van Tuil, Claudia van Hamersveld, Marco J. Koudijs, Eugène T.P. Verwiel, Alex Janse, Laura S. Hiemcke-Jiwa, Ronald R. de Krijger, Mariëtte E.G. Kranendonk, Marijn A. Vermeulen, Pieter Wesseling, Uta E. Flucke, Valérie de Haas, Maaike Luesink, Eelco W. Hoving, H. Josef Vormoor, Max M. van Noesel, Jayne Y. Hehir-Kwa, Bastiaan B.J. Tops, Patrick Kemmeren, Lennart A. Kester. M&M: An RNA-seq based Pan-Cancer Classifier for Pediatric Tumors. medRxiv 2024.06.06.24308366; doi: https://doi.org/10.1101/2024.06.06.24308366
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 15:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社