zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

M&M:基于RNA-seq数据的儿童肿瘤泛癌分类器

已有 1117 次阅读 2024-7-5 22:31 |个人分类:科普|系统分类:科普集锦

M&M:基于RNA-seq数据的儿童肿瘤泛癌分类器

儿童癌症是高收入国家儿童疾病相关死亡的主要原因。正确的诊断对于治愈尽可能多的儿童和提高生活质量至关重要。然而,诊断肿瘤并不是一件小事,因为儿童可能患有许多肿瘤。虽然儿童癌症本身是罕见的,但在肿瘤实体的集合中,有许多不经常发生的癌症,影响不到400名儿童中的一名。罕见肿瘤类型的诊断往往更困难,因为它们的低频率和伴随的不熟悉的病理学家和血液学家,以下简称诊断专家。因此,这些肿瘤与观察者之间的变异性增加和高于平均水平的误分类率相关。为了改善治疗选择并最终影响患者的预后,特别罕见的肿瘤类型的分类需要更加准确。

改进诊断程序的一种方法是在医疗保健中使用机器学习算法。通过执行计算分类,诊断专家可以获得额外的信息,这些信息既可以确认他们的诊断,也可以将诊断过程推向正确的方向。在海德堡的DKFZ内开发的基于甲基化谱的中枢神经系统分类器被证明可以提高患者的生存率。近年来,基于DNA甲基化或RNA-seq数据开发了几种儿科分类器。然而,这些分类器只涵盖了儿童癌症中现有肿瘤()类型的一个子集。最新出版的儿科肿瘤分类器OTTER是第一个使用泛癌症方法的。然而,OTTER的分类与WHO儿科肿瘤分类中包含的诊断之间没有直接联系,这使得诊断专家对其不太友好。此外,OTTER也只能对儿童肿瘤的一个子集进行分类。因此,迫切需要一个更具包容性的泛癌症分类器来推进诊断效用。

在荷兰,大多数患有癌症的儿童都在单一的国家儿科肿瘤中心进行诊断和治疗,在那里,全外显子组测序和RNA测序是常规诊断目的。在现有的数据中,RNA-seq基因表达最直接地反映了肿瘤细胞的行为,认为这一数据为分类器的开发提供了信息。最近,Fleur等人在medRxiv预印本中提出了少数和多数分类器(Minority and MajorityM&Mhttps://github.com/princessmaximacenter/MnM,图1),这是一种基于集成的RNA-seq机器学习方法,用于在泛癌症设置中对(罕见的)儿科肿瘤实体进行分类。M&M可以分类52种不同的肿瘤类型,以及它们潜在的96种形态和/或生物学上不同的肿瘤亚型。由于机器学习算法是基于在国家中心为常规诊断顺序收集的数据,因此它比以前的分类器更准确地表示儿童肿瘤人群。对于包含的肿瘤类型,M&M诊断精度达到99%左右。为了平衡不同患病率肿瘤的分类准确性,作者们使用了一种集成两种分类器的方法,这些分类器专门用于分类罕见肿瘤()类型(少数分类器)或更常见的肿瘤()类型(多数分类器)。因此,整个频率范围内的肿瘤类型可以以相当的精度进行分类。综上所述,M&M有可能对儿童肿瘤的诊断准确性产生积极影响,可能会提高癌症儿童的总体生存率和生活质量。

image.png

1 M&M框架。a) M&M框架的概述,显示单独的少数派(左图)和多数派分类器(右图)机器学习工作流程,涉及特征选择、特征约简、下采样过程,以及它们各自的算法选择。注意:大多数分类器中的步骤没有按顺序描述,因为队列子集在特征选择之前发生。在运行单独的分类器之后进行分类器集成。最后的概率是通过取单个分类器的平均概率来计算的。如果只有一个分类器发出了某个指令,那么最终的概率将被除以10而不是取平均值来惩罚分类标签。b,c)不同样本频率下肿瘤类型(b)和亚型(c)的单独少数派(红色)、多数(蓝色)和综合M&M分类器(紫色)的准确性,在参考队列中进行10倍分层交叉验证

参考文献

[1] Fleur S.A. Wallis, John L. Baker-Hernandez, Marc van Tuil, Claudia van Hamersveld, Marco J. Koudijs, Eugène T.P. Verwiel, Alex Janse, Laura S. Hiemcke-Jiwa, Ronald R. de Krijger, Mariëtte E.G. Kranendonk, Marijn A. Vermeulen, Pieter Wesseling, Uta E. Flucke, Valérie de Haas, Maaike Luesink, Eelco W. Hoving, H. Josef Vormoor, Max M. van Noesel, Jayne Y. Hehir-Kwa, Bastiaan B.J. Tops, Patrick Kemmeren, Lennart A. Kester. M&M: An RNA-seq based Pan-Cancer Classifier for Pediatric Tumors. medRxiv 2024.06.06.24308366; doi: https://doi.org/10.1101/2024.06.06.24308366

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

 

image.png

 



https://blog.sciencenet.cn/blog-571917-1441103.html

上一篇:第二代转录组数据细胞类型反卷积方法基准测试
下一篇:从非编码RNA视角探索痴呆症的调控景观
收藏 IP: 39.128.48.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 15:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部