||
AutoCancer:早期癌症检测的自动化多模态框架
根据国际癌症研究机构(IARC)的最新报告,癌症是全球过早死亡的主要原因。国家统计局强调了早期检测对提高生存率的重要性。作为一种潜在的解决方案,液体活检,一种涉及非固体标本采样的非侵入性技术,提供了早期癌症检测和纵向跟踪的可能性。该技术分析血液、尿液和唾液等液体中的循环肿瘤细胞(CTC)、细胞外囊泡(EV)、游离细胞DNA (cfDNA)和循环肿瘤DNA (ctDNA)。尽管前景看好,但基于液体活检的早期癌症筛查仍然是一个新兴领域,有许多研究问题有待解决。
首先,液体活检成分的多样性导致了数据的复杂性、异质性、注释性差和非结构化。然而,由于固有的数据多模态特性,如甲基化、单核苷酸变异(SNV)、拷贝数变异(CNV)、蛋白质水平、甚至其他数据类型(如片段组学和多种分析物),特征的标准化和统一是具有挑战性的。其次,生物标志物的选择是一项艰巨的挑战,因为癌症进展背后的机制是多方面和复杂的。考虑到有超过20,000个基因和超过50,000个蛋白质亚型的大量分析,识别癌症生物标志物提出了一个巨大的特征选择挑战。第三,自动化工作流程的发展是实现癌症检测快速准确分析的关键。这种工作流程可以最大限度地减少人为干预,降低非专业医疗从业者使用机器学习的技术壁垒。最后,可解释性对于将深度学习模型成功整合到临床实践中至关重要。确保这些模型具有可解释性,使医疗专业人员能够理解潜在的决策过程并验证检测结果。
计算方法,包括统计分析、传统机器学习和深度学习,在从液体活检中识别癌症特异性特征方面表现出了希望。统计分析从大规模医疗数据中选择与目标(结果)变量(如疾病状态或表型)具有强相关性的相关生物标志物,并确定这些生物标志物的阈值,从而实现基于液体活检的癌症检测或分析。这些方法有效地处理大规模数据,但其有效性取决于数据质量,因为有偏见的数据可能导致不准确结果。传统的机器学习算法,包括线性模型、决策树和支持向量机,由于其简单性和鲁棒性,经常用于早期癌症检测。值得注意的应用包括lung-CLiP,它结合了多种算法,利用多基因组特征从血液cfDNA中估计癌症的可能性。还有GEMINI,它使用逻辑回归分析cfDNA的早期全基因组突变谱。另外,CancerSEEK使用逻辑回归和随机森林,根据ctDNA突变和蛋白质生物标志物对癌症进行分类。机器学习技术也出现在其他液体成分的分析中,如细胞外囊泡。在片段组学领域,DELFI等方法已经证明了识别片段模式用于早期癌症检测的可行性。Liu等人开发了一种基于CNV和片段组学的自适应支持向量机来提高早期癌症筛查的准确性。基于深度学习的方法在早期癌症检测中显示出潜力。Wong等人基于1817例癌症检测患者的血液检测记录构建并引入了AnDE分类器。Li等人引入了DISMIR模型,这是一种集成了卷积神经网络和长短期记忆(LSTM)的模型,用于区分测序读取是来自癌变组织还是正常组织。Li等人开发了cfSort,这是一种基于神经网络的模型,旨在使用监督方法量化cfDNA中的组织组成。深度学习方法具有高精度和在大型数据集中模拟复杂模式的能力等优点。
考虑到这些挑战,Liu等人提出了AutoCancer(图1,https://github.com/ElaineLIU-920/AutoCancer),这是一个自动化的、多模态的、基于transformer的框架,它既可解释又通用。通过将特征选择(FS)、神经架构搜索(NAS)和超参数优化(HPO)集成到一个统一的工作流程中,AutoCancer解决了在部署早期癌症检测模型时人为干预的需求,并为相关用户提供了简化的管道。作者们证明了AutoCancer在促进特定癌症类型的早期检测以及泛癌症分析方面的功效。此外,利用AutoCancer的可解释性来确定与非小细胞肺癌(NSCLC)相关的关键基因突变。其发现与现有文献报道的基因突变一致,并揭示了可能与特定肿瘤分期和亚型相关的突变和突变对。通过利用最先进的深度学习技术并结合多模态数据源,AutoCancer为早期癌症研究的持续努力增加重要价值,为临床医生和生物医学研究人员提供有价值的工具。
图1 AutoCancer框架
AutoCancer的主要限制之一是目前缺乏公开的多模态液体活检数据。这种可用数据的缺乏限制了全面评估AutoCancer,并可能无意中导致对其性能的过度拟合或低估。此外,有限的数据可能无法涵盖癌症类型和分期的全部范围,这可能会阻碍AutoCancer在更广泛的临床场景中的推广。解决这些问题并建立安全的数据共享平台对于促进AutoCancer和类似框架的发展至关重要。尽管存在这些限制,AutoCancer的发展代表了癌症检测和诊断领域向前迈出的重要一步。随着越来越多的多模态液体活检数据的出现,进一步评估和完善AutoCancer至关重要,以确保其在广泛的癌症检测任务中的有效性和适用性。这最终将有助于为癌症患者开发更准确、高效和个性化的诊断工具。
参考文献
[1] Liu L, Xiong Y, Zheng Z, et al. AutoCancer as an automated multimodal framework for early cancer detection. iScience. 2024;27(7):110183. doi:10.1016/j.isci.2024.110183
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 15:36
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社