zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

基于深度学习融合多模态数据以发现肿瘤生物标志物

已有 1948 次阅读 2023-4-26 10:22 |个人分类:科普|系统分类:科普集锦

基于深度学习融合多模态数据以发现肿瘤生物标志物 

近几十年来,随着支持诊断和护理的临床数据不断增加,技术创新已经改变了医疗保健领域。特别是在癌症等与年龄相关的慢性疾病的背景下,医学正在朝着收集多模态患者数据的方向发展。整合不同模态数据可以增强我们对癌症的理解,并为精准医学铺平道路。这里,精准医学承诺个性化诊断、预后、治疗和护理。 

我们越来越多地从传统的一刀切方法转向更有针对性的检测和治疗。尽管分子病理学彻底改变了精准肿瘤学,但美国食品药品监督管理局(FDA)批准的第一种辅助诊断分析依赖于更简单的分子方法,大多数分析都集中在感兴趣的单个基因上。然而,下一代测序(NGS)的进步现在允许多靶点伴随诊断分析,这正变得越来越普遍。持续的成本降低使同时分析数千个基因组区域成为可能,这暗示着多目标小组可能很快就会以与单独测试五到十个目标类似的价格运行。多靶点检测不仅可以节省时间和组织,而且有可能识别复杂的基因相互作用,从而增强我们对肿瘤生物学的理解。尽管NGS仍在如火如荼地进行,但以单分子、长读和实时测序为特色的第三代技术已经在兴起。太平洋生物科学公司和牛津纳米孔技术公司能够以前所未有的分辨率和速度组装和探索基因组。这项技术最近被用于临床诊断罕见遗传病,周转率仅为8小时。由于癌症通常是多病因的,精确肿瘤学领域从这些发展中受益匪浅。 

与此同时,组织病理学和放射学已成为癌症管理期间临床决策的关键工具。组织病理学评估使组织结构研究成为可能,并仍然是癌症诊断的金标准。最近,全玻片成像(WSI)的显著进展导致了一种从传统组织病理学方法转向数字病理学。数字病理学是将传统载玻片数字化为虚拟图像的过程。与更传统的方法相比,它具有许多实际优势,包括速度、更直接的数据存储和管理、远程访问和共享,以及高度准确、客观和一致的读数。另一方面是放射成像,这是一种检测和分类癌症病变的非侵入性方法。特别地,计算机断层扫描和磁共振成像(MRI)扫描对于生成(前)恶性病变的三维图像是有用的。 

人工智能(AI)和先进机器学习(ML)技术的不断改进对这些癌症成像生态系统产生了重大影响,尤其是在诊断和预测学科。目前组织病理学切片的注释依赖于专业病理学家。利用基于图像的人工智能应用不仅可以减轻病理学家的工作量,而且有可能进行更高效、可重复和准确的空间分析,捕捉视觉感知之外的信息。放射组学和病理组学是指分别专注于放射学或组织病理学数字图像的定量分析的领域,目的是提取可用于临床决策的定量特征。这种提取过去是用标准统计方法完成的,但更先进的深度学习(DL)框架,如卷积神经网络、深度自动编码器和视觉转换器,现在可以用于自动化、高通量的特征提取。确定性客观特征的自动评估使肿瘤微环境(TME)能够以前所未有的速度和规模进行量化。除了在没有观察者间变异的情况下量化已知的手工制作的显著特征外,DL还能够发现未知的特征和关系,从而提供生物学见解并改善疾病特征。一项引人注目的癌症放射研究发现,DL特征捕获了肿瘤区域内外与细胞周期和转录过程相关的预后特征。尽管DL的能力多种多样,但主要挑战之一是需要大型数据集来训练、测试和验证其算法。但是,由于伦理限制和注释临床图像的劳动强度,大多数研究只能有限地访问包含基本事实标记数据的大型队列。 

根据《21世纪治愈法案》,美国食品药品监督管理局设定了一个目标,即在患者处于护理中心的情况下推进精准医疗。该法案定义了发现、开发和交付的时间表,并要求跨模态融合证据,规定这必须包括真实世界的数据和患者体验。技术进步开创了一个以前所未有的速度从多个来源获取临床数据的时代,从医学图像到基因组学数据和患者生成的健康数据。再加上人工智能的成功,这为使用这些先进工具分析许多数据类型提供了机会和必要性,以更好地为决策提供信息并改善患者护理。到目前为止,美国食品药品监督管理局已经批准了几种基于人工智能的软件作为医疗设备。结合他们最近发布的AI/ML白皮书,美国食品药品监督管理局希望强调他们打算为这些高度迭代、自主和持续学习的算法以及确保安全性和有效性所需的特定数据类型开发一个监管框架。提出的一些数据包含考虑因素包括:(1)与临床问题和当前临床实践的相关性,(2)以一致、可推广和临床相关的方式获取数据,(3)训练、调整和测试集的适当定义和分离,以及(4)算法及其对用户的输出的适当透明度。 

近年来,人工智能功能在医疗应用中的集成有所增加。然而,到目前为止,大多数方法一次只关注一种特定的数据类型,导致整合互补数据类型的方法进展缓慢,以及关于多模态整合的技术、分析和临床方面的许多问题。推进精准肿瘤学、医疗保健人工智能不仅应告知癌症发病率和肿瘤生长情况,还必须确定最佳治疗路径,考虑与治疗相关的副作用、社会经济因素和护理目标。因此,只有通过合并跨越空间和时间的复杂多样的多模态数据,才能实现精准医疗。单一数据模态可能是有噪声的或不完整的,但当与来自其他模态的冗余信号相结合时,它们在诊断、预测和分配治疗方面可能更加敏感和稳健。目前正在收集多模态数据,为生物标志物的发现提供了资源。对于癌症,预后和预测性生物标记物都很有意义。虽然预后生物标志物提供了有关患者诊断和总体结果的信息,但预测性生物标志物为治疗决策和反应提供了信息。 

在此,Steyaert等人认为,一些常规收集的医学数据来源并没有充分发挥其诊断和治疗癌症患者的潜力,因为它们大多是孤立研究,而不是综合研究。这些是:(1)电子健康记录(EHR),(2)分子数据,(3)数字病理学和(4)放射线图像。当结合起来时,这些数据模式提供了丰富的互补、冗余和和谐信息,可以用来更好地对患者群体进行分层并提供个性化护理(图1)。 

image.png

1 肿瘤学中常规收集的生物医学模态的生成和处理。

 

必须做出的一个主要决定是,数据融合在哪个特定的建模阶段进行:(1)早期、(2)中期或(3)晚期(图2)。早期融合的特征是连接不同数据模态的特征向量,并且只需要训练单个模型(图2a)。相反,后期融合是基于分别开发每个数据模态的模型,并将其单个预测与特定的平均、加权或其他机制相结合(图2c)。后期融合不仅可以为每个模态使用不同的、通常更合适的模型,而且可以更直接地处理数据中缺少某些模态的情况。然而,后期的融合忽略了不同模式之间可能的协同作用 

image.png

2多模态数据的不同融合策略概述。a原始数据被处理成可操作的格式。b对于每个模态,使用专用编码器算法提取特征。c早期融合。d 中间融合。e 晚期融合。 

虽然早期和晚期融合方法都是模型不可知的,但它们并不是专门为应对或充分利用多种模式而设计的。早期和晚期融合之间的任何东西都被定义为中间或联合数据融合。中间融合不会合并输入数据,也不会为每个模态开发单独的模型,而是涉及推理算法的开发,以生成联合的多模态低层特征表示,该表示保留了每个模态的信号(图2b)。尽管必须为每种模型类型开发专用的推理算法,但这种方法试图利用早期和晚期融合的优势。与早期融合的一个关键区别是,在训练期间,损失被传播回推理算法,从而在每次训练迭代中创建更新的特征表。尽管这允许对模态之间的复杂交互进行建模,但需要有适当的技术来防止对训练队列的过度拟合。重要的是,目前没有决定性的证据表明哪一种融合策略是优越的,具体方法的选择通常是基于可用数据和任务的经验。 

目前,多模态生物标记物发现在应用于癌症患者时存在诸多挑战和机遇。  

参考文献

[1] Steyaert, S., Pizurica, M., Nagaraj, D. et al. Multimodal data fusion for cancer biomarker discovery with deep learning. Nat Mach Intell 5, 351–362 (2023). https://doi.org/10.1038/s42256-023-00633-5

 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

 

image.png




https://blog.sciencenet.cn/blog-571917-1385830.html

上一篇:估计因果效应的局部因果发现
下一篇:单细胞RNA测序数据复杂分析
收藏 IP: 39.128.55.*| 热度|

2 许培扬 李升伟

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-23 18:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部