bigdataresearch的个人博客分享 http://blog.sciencenet.cn/u/bigdataresearch

博文

[转载]基于深度学习的MRI脑卒中病灶分割方法综述

已有 817 次阅读 2024-2-23 09:49 |系统分类:论文交流|文章来源:转载

图片

本文刊载于《智能科学与技术学报》2023年第3期“综述与展望

图片

余唯一1  陈涛1  张军平2  单洪明图片

1. 复旦大学类脑智能科学与技术研究院,上海 200433;2. 复旦大学计算机科学技术学院,上海 200433

DOI:10.11959/j.issn.2096-6652.202328

摘 要 脑卒中病灶自动分割方法成为近几年的研究热点。为了全面研究用于MRI脑卒中病灶分割的深度学习方法的现状,针对脑卒中治疗的临床问题,进一步阐述了基于深度学习的病灶分割的研究背景及其挑战性,并介绍脑卒中病灶分割的常用公共数据集(ISLES和ATLAS)。然后,重点阐述了基于深度学习的脑卒中病灶分割方法的创新与进展,从网络结构、训练策略、损失函数这3个角度对研究进展进行了归纳,并且对比了各种方法的优缺点。最后,讨论了该研究存在的困难和挑战以及未来的发展趋势。

关键词脑卒中;医学图像分割;计算机视觉;深度学习;神经网络

0 引言

脑卒中是人类特别常见的脑血管疾病之一,也是全球第二大致死原因[1]。根据2015—2018年调查数据显示,全球大约有760万的脑卒中患者。对于老年人来说,第一次发生中风后1~5年内的死亡概率超过50%[2]。根据脑供血障碍的不同,中风可分为缺血性中风和出血性中风[3]。前者由输送血液到大脑的血管堵塞引起,占所有中风病例的87%[4];后者由脆弱的血管破裂引起,如动脉瘤、动静脉畸形、高血压等[5]。治疗脑卒中是一项极具挑战性的工作。以常见的缺血性中风为例,在中风发作后的几个小时内,如果没有及时向大脑重新供血,可能发生组织梗死,并且该损伤过程是不可逆的[6]。因此,观察脑卒中患者的脑部结构并发现病灶,是治疗脑卒中患者的关键。

神经影像学是检测、表征和预测急性中风(包括缺血性中风和出血性中风)的重要工具。其中,电子计算机断层扫描(computer tomography,CT)和磁共振成像(magnetic resonance imaging,MRI)是常见的成像手段。CT可以用来识别中风类型,常用于中风后、实施紧急手术之前采集脑部信息[7]。虽然CT成本较低,成像速度快,受噪声影响较小,但异常病变在CT上不是清晰可见的。如果需要观察小脑、脑干和大脑半球内部的微小梗死,它也会受到限制[8-9]。虽然MRI成本高,扫描时间长,要求较高,仅部分医疗中心有条件配备,但它能够克服CT的局限性,并且在症状出现之前比CT更早发现梗死,所以MRI更常用于发现脑卒中病灶[10]。因此,本文仅探讨在MRI上对病灶进行分割的工作,如何与在CT上的分割方法[11-12]结合实现多模态分割,仍需进一步研究。

放射科医生通常会基于大脑结构和病灶特点手动划分病灶边界,这对医生的临床经验的要求很高,且耗时耗力。因此,研究者们希望通过深度学习实现对脑卒中患者磁共振图像病灶的全自动分割[13-16]。然而,用深度学习实现全自动病灶分割是非常具有挑战性的工作。首先,深度学习训练需要尽可能多的高分辨率磁共振(magnetic resonance,MR)图像,而患者MR图像的获取难度较大,MR设备也比较昂贵。其次,不同患者的病灶形状、位置、大小和数目差异很大,如图1所示,病灶组织的多样性增大了分割难度。最后,病灶组织的边界不够清晰[17],甚至同一位医生对同一位患者前后两次的划分结果都可能有差异,需要反复检查以确保数据标注的质量。

图片

图1   脑卒中患者的T1加权图像示例

国外已有一些综述论文整理和分析了利用深度学习技术检测脑卒中的方法[18-20],但没有专门针对脑卒中病灶分割的详细总结。本文的主要贡献如下:介绍了脑卒中病灶分割的常用公共数据集;对深度学习在脑卒中病灶分割的应用进行了全面梳理,从网络框架、训练策略、损失函数这3个角度出发,对研究进展进行了归纳,并且对比了各种方法的优缺点;阐述了当前面临的困难和挑战,展望了未来的发展方向。

1 公开数据集

为了方便比较各类方法的效果,本节将介绍脑卒中病灶分割的公开数据集。

研究人员通常会招募脑卒中患者参与数据收集活动,这需要耗费大量的时间和资金成本。所以,脑卒中病灶分割的公开数据集较少,已有公开数据集如表1所示。接下来,将从图像预处理和图像标注这两个方面对表1中的数据集进行描述。

表1   脑卒中病灶分割的公开数据集

图片

1.1 缺血性脑卒中病灶分割数据集

缺血性脑卒中病灶分割(ischemic stroke lesion segmentation,ISLES)数据集有多个版本,但只有ISLES 2015–SISS[21]包含临床采集的亚急性缺血性脑卒中患者的影像数据,涉及的MR模态有T2、T1、液体衰减反转恢复(fluid attenuated inversion recovery,FLAIR)和弥散加权图像(diffusion weighted image,DWI)。

(1)图像采集。所有数据都来源于德国,石勒苏益格-荷尔斯泰因大学医疗中心提供了56例病例,慕尼黑工业大学临床教学中心的神经放射科提供了8例病例。这两个中心均配备了3T Phillips扫描仪。

(2)图像预处理。所有图像均做了去头骨处理,并视情况进行位置校正。

(3)图像标注。由经验丰富的医学博士进行病灶标注,主要基于FLAIR图像完成标注,其他模态图像提供辅助信息。

1.2 脑卒中后病灶示踪数据集

脑卒中后病灶示踪(anatomical tracings of lesions after stroke,ATLAS)数据集的MR模态为T1。它有两个版本,首先发布的版本是ATLAS v1.2[22],包含全球11个研究中心的304例病例。然而,基于ATLAS v1.2的大多数方法都没有开源代码,数据划分方式也不一致,训练容易过拟合,泛化性较差。

虽然当前没有公认标准,但ATLAS数据集的作者根据实践经验推断:对于深度学习方法,只有分割结果的Dice系数达到0.85以上,才能证明它是一种可取代人工的全自动分割方法,当前的实验结果与该阈值相差甚远。为了促进基于深度学习的脑卒中病灶分割方法的发展,新版本数据集ATLAS v2.0[23]发布。跟ATLAS v1.2相比,它的数据量更大,并且划分了训练集(公开人工标注)和测试集(不公开人工标注),这样可以帮助研究者开发出鲁棒性和泛化性更强的方法。所有人都可以在网页上用测试集进行性能评估,公平公开地对比各类方法。由于ATLAS v2.0已覆盖ATLAS v1.2,接下来的介绍将围绕ATLAS v2.0展开。

(1)图像采集。数据集由全球33个研究中心的955例病例组成。绝大多数中心都配备了3T扫描仪,涉及的品牌有Siemens、Phillips和GE,型号多种多样(公开文件中有包含数据集信息的excel表格)。

(2)图像预处理。预处理流程包括了去头骨、归一化处理、配准至MNI-152模板空间等,这样的操作便于提升深度学习方法的性能。

(3)图像标注。由8位专家对病灶进行手动分割,共同检查,以控制数据标注质量。

2 深度学习在脑卒中病灶分割的研究

近年来,随着深度学习的快速发展,越来越多的研究者关注深度学习在医学影像上的应用[24-28]。而医学影像分割就是其中一项基础且关键的任务,主要目的是针对医学影像,从像素水平识别出目标器官、组织或病变区域[2931]。深度学习作为临床辅助诊断工具,能够实现病灶的全自动分割,从而减少医生在病灶划分上耗费的时间和精力[32-34]

笔者按时间顺序整理了深度学习应用于脑卒中病灶分割的文献,如表2所示。各类方法在公共数据集上的性能将在第2.4节展示。

表2   深度学习用于脑卒中病灶分割的现有方法

图片

本节对应用于脑卒中病灶分割的深度学习方法进行了全面梳理(如图2所示),从网络结构、训练策略、损失函数这3个角度出发,对研究进展进行归纳。

图片

图2   深度学习在脑卒中病灶分割中的研究方法

2.1 网络结构

随着大规模数据和计算机硬件的飞速发展,深度学习在计算机视觉中的表现受到广泛关注。卷积神经网络(convolutional neural network,CNN)[70]是深度学习的经典结构之一,主要由卷积层、池化层和全连接层组成,具有较好的特征提取、分类能力,常用于目标检测、图像分割等领域。后来,基于语义分割的全卷积神经网络(fully convolutional network,FCN)[71],把CNN的全连接层换成卷积层。

UNet[72]在FCN的基础上提出了编码器—解码器结构的神经网络,编码器用于获取上下文信息、提取特征,解码器用于精确定位,跳跃连接则实现浅层特征和深层特征的融合。目前,UNet是医学影像分割中性能最好、应用最广泛的网络结构[73],大多数用于脑卒中病灶分割的深度学习方法是基于UNet结构展开研究的。

2.1.1 注意力机制

对于不同的中风患者,脑卒中病灶的形状、位置、大小和数目差别较大。经验丰富的医生可以结合图像的多尺度信息综合考虑,但基于FCN的深度学习方法感受野小、缺乏长距离信息,从而忽略了这些差异。注意力机制最初源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注一部分信息,忽略其他可见的信息。随着神经网络的快速发展,注意力机制[27,74]也得到了广泛的应用。简要来说,它是一种通过计算注意力权重、对特征重加权,以强化有效特征、抑制无效特征的嵌入式结构[75]

根据注意力机制应用位置的不同,注意力机制可以分为通道注意力[76]与空间注意力[77]。前者对特征图的各个通道进行加权;后者对特征图的各个像素进行加权,有效弥补了由卷积操作感受野不足导致的全局特征提取能力不足的缺陷。因此,为了充分利用所有像素之间的上下文信息,研究者们根据特定的医学图像分割任务,从注意力机制的角度优化网络结构。

为了在特征图中捕捉更丰富的上下文关系,参照非局部信息统计的注意力机制[78],特征相似度模块(feature similarity module,FSM)[37]被提出。如图3所示,HWC分别代表特征图的高度、宽度和通道数,HW表示reshape操作后,原始的高度和宽度维度被展平为一个单一的维度,卷积(conv)后的“3×3”或“1×1”代表卷积核尺寸,圆圈内的“+”和“×”分别表示逐像素相加和矩阵相乘。特征相似度模块利用3×3卷积把通道数C0压缩为C后,先计算输入特征像素间的特征相似度,由此得到每个像素的全局注意力,然后进行特征重加权。除此之外,还加入了残差连接以保证训练过程的稳定性。

图片

图3   特征相似度模块的结构[37]

与此类似的思路,全局特征注意力模块(global-feature attention block,GA-block)[55]被提出。如图4所示,利用1×1卷积把通道数从C0压缩到C后,先计算输入特征通道间的权重,由此得到每个通道的全局注意力,然后进行特征重加权。除此之外,还加入了残差连接以保证训练过程的稳定性。全局特征注意力模块侧重的是不同通道间特征图的关系,而特征相似度模块侧重的是特征图上各像素点的关系。

图片

图4   全局特征注意力模块的结构[55]

卷积注意力模块(convolutional block attention module,CBAM)[79]结合了空间和通道的注意力机制,通过两个级联的空间和通道注意力模块,提升了全局特征能力,CBAM已在脑卒中分割网络中得到应用[59,65]

粗糙粒度残差学习(coarse-grained residual learning,CRL)模块[64]修正残差连接,令解码器更关注于未预测区域,并抑制大量背景噪声。该模块包含正向注意力(positive attention,PA)单元和逆向注意力(reverse attention,RA)单元两个部分。RA单元抑制已识别的目标信息,减少冗余信息,更有利于网络识别目标的残差特征,从而提高召回率。PA单元首先利用解码器中的粗糙粒度块注意力(coarse-grained patch attention,CPA)[58],获得粗糙粒度的注意力图,并据此增强目标所在区域的特征表示,抑制大量不在目标区域的背景噪声特征,避免了噪声对网络的干扰,降低了错误正样本率。

图5展示了注意力机制和UNet框架的结合形式,将注意力模块嵌入UNet的编码器和解码器之间,便于提取高维特征图像素之间的上下文关系。总的来说,注意力机制通过计算注意力权重、对特征重加权,以达到强化有效特征、抑制无效特征的目的,帮助模型捕捉长距离上下文信息。

图片

图5   注意力机制与UNet框架结合的示意

2.1.2 多尺度特征融合

对于不同的中风患者,病灶大小和形状的差异较大,由此增加了深度学习模型对病灶准确识别、精准定位的难度。针对该问题,利用多尺度特征融合提升模型对病灶分割的预测能力,该思路在医学影像领域应用广泛[80-84]

空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)[85]以不同采样率对特征图进行空洞卷积,然后将结果拼接到一起,最后通过1×1卷积改变通道数,利用多尺度特征来捕捉图像的上下文关系。为了对不同尺度的语义信息进行有效融合,多尺度深度融合网络(multi-scale deep fusion network,MSDF-Net)[40]将空洞空间金字塔池化应用于医学影像分割框架UNet,并将其嵌入UNet结构的编码器和解码器之间。

跨层融合和上下文预测网络(cross-level fusion and context inference network,CLCI-Net)[41]不仅在UNet结构的编码器和解码器之间嵌入了空洞空间金字塔池化,还提出了跨层特征融合(cross-level feature fusion,CLF)策略。跨层特征融合策略指的是在进行下采样操作之前,将每个下采样层的输出与之前所有的特征拼接在一起,该策略可以整合各层特征,增强跨尺度信息之间的联系和互补性。除此之外,还在UNet的跳跃连接环节加入了卷积长短时记忆(ConvLSTM),这样连接浅层位置信息和深层特征信息就能更好地推断上下文关系,从而得到更精细的分割结构。

目前常用的编码器网络往往没有利用足够的深度来获取图像中更深层的语义信息,可能导致小病灶检测失败或病灶边界预测不准确。为了解决该问题,多编码器网络(multiple encoders network,ME-Net)[51]不仅在UNet结构的编码器和解码器之间嵌入了空洞空间金字塔池化,同时提出了残差编码器(如图6所示)用于提取高维度特征。图7展示了ME-Net的整体框架,残差编码器会生成4个特定尺寸的特征图,通过跳跃连接组合不同尺度的特征图,拼接后输入解码器进行上采样。与此类似,METrans[59]利用4种不同尺度的编码器来提取多尺度特征,再将特征图馈送到Transformer中进行全局特征建模,以克服UNet无法建模长距离上下文信息的缺点。

图片

图6   残差编码器的结构[51]

图片

图7   多编码器网络的结构[51]

多尺度特征融合的优点是在不增加过多模型参数的前提下扩大了感受野,提升模型对病灶分割的预测能力。

2.1.3 2D和3D网络相结合

在同等数量的医学影像条件下,跟3D网络相比,2D网络的模型参数较少,但特征提取过程中缺乏3D空间信息;而3D网络能够捕捉图像的3D空间信息,但模型参数较多,样本数量较少[54,86]。为了同时利用2D和3D网络的优点,研究者们考虑将两者结合起来,共同处理医学影像。

一种常见思路是使用2D网络和3D网络共同构成2.5D网络[87-90]。为了在编码器阶段融合2D和3D网络的特征图,特征融合U型网络(dimension-fusion U shape network,D-UNet)[38]被提出。图8展示了D-UNet的整体框架,主干仍为2D UNet,在此基础上增加3D编码器,还设计了维度转换(dimension transform)模块,专门用于融合2D编码器和3D编码器输出的特征图。与此类似的方法还有特征融合边界引导网络(dimension fusion edge guided network,DFENet)[49]以及AGMR-Net[58]中的维度特征融合(cross-dimensional feature fusion,CFF)模块。

图片

图8   特征融合U型网络的结构[38]

另一种思路是把2D和3D网络分别用于预测过程的不同阶段[39,44]。比如,为了丰富模型的输入信息,多路径2.5D卷积神经网络[39]先对切片做9种不同的预处理(在轴状面、矢状面和冠状面方向上的3种预处理方法),分别输入9个2D UNet,然后对9个2D UNet输出的2D特征图做方向校正,拼接为3D特征图,最后用3D CNN做最终预测,如图9所示。除此之外,还有人提出2D+3D CNN方法[44],先用3D UNet提取空间信息来获取病灶概率图,然后和2D切片一起输入2D UNet,最终得到预测结果。

图片

图9   多路径2.5D卷积神经网络的结构[39]

总之,2D和3D网络结合的目的是利用二者的优点,在模型参数尽量少的前提下捕捉3D空间信息。

2.1.4 优化网络模块

除此之外,还有人通过优化网络模块来提升模型的性能,比如残差连接[91]能够解决深层网络中梯度消失、梯度爆炸等问题,提升网络的表征能力[92]。uResNet[35]和Res-FCN[36]都是利用残差连接来优化卷积模型。以uResNet[35]为例,它以UNet为基础框架,通过残差连接(如图10所示)改善卷积模块。

图片

图10   残差模块的结构[35]

CNN虽然通过卷积和池化解决了平移不变性问题,在一定程度上解决了旋转、放缩不变性问题,但是池化操作后多个规律分布的特征值变为一个特征值,不仅特征表达量减少,而且原特征值之间的相对位置关系被打破。如果对象发生旋转,则原已训练好的权重矩阵将不再完美适用。针对该问题,MUDCap3[46]以3D UNet为框架,用胶囊网络[93]替代卷积层和池化层。胶囊网络需要的训练数据较少,能提供等变映射使位置和形状信息得以保存,有利于图像分割。

STHarDNet网络[56](如图11所示)以UNet为整体框架。为了降低内存占用,用HarDNet[57]模块代替卷积模块。HarDNet基于DenseNet[94]做了连接稀疏化处理。同时,为了提取层次特征图和上下文关系,在跳跃连接的基础上加入了包含滑窗操作、具有层级设计的Swin Transformer[95]

图片

图11   STHarDNet的结构[56]

MLiRA-Net[61]将Transformer中的自注意力模块做了适当变形,设计多尺度长距离区域关注(multi-scale long-range and regional attention,MLiRA)模块,并将其引入分割网络的编码器中,以在多尺度层面提取全局信息。

2.1.5 小结

一是注意力机制分为通道注意力和空间注意力,它通过计算注意力权重、对特征重加权,达到强化有效特征、抑制无效特征的目的,从而捕捉长距离上下文信息。不过,注意力机制对样本数据量的要求比CNN更高,不适用于小样本数据。

二是多尺度特征融合利用空洞空间金字塔池化等模块嵌入UNet结构,扩大模型的感受野,从而提高预测能力。然而,空洞卷积对分割小病灶的提升效果不明显,甚至造成信息冗余。

三是将2D和3D网络结合,便于利用二者的优点,不过结合方式可以朝着模型轻量化的方向进一步优化。

四是借鉴ResNet[91]、Swin Transformer[95]等算法来优化UNet网络模块。在以增加模型参数为代价换取性能提升的过程中,需要考虑设备要求和计算量。

2.2 训练策略

除了网络结构,研究人员在训练策略方面也做了许多努力。在不改变网络结构的情况下,数据扩增、增加先验知识、优化训练流程和后处理也能提升模型的预测性能。

2.2.1 数据扩增

医学影像数据不如自然图像那么容易获取,尤其是患者的数据,而样本数据量不足会直接导致模型的性能不佳,所以数据扩增是有效的方法之一。常见的数据扩增方式有平移、旋转等,这类方法对医学影像不一定有效。由于大脑组织结构的复杂性和边界模糊性,对MR脑影像做数据扩增并不是一件容易的事[96-97]

在自然图像领域,Mixup[98]是一种对图像进行混类增强的算法,它用两张图像和对应的标注做线性组合,并且组合是随机的。Cutmix[99]是基于Mixup改进的非线性组合方法,它不是对两张图像进行样本插值,而是从图像的空间角度出发,把一类图片上的某个区域做随机矩形框裁剪,然后拼接到另一类图片上,标注的处理和Mixup一致,按照合成图像中两张图像所占的比例进行混合标注计算。

根据这样的思路,CarveMix[62]被提出,用于脑卒中患者MR脑影像的数据扩增(如图12所示)。第一步,根据带标注样本a的病灶位置和形状,用概率分布采样得到感兴趣区域(region of interest,ROI)。第二步,取另一带标注样本b,ROI二值图、ROI二值互补图分别与样本a、样本b的影像做像素级别的点乘运算,最后相加,生成新样本c。第三步,ROI二值图、ROI二值互补图分别与样本a、样本b的病灶标注做像素级别的点乘运算,最后相加,生成新样本c的病灶标注。

图片

图12   CarveMix的流程[62]

受到人类大脑“伪对称”的形状特点的启发,文献[68]提出了一种简单而有效的数据增强方法——对称启发数据增强(symmetry-inspired data augmentation,SIDA),可以在减半内存消耗的同时,将样本大小增加一倍。

2.2.2 增加先验知识

由于病灶分割跟脑组织结构有较强关联,病灶区域的信号强度值也显示异常,研究人员基于这些特点给网络输入增加先验知识,降低病灶分割的难度,从而提升性能。

MI-UNet [42]利用大变形微分同胚度量映射(large deformation diffeomorphic metric mapping,LDDMM)算法[43]对MR脑影像做组织解剖分割,将其跟磁共振脑影像作为UNet的输入,能够显著提升模型性能。类似地,文献[52]将一组健康被试的图像配准至患者的图像空间,为每个体素提供正常组织的参考强度值,由此得到异常分数图谱,这些图谱可以作为先验知识输入分割网络,帮助网络预测病灶区域。

有一种常用于分析MRI的预处理方法[100-102]——变分模态分解(variational mode decomposition,VMD),能够通过求解频域变分优化问题估计各个信号分量。文献[50]提出用VMD做预处理,区分可能的病灶区和非病灶区,帮助去除不必要的信息,然后用3D UNet做病灶分割。

总之,先验知识能够在不增加模型复杂度的前提下,降低模型的预测难度。不过,准确的先验知识获取难度较大。

2.2.3 优化训练流程

除此之外,也可以优化训练流程,充分发挥网络模型的作用,达到更好的预测效果。如图13所示,文献[34]利用两个不同的网络模型EDD Net和MUSCLE Net进行脑卒中病灶分割,先将图像输入EDD Net得到初步的分割结果,再将原图像和初步的分割结果输入MUSCLE Net得到进一步细化的分割结果,最后对EDD Net和MUSCLE Net输出的分割结果进行增强,得到最终预测结果。

图片

图13   卷积神经网络系统的流程[34]

文献[45]使用的网络模型是3D残差卷积网络,采用了“放大&缩小训练策略”,即先在小体积数据集上训练模型,然后在大体积数据集上对模型进行微调。该训练策略的优点是在放大阶段从原始立体影像中随机提取不同的小体积数据,相当于数据扩增,这样小体积数据可以产生正则化效果;缩小阶段的模型输入是大体积数据,便于模型学习到更广泛的背景,同时提高模型的鲁棒性。

多任务学习也可以在中风病灶分割中发挥作用[47],主要任务是图像重建和图像分割,所用的网络模型分别是D5C5[103]和UNet。在此基础上,又设计了动态重加权损失约束,以保持重建任务和分割任务的平衡。多任务的目的是缓解分割模型在训练数据上过拟合的问题,从而提升模型性能。

传统方法将脑卒中病变定义为一个区域,而不是区分中风影响区域(stroke-affected region)和脑脊液(cerebrospinal fluid,CSF),这可能会影响游治疗效果。文献[65]将中风影响区域定义为常规定义病变的详细子区域,并根据大脑连通性将原始分割图细致化为8个子类:大脑灰质、非皮质区(大脑白质和皮层下)、小脑灰质、小脑白质、CSF(CSF+脑室+卒中后脑脊液空化)、颅骨、皮肤、中风影响区域。该文献将分割任务与是否发生病变这一分类任务结合,以提高检测准确率。

脑卒中分割和脑梗死溶栓(thrombolysis in cerebral infarction,TICI)评级是辅助诊断中风的两个重要但具有挑战性的先决条件。然而,大多数研究只关注两个任务中的一个,没有考虑它们之间的关系。SQMLP-net[66]同时进行脑卒中病变分割和TICI评级,用一个单输入双输出的网络处理这两个任务间的相关性和异质性。

镜像差异感知网络(mirror difference aware network,MDAN)[53]利用了大脑“伪对称”的形状特点。如图14所示,首先,基于UNet结构的Siamese编码路径把原始图像和翻转图像作为输入,然后,用Siamese对比监督损失和基于镜像位置的差异扩增(mirror position-based difference augmentation,MDA)模块进一步处理编码后的特征图,目的是通过增强特征的不对称性来检测异常区域。为了更好地将精细的对称性特征传递到解码器,每个阶段都使用了镜像特征融合(mirror feature fusion,MFF)模块,最后输出预测结果。

图片

图14   镜像差异感知网络的流程

W-Net[67]拥有一个双阶段网路架构,第1个阶段利用CNN的局部信息提取能力获得大致的病变分割图,第2个阶段利用transformer的强大全局上下文建模能力对边界进行细致分割。为了更好地对边界进行分割,W-Net还设计了两个边界提升模块,即边界变形模块(boundary deformation module,BDM)和边界约束模块(boundary constraint module,BCM),来应对模糊边界的苛刻条件。BDM利用循环卷积对初始边界进行校正,BCM利用多尺度空洞卷积对目标边界进行动态约束。

优化训练流程虽然能够提升模型性能,但通常会引入更复杂的网络结构和训练步骤,如何尽量减少计算量和时间消耗也是需要考虑的问题。

2.2.4 后处理

后处理的目的是使预测的连接部件数量与真实连接部件数量相匹配。考虑到ATLAS数据集中大病变的连接部件数量相较于小病变更多,MAPPING[60]提出的后处理策略,首先通过消除最大概率小于0.7的小连接组件来减少小病变的连接组件数量。然后,再通过对较大的病变应用高阈值(0.55)将连接组件分成几个部分。实验结果显示这种后处理策略能提高测试集上的评估指标。

2.2.5 小结

一是数据扩增能够扩充训练样本,对模型训练有直接帮助。然而,要注意:跟自然图像相比,医学影像的组织结构更复杂,边界更模糊。

二是先验知识不会增大模型复杂度,又能降低预测难度。不过,如何保证先验知识的高质量是值得考虑的问题,否则会给模型带来错误的引导。

三是优化训练流程同样能提升模型的预测能力。然而,最佳实践是在训练流程变得复杂时,尽量保持测试阶段的简洁。

四是后处理对分割结果也有相当大的影响。

2.3 损失函数

除了网络结构、训练策略,所使用的损失函数对模型性能也有影响。本节将介绍脑卒中病灶分割中常用的损失函数及其组合。

2.3.1 戴斯损失函数

戴斯(Dice)损失主要为了解决语义分割中正负样本极度不平衡的问题。然而,如果正样本为小目标,则会产生严重的震荡,因为在只有前景和背景的情况下,一旦对小目标的部分像素预测错误,那么损失函数的值将大幅变动,从而导致梯度变化剧烈。

Dice损失计算的就是1-Dice系数,如式(1)所示:

图片

(1)

其中,pij∈{0,1}代表第i行、第j列像素的实际标注;图片∈[0,1]代表第i行、第j列像素的病灶预测概率;w×h代表输出尺寸;分母上的ϵ=10-5用于防止分母为0;当实际标注无病灶且预测完全正确时,分子上的ϵ用于使图片

2.3.2 Dice损失和其他损失结合

(1)与二元交叉熵损失的结合

二元交叉熵(binary cross entropy,BCE)损失逐个检查每个像素,将每个像素类别的预测结果(概率分布向量)与独热编码标签向量进行比较,可用于大多数语义分割场景中。但它有一个明显的缺点:在只需要分割前景和背景的情况下,如果前景像素的数量远远小于背景像素(归属于正负样本的像素极度不平衡),就会使得模型严重偏向背景,导致分割效果不佳。BCE损失计算式如下:

图片

(2)

因此,研究人员考虑将Dice损失和BCE损失等权重相加,在正负样本不平衡的情况下,可以相互弥补局限性[42,48,53,55-56]

(2)与边界损失的结合

针对Dice损失和BCE损失对语义分割中正负样本不平衡比较敏感的问题,边界损失函数[104]被提出,目的是最小化实际标注和预测分割的边界之间的距离。

G表示二维空间Ω中实际标注的二值图像,∂G表示它的边界,qn表示第n个像素在二维空间Ω中的位置,水平集ϕGΩR,如式(3)所示。

图片

(3)

式中,DGΩ→R+用于评估qn和∂G上最近距离点z∂G的欧几里得距离。欧几里得距离的计算方式是D(qn)=||qn 图片z∂G||2

将边界损失函数视作∂G的加权平均,其计算式如下:

图片

(4)

式中,N表示二维空间Ω中点的个数,sθ(·)表示参数为θ、输出为概率值的分割网络。

所以,有人将Dice损失和边界损失结合使用,以克服Dice损失对正负样本不平衡比较敏感的问题[44,67]

(3)与实例级损失的结合

病灶分割任务存在严重的实例不平衡问题,即较大的实例支配较小的实例。文献[63]将Dice损失与实例级和实例中心(instance-wise and center-of-instance,ICI)损失结合,以减轻实例不平衡问题。

ICI损失受blob损失[105]与LesLoss[106]启发,由实例级损失与实例中心损失这两部分组成。用yc表示二维空间Ω中实际标注针对类别c的二值图像,图片表示分割网络针对类别c的预测输出。首先使用连接组件分析(connected component analysis,CCA)从yc图片中分别提取单个实例,提取到的连接组件分别表示为图片图片,其中n表示组件序号。

实例级损失通过比较每个真实实例和与该真实实例相交的预测实例,评估每个实例的分割质量,如式(5)所示:

图片

(5)

其中N表示图像中真实实例的总数,M表示预测输出中实例的总数,图片表示空集。

实例中心损失度量标准化实例的分割质量,其中每个实例的大小和形状根据质心归一化为正方形(2D)或立方体(3D),记为C(I,δ)。标准化尺寸由参数δ控制,默认为1。具体计算式如下:

图片

(6)

式(5)和式(6)中图片可以是任意的分割损失,如Dice损失或焦点(focal)损失[107]

(4)与目标感知损失的结合

为了减轻正负样本不平衡的问题,各种目标感知损失函数被提出。加权交叉熵[108]对正样本损失进行加权,当权重α>1时,可以减少错误负样本的数量;当权重α<1时,可以减少错误正样本。平衡交叉熵[109]额外对负样本损失给予权重,用于调整错误正样本率和错误负样本率。基于平衡交叉熵,focal损失[107]进一步提出了动态权重γ,使得简单样本的损失变小,而困难样本的损失变大,增加了对困难样本的关注,使模型更多地集中在困难样本的学习上。

然而,以上损失仅考虑正样本、不考虑负样本,会导致召回率和准确率不平衡。TSRL-Net[64]提出了一种新的目标感知损失,通过调节聚焦因子来扩展聚焦样本区域,其中原本只需要聚焦正样本的聚焦区域被扩展为包括部分负样本。聚焦样本区域A的计算式如下:

图片

(7)

其中,β表示聚焦因子,g表示真实分割图,m,n∈[0,β),x,y∈[0,H/β),H表示图像高度。关注聚焦区域内所有样本的损失,可以在强烈关注正样本损失的同时,高度关注少量的负样本损失,以平衡准确率与召回率。该损失计算式如下:

图片

(8)

其中,α表示针对聚焦样本的损失权重,设置成大于0.5以更关注聚焦区域,γ∈[0,5)调控对困难样品和简单样品的平衡程度,N表示图像中样本点的总数,p表示预测的分割概率图。

2.3.3 小结

一是单一损失函数使用的是Dice损失,它是最常用的分割损失,不过在训练过程中,小病灶分割会影响损失函数的稳定性。

二是多损失结合能够帮助克服Dice损失的缺点,然而,各个损失函数的权重设置有待研究。对于不同的任务,最佳权重可能不一样。

2.4 各类方法性能对比

在介绍完各类方法后,笔者在表3中对比了主要方法在公共数据集上的性能。Multi-path 2.5D CNN[39]和Fine-grained segmentation[65]在实现过程中使用了外部数据,因此他们的受试者个数n由两部分组成:公共数据集受试者个数与外部数据集受试者个数,用“+”来分隔。METranse[59]的Dice系数远高于其他方法,可能是全局Dice系数。

表3   深度学习用于脑卒中病灶分割的现有方法在公共数据集上的性能对比

图片

由于那些基于ATLAS数据集的文献未明确指出训练集和测试集的划分方式,表3无法提供详细的数据划分信息。虽然各文献数据集划分方式不同,不同方法的结果不具备直接可比性,但是笔者还是给出了对应的实验结果,以提供一定的参考。可以看到,那些使用k折交叉验证的方法的实验结果差异较小,具有一定的比较价值。

对于定性结果,在调研了大量文献后,笔者发现很难找到覆盖度较广的实验结果,各文献所选的实例不一样,格式也不一样,难以总结,所以没有展示这个结果。

此外,基于深度学习的脑卒中病灶分割方法还有较大提升空间。第3节将介绍该任务的挑战以及潜在的解决方案。

3 挑战与展望

虽然深度学习在脑卒中病灶分割方向上具有广阔的应用前景和良好的潜力,但目前仍有许多未解决的困难。

3.1 病灶的多样性

对于不同患者,病灶的形状、位置、大小和数目各不相同(如图1所示),在样本稀缺的情况下,病灶的多样性会大幅提升模型的训练难度。

图15显示了ATLAS v1.2数据集中各中心病变大小的分布情况。从之前的研究[42,45,68]的实验结果可以发现,不管如何优化损失函数、网络结构和优化算法,模型在包含大量小病灶的中心(如中心8)上的表现总是较差。对于大病灶,模型更容易获得较高的Dice系数。

图片

图15   9个中心的病灶大小分布(纵轴代表所占比例)。小病灶:小于1×10体素;中病灶:1×10至5×10体素;大病灶:大于5×10体素。图片来自文献[68]

针对该问题,可以考虑数据扩增策略。旋转、翻转、平移、缩放或剪裁等传统数据扩增策略很难保持医学影像的形态特点,最好是设计更适合医学影像的扩增方式。比如,使用生成对抗网络[110-111]形成接近真实的样本数据:用生成模型捕捉真实样本的分布,根据分布由随机噪声生成假样本,判别器用于判别输入样本的真假;生成器和判别器通过不断地对抗训练,在提升判别器的辨别能力的同时,也帮助生成器产生更像真实样本的假样本。

3.2 病灶的边界模糊性

对于病灶分割而言,边界划分尤为重要。而医学影像中组织纹理复杂,磁共振图像容易产生伪影,所以病灶边界通常比较模糊,不易辨别。

针对该问题,可以设计跟边界相关的损失函数[104],在损失优化过程中提高模型对边界的注意力,从而帮助模型更准确地划分病灶边界。除此之外,额外采集健康被试的医学影像,将其映射到标准空间作为正常组织的参照,模型预测出异常病灶后,还可以根据患者与健康被试的图像的强度差,估算预测病灶的边界不确定性,帮助医生更精确地发现病灶。

3.3 数据集标注难度大

目前,病灶分割的黄金标准是临床医生的手动标记,这项工作需要丰富的医学经验。而大多数专业医生需要在一线筛查和诊疗患者,这就导致了医学影像标记难度较大。

针对该问题,可以考虑结合半监督学习[112-113]和对比学习[114],利用少量的标记数据和大量的未标记数据来训练模型。先利用未标记数据做预训练,把未标记原数据对应的两种扩增结果看作相似的正样本对,而将原数据和其他数据看作不相似的负样本对,用正负样本对帮助网络学习图像的高阶特征,再利用已标记数据做有监督学习,对网络进行微调,从而提升网络的分割能力。

在脑卒中病灶分割任务上,已有相关研究利用无监督学习[115]、弱监督学习[116]或半监督学习[117]来解决这一问题。

3.4 不同中心的影像分布差异大

机器学习模型表现好的前提假设是所有数据分布一致,而不同的MR扫描仪、扫描序列和种群都会导致影像数据分布存在差异。在这种情况下,提升模型的泛化性也是一大难题。表4列出了ATLAS v1.2数据集的数据来源,可以看到各中心间存在巨大差异。首先,9个影像中心涵盖4个国家8个城市,不同人口的血管区域不同。其次,不同中心采用不同的3T磁共振扫描仪采集。第三,也是最重要的一点,即使使用同一台扫描仪,也可能使用不同的成像协议。这些因素导致在不同中心间进行泛化存在巨大难度。在ATLAS R2.0版本中,随着数据量的增加,引入更多的影像中心,使泛化问题变得更加困难。

表4   ATLAS v1.2数据来源(来自文献[68])

图片

针对该问题,可以将领域自适应[118-120]、元学习[121-122]与脑卒中影像分割结合。比如,在训练阶段加入判别器,源域数据和目标域数据被同时输入编码器,判别器对编码器输出的特征图进行分类;编码器和判别器通过不断地对抗训练,对齐源域和目标域的特征图,使得模型与目标测试数据的分布相匹配[123]。元学习使模型获取调整超参数的能力,可以在训练数据的基础上快速适应与训练数据分布不同的新数据[124-125]

已有工作针对这一问题做出改进,可以利用留一域法[126]对模型在未知域上的泛化能力进行验证。受传统z-score归一化[127]和动态网络[128]的启发,SAN-Net[68]设计了一种掩码自适应实例归一化(masked adaptive instance normalization,MAIN)算法,通过动态学习输入的仿射参数,将来自不同域的输入MR图像标准化为与域无关的样式,以减少域间的差异。SAN-Net[68]还利用梯度反转层(gradient reversal layer,GRL)[129-130]迫使UNet编码器使用域分类器学习域不变表示,以进一步提高模型泛化能力。同样受传统z-score归一化[127]的启发,FAN-Net[69]提出基于傅里叶的自适应标准化(fourier-based adaptive normalization,FAN)模块,针对不同域的频域幅度分量进行自适应仿射参数学习,对源图像的风格信息进行动态归一化,以提高模型泛化能力。

3.5 保护患者的数据隐私

医学影像数据有限,常常需要结合多中心数据进行模型训练。由于严格的法律和伦理要求,患者隐私保护问题同样限制了医学影像的发展,阻碍了深度学习在脑卒中病灶分割中的广泛应用。

针对该问题,可以考虑将联邦学习用于医学影像[131-133]。联邦学习主要包含服务端和客户端两部分,客户端指的是各地医疗中心,客户端数据仅留在本地训练,训练得到的模型梯度或模型参数传输至服务端,这样就能在保护患者隐私的前提下生成全局模型。在此基础上,联邦学习与元学习[122]或领域自适应[134]的结合也是方向之一,既能保护患者隐私,也能提升病灶分割模型的泛化性。另外,也可以将联邦学习和多任务学习[135]结合,多任务可以包括重建、分割等,从而达到相互补充、提高网络特征提取能力的效果。

3.6 临床部署设备不足

一般来说,模型复杂度越高,其拟合能力越强,但较大模型的运行过程会占据更多的内存、显存,给计算设备带来过大的负担。大多数医院部署设备不足,大模型的计算效率低下,这是深度学习在脑卒中病灶分割领域进行临床应用时必须考虑的实际问题。

针对该问题,可以考虑模型压缩[136],包含剪枝、知识蒸馏、结构重参数化等。以知识蒸馏[137-138]为例:先构建一个轻量化小模型,利用性能更好的大模型的监督信息来训练这个小模型,使小模型达到更好的性能和精度。还可以借鉴RepVGG[139],训练阶段使用较复杂的多分支模型,测试阶段把多分支模型的参数等价转换成单分支模型的参数,为临床部署减轻负担。

3.7 结合先进的分割框架

近年来,各种分割框架在医学图像分割任务中取得了令人满意的结果,如利用扩散模型产生既准确又多样的分割结果[140-142];建立通用的医学图像分割模型,应对单一任务数据缺乏的问题[143-145]。如何将这些优秀的框架应用于脑卒中病灶分割的任务,需要进一步考虑。

4 结束语

深度学习对于脑卒中病灶分割的研究具有重要的意义和价值。本文先介绍了脑卒中病灶分割的公共数据集;然后,从网络框架、训练策略、损失函数这3个角度出发,分析了深度学习在脑卒中病灶分割领域的研究进展;最后,讨论了该领域面临的困难和挑战,展望了未来的发展趋势。

综上所述,深度学习为解决脑卒中病灶分割问题提供了全自动化的新技术,有很强的发展潜力,但要将其应用到医学临床应用中,仍存在很多问题。如何在保护患者隐私的前提下,提升模型的预测能力和泛化能力,值得我们思考和挖掘。

引用本文

余唯一,陈涛,张军平等.基于深度学习的MRI脑卒中病灶分割方法综述[J].智能科学与技术学报,2023,05(03):293-312. YU Weiyi,CHEN Tao,ZHANG Junping,et al.A survey of deep learning-based MRI stroke lesion segmentation methods[J].Chinese Journal of Intelligent Science and Technology,2023,05(03):293-312.

作者简介

     余唯一(1998- ),女,复旦大学类脑智能科学与技术研究院硕士生,主要研究方向为深度学习和医学图像处理。 

     陈涛(1999- ),男,复旦大学类脑智能科学与技术研究院博士生,主要研究方向为深度学习和医学图像处理。 

     张军平(1970- ),男,复旦大学计算机科学技术学院教授、博士生导师,主要研究方向为机器学习、智能交通、生物认证与图像识别。 

     单洪明(1990- ),男,复旦大学类脑智能科学与技术研究院青年研究员、博士生导师,主要研究方向为机器学习和医学影像。 

(点击阅读原文阅读及下载本文)

· 关于《智能科学与技术学报》·

智能科学与技术学报》(季刊,www.cjist.com.cn)是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国自动化学会学术指导,北京信通传媒有限责任公司出版的高端专业期刊,面向国内外公开发行。

《智能科学与技术学报》被中国科技核心、CSCD核心库、Scopus、EBSCO、DOAJ 数据库,乌利希国际期刊指南收录。《智能科学与技术学报》将努力发展成国内外智能科学与技术领域顶级的学术交流平台,为业界提供一批内容新、质量优、信息含量大、应用价值高的优秀文章,促进我国智能科学与技术的快速发展贡献力量。

图片



https://blog.sciencenet.cn/blog-3472670-1422696.html

上一篇:[转载]平行夏尔希里:生态资源智能管护及其可持续发展新途径
下一篇:[转载]群视角下的多智能体强化学习方法综述
收藏 IP: 101.40.169.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-18 14:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部