|
引用本文
方超伟, 李雪, 李钟毓, 焦李成, 张鼎文. 基于双模型交互学习的半监督医学图像分割. 自动化学报, 2023, 49(4): 805−819 doi: 10.16383/j.aas.c210667
Fang Chao-Wei, Li Xue, Li Zhong-Yu, Jiao Li-Cheng, Zhang Ding-Wen. Interactive dual-model learning for semi-supervised medical image segmentation. Acta Automatica Sinica, 2023, 49(4): 805−819 doi: 10.16383/j.aas.c210667
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210667
关键词
半监督学习,医学图像分割,双模型交互学习,平均教师
摘要
在医学图像中, 器官或病变区域的精准分割对疾病诊断等临床应用有着至关重要的作用, 然而分割模型的训练依赖于大量标注数据. 为减少对标注数据的需求, 本文主要研究针对医学图像分割的半监督学习任务. 现有半监督学习方法广泛采用平均教师模型, 其缺点在于, 基于指数移动平均(Exponential moving average, EMA)的参数更新方式使得老师模型累积学生模型的错误知识. 为避免上述问题, 提出一种双模型交互学习方法, 引入像素稳定性判断机制, 利用一个模型中预测结果更稳定的像素监督另一个模型的学习, 从而缓解了单个模型的错误经验的累积和传播. 提出的方法在心脏结构分割、肝脏肿瘤分割和脑肿瘤分割三个数据集中取得优于前沿半监督方法的结果. 在仅采用30%的标注比例时, 该方法在三个数据集上的戴斯相似指标(Dice similarity coefficient, DSC)分别达到89.13%, 94.15%, 87.02%.
文章导读
卷积神经网络已经在图像分类[1-3]、目标检测[4-6]、图像分割[7-9]等视觉计算机任务中取得了显著的成功. 虽然通过利用精细标记的数据进行全监督训练, 卷积神经网络在多种医学图像分割任务(如神经元结构、息肉、肝脏、胰腺分割等)中已取得了非常高的性能[10-13], 但是全监督训练需要大量的像素级标注数据. 对于自然图像语义分割任务而言, 其像素级标签可通过非专业人士进行标注, 但在医学图像分割中, 采集精确的像素级标签需要医学专家花费大量的时间进行标注, 因此医学图像标注数据的获取往往成本更加昂贵且耗时. 除此之外, 由于不同病例样本的病灶区域、器官等形状差异大, 对模型泛化性能提出更高的要求. 为降低标记成本、提高模型的泛化能力, 近年来, 研究人员尝试利用较少的标记数据建立高性能的医学图像分割模型, 比如自监督[14]、弱监督[15-17]、域适应[18-19]、半监督[20-22]等方法. 本文主要研究半监督医学图像分割, 即利用少量的标记数据和大量的未标记数据学习分割模型, 获得高质量的分割结果.
近期提出的许多半监督学习方法主要可以分成单模型[23-27]和平均教师模型[21, 28-29]两类方法. 单模型方法主要利用一致性约束或对抗训练来学习无标注数据的信息. 基于对抗训练的单模型方法[23, 25-26]将分割模型当成生成器, 并构建判别器用于区分生成的分割掩膜和真实的分割掩膜, 生成器和判别器之间的对抗学习使得分割结果服从真实掩膜的形状分布. 但对抗学习通用性不好, 尤其是对目标形状多样化较高的分割任务. 如图1(c)所示, 基于一致性约束的单模型方法[24, 27, 30-31]在输入层或者特征层引入扰动, 这样对同一个无标签样本实施两次前向传播会得到两个不同的预测结果, 最后在两个预测结果之间施加一致性正则, 即两个预测结果尽可能保持一致. 但是单模型在训练集上的学习能力有限, 当模型学习能力趋于饱和状态时, 单模型会保留认为“正确”的错误预测信息, 因此单模型一致性对错误预测的纠正能力弱. 在此基础上, 为提高模型对错误预测的纠错能力, 更多学者将注意力集中到了如图1(b)所示的平均教师模型方法上[21, 28, 32], 在该方法中, 通常创建两个角色: 老师模型和学生模型(即师生结构). 具体地, 平均教师模型的通常做法是: 1)对学生的输入层或特征层加入小扰动(如高斯噪声); 2)在学生和老师模型的预测之间施加一致性约束. 在平均教师模型参数更新过程中, 老师模型参数由学生模型参数的指数移动平均(Exponential moving average, EMA)生成. 然而, 随着迭代次数的增加, 指数移动平均的更新方式导致老师模型累积学生模型所学到的所有知识, 而对错误知识的累积不能保障老师模型为学生模型提供更好的监督信息, 因此阻碍了学生模型的进一步优化.
图 1 模型框架的对比图 ((a)基于双模型交互学习的半监督分割框架; (b)基于平均教师模型[22]的半监督分割框架; (c)基于一致性约束的单模型半监督分割框架. 实线箭头表示训练数据的传递和模型的更新, 虚线箭头表示无标注数据监督信息的来源)
为解决上述问题, 受双学生分类模型[25]的启发, 提出了基于双模型交互学习的半监督医学图像分割方法(图1(a)). 首先, 两个模型各自受约束于有标注数据的全监督损失. 其次, 在模型对图像不同变体(即原图和被噪声干扰后的图像)的预测之间增加无监督一致性约束, 以充分利用训练数据, 尤其是无标注图像. 最后, 考虑到双模型的容错性较强, 在两个模型之间构建了相互学习机制, 并引入基于像素稳定性判断的伪标签筛选策略, 利用一个模型中更稳定的像素信息去监督另一个模型. 对比图1(a)、图1(b)和图1(c)可知, 双模型既保证了单模型一致性正则化方法的学习能力, 又通过相互监督学习弥补了单模型纠错能力不足的问题; 同时, 不同于平均教师模型中的EMA更新方式, 在训练时双模型相互为对方提供无标注数据的监督信息, 同时稳定像素的筛选阻断了错误监督信息的传递和累积. 因此, 本文的主要贡献有: 1)提出了一个面向医学图像分割的双模型交互学习模型; 2)为减少多个模型之间误差的传播和累积, 基于U-Net网络框架[11]设计算法用于鉴定并筛除预测结果不稳定的像素; 3)经大量实验验证, 所提出的方法在心脏结构分割[33]、肝脏肿瘤分割[34]和脑肿瘤分割[35]三个数据集中取得优于前沿半监督方法的结果. 在30%的标注下, 本文方法在三个数据集上的戴斯相似指标分别达到89.13%, 94.15%, 87.02%.
图 3 在 CSS 数据集中, 双模型与其他半监督方法分割结果图, 图中黑色区域代表背景, 深灰色区域代表左室腔,浅灰色区域代表左室心肌, 白色区域代表右室腔
图 4 在训练过程, 平均教师模型和双模型的输出结果对比图
在本文中, 针对半监督医学图像提出了一个双模型交互学习方法. 每个模型自身充分学习标签数据和无标签数据中的知识. 除此之外, 为提高对无标签数据的伪标质量, 在双模型之间引入双模型交互学习, 通过一个模型学习另一个模型中更稳定的像素信息. 对比实验证明, 本文提出的双模型在医学图像分割任务上展现了优于前沿半监督方法的分割性能. 在验证模型数量对分割性能影响的消融实验中, 本文发现当模型数量继续增加时, 分割结果没有得到提升, 此时模型预测达到饱和状态. 在未来工作中, 继续将探索无标签数据的知识和生成高质量伪标签作为我们的主要研究任务. 在双模型中, 可以考虑对无标签数据集或者特征层引入不同的数据增强, 在数据增强的辅助下, 在双模型的交互学习中引入不同的约束能否提高模型的分割性能是值得探讨的.
作者简介
方超伟
西安电子科技大学人工智能学院讲师. 2019年获得香港大学博士学位, 2013年获得西安交通大学学士学位. 主要研究方向为图像处理, 医学影像分析, 计算机视觉, 机器学习. E-mail: chaoweifang@outlook.com
李雪
西安电子科技大学机电工程学院硕士研究生. 2020年获得西安理工大学自动化学院学士学位. 主要研究方向为医学影像分析, 计算机视觉. E-mail: lixue@stu.xidian.edu.cn
李钟毓
西安交通大学软件学院副教授. 2018年获得美国北卡罗来纳大学夏洛特分校博士学位, 2015年和2012年分别获得西安交通大学硕士和学士学位. 主要研究方向为计算视觉, 医学影像分析. E-mail: zhongyuli@xjtu.edu.cn
焦李成
西安电子科技大学智能感知与图像理解教育部重点实验室教授. 1982 年获得上海交通大学学士学位, 1984年和1990年分别获得西安交通大学硕士和博士学位. 主要研究方向为图像处理, 自然计算, 机器学习和智能信息处理. E-mail: lchjiao@mail.xidian.edu.cn
张鼎文
西北工业大学脑与人工智能实验室教授. 2018年获得西北工业大学博士学位. 主要研究方向为计算机视觉和多媒体处理, 显著性检测, 视频物体分割和弱监督学习. 本文通信作者.E-mail: zhangdingwen2006yyy@gmail.com
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 01:14
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社