IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

一种鲁棒的基于对抗结构的生物特征ROI提取方法

已有 1249 次阅读 2023-7-6 15:56 |系统分类:博客资讯

引用本文

 

刘凤, 刘浩哲, 张文天, 陈嘉树, 沈琳琳, 王磊. 一种鲁棒的基于对抗结构的生物特征ROI提取方法. 自动化学报, 2023, 49(6): 13391353 doi: 10.16383/j.aas.c200156

Liu Feng, Liu Hao-Zhe, Zhang Wen-Tian, Chen Jia-Shu, Shen Lin-lin, Wang Lei. A robust ROI extraction method for biometrics using adversarial structure. Acta Automatica Sinica, 2023, 49(6): 13391353 doi: 10.16383/j.aas.c200156

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200156

 

关键词

 

感兴趣区域提取,语义分割,对抗结构,生物特征 

 

摘要

 

感兴趣区域(Region of interest, ROI) 提取在生物特征识别中, 常用于减少后续处理的计算消耗, 提高识别模型的准确性, 是生物识别系统中预处理的关键步骤. 针对生物识别数据, 提出了一种鲁棒的ROI提取方法. 方法使用语义分割模型作为基础, 通过增加全局感知模块, 与分割模型形成对抗结构, 为模型提供先验知识, 补充全局视觉模式信息, 解决了语义分割模型的末端收敛困难问题, 提高了模型的鲁棒性和泛化能力. 在传统二维(2D)指纹、人脸、三维(3D)指纹和指纹汗孔数据集中验证了方法的有效性. 实验结果表明, 相比于现有方法, 所提出的ROI提取方法更具鲁棒性和泛化能力, 精度最高.

 

文章导读

 

感兴趣区域(Region of interest, ROI)提取是计算机视觉领域的基础问题. 它的目标是对图像进行像素级前后景分离[1-4]. 在生物特征识别中[5-7], ROI提取, 常用于减少后续处理的计算消耗, 提高模型的准确性, 是生物识别系统中预处理的关键步骤[7-8].

 

在生物特征识别领域, 早期的ROI提取方法参考了基于阈值和灰度直方图的图像分割算法[9-11], 结合了图像的固有特征, 实现了对有效区域的提取. 不同的模态数据(如人脸、指纹和掌纹)具有差异化图像特征[12-14], 所以这类基于图像特征的传统分割方法缺乏泛化能力, 无法使用相同范式提取不同模态的ROI. 同时传统分割方法引入了阈值等超参数, 对噪音敏感, 在复杂情况缺乏鲁棒性.

 

近年来, 一些研究表明使用深度学习的强表征能力可以有效解决图像分割问题[15-17]. 相比于早期的分割方法, 基于深度学习的分割模型(即语义分割)ROI提取提供了范式(端到端), 增强了模型对噪音的鲁棒性, 提升了模型在复杂情况的表现. 目前对语义分割模型的研究可以分为3个阶段.

1) 全卷积网络(Fully convolutional network, FCN)是一种经典的基于深度学习的像素级别分割的模型[15]. 实验结果表明, FCN的分割精度和鲁棒性超越了传统的分割算法. 但在FCN, 卷积层的堆叠使用导致了网络空间上下文信息的丢失, 影响了FCN对图像语义信息和细节特征的感知能力, 降低了FCN的分割精度.

2) 基于上述问题, Ronneberger[16]提出了一种U形网络结构(U-Net). U-Net通过融合骨干网络中的多层特征, 增强了模型对特征的感知能力, 对图像的细节特征进行了补充, 部分解决了FCN特征丢失的问题. ISBI 2012 EM分割基准显示, U-Net是当前研究的最新进展. 这得益于U-Net模型在空间解析度和细节的重保存机制. U-Net的多层特征融合方法结构单一, 特征处理形式粗糙. 这表明, 基于深度学习的分割模型具有进一步的提升空间.

3) 第三阶段的研究是基于空间金字塔架构[18]. Zhao[17]提出了一种特殊的池化结构, 即空间金字塔池化(Spatial pyramid pooling, SPP). 相比于U-Net, SPP结构通过融合局部特征和全局信息, 合理地利用了特征图(feature map), 进一步增强了模型对语义信息的感知能力, 提高了模型在复杂情况的表现. Chen[19]SPP的基础上, 提出了DeepLabV3+网络. DeepLabV3+使用空洞卷积[20]代替了SPP的池化操作. 基于空洞卷积的空间金字塔结构(Atrous spatial pyramid pooling, ASPP)在提高网络感受野时不会丢失细节特征, 解决了池化结构的精度损失问题. PASCAL VOC 2012分割基准和Cityscapes基准显示DeepLabV3+是目前的最新进展, 分割精度达到目前最高水平.

 

以上研究显示了深度学习在语义分割问题的潜力. 但基于语义分割的ROI提取方法仍具有局限性. 模型缺乏对边界的约束, 使模型缺乏鲁棒性. ROI提取是二分类语义分割问题, 具有前景目标单一, 背景复杂的特点, 但模型仅使用像素级交叉熵作为损失函数, 导致模型对单一像素分类结果敏感, 缺乏对分割结果的整体感知1展示了基于语义分割的ROI提取结果. 在第1行分割结果中, 模型忽略了马的耳朵和腿, 错误地识别了与目标物体相邻的区域, 相同的问题也出现在模型对飞行器的分割(2). 但先验知识表明马具有耳朵和腿, 飞行器具有尖锐的机头、机翼和尾翼. 这表明模型缺少先验知识信息, 无法有效约束边界, 导致模型缺乏鲁棒性.

 

另一方面, 基于语义分割的ROI提取模型存在域固化问题, 缺少泛化能力2展示了不同数据集的指纹图像. 其中2(a)的指纹图像来自于FVC指纹数据集2(b)的指纹图像来自于NIST 29指纹数据集2(c) 是图2(a)ROI区域2(d)是图2(b)ROI区域. FVC指纹数据集[21-23]是采集器收集的指纹数据, 图像清晰, 背景噪音少. NIST 29特殊指纹数据集[24]收集了纸张卡片中包含的平印痕指纹, 图像清晰度低, 背景噪声大, 干扰性强. FVC指纹数据集与NIST 29指纹数据集的指纹模态区别大, 属于不同的信息域. 现有分割模型缺少泛化能力, 当模型在源域(FVC数据集)训练, 由源域信息确定模型参数, 模型在源域可以实现高质量的ROI提取, 但在目标域(NIST 29数据集)的表现会大幅度下滑. 本文将该问题定义为ROI提取的域固化问题, 域固化问题使模型在新应用场景, 需要迁移型训练, 限制了模型的应用范围, 增加了模型下沉的应用成本. 造成域固化问题的成因由两方面构成, 一方面是因为模型缺乏对分割结果的整体感知能力; 另一方面是模型的泛化能力差, 缺乏鲁棒性.

 2  拥有不同域信息的指纹图像

 

为提升模型的泛化能力和鲁棒性, 现有研究主要从两个角度出发, 1类是基于损失函数的优化; 2类是从优化器角度出发.

 

对损失函数的研究[2, 25]表明, ROI提取任务中, 正负样本数量是不均衡的(像素级), 使用像素级的平均准确率和全局的交叉熵作为损失函数是不合理的. 这一问题影响了模型的末段收敛, 降低了模型的精度和泛化能力. 为解决该问题, Rahman[2]使用交并比(Intersection-over-union, IoU)损失函数代替交叉熵损失函数. PASCAL VOC 2010基准显示IoU损失函数会提高模型的精度和鲁棒性, IoU的非凸性会使模型收敛出现振荡, 同时IoU无法处理多目标分割任务. 为解决该问题, Berman[25]进一步提出了一种基于批量化的IoU损失函数等效形式, Lovasz损失函数. Lovasz损失函数将损失函数推广为多目标分割任务, 解决了模型的振荡问题. 尽管上述方法通过解决正负样本不平衡问题提高了分割模型的精度, 但损失函数的修改无法增强模型对分割结果的全局感知能力. 损失函数的固化具有局限性, 在基于热图检测的问题中, 如汗孔提取[14], 目标的分割标签是连续化的, 不适用于此类基于IoU的损失函数.

 

另一类解决方案是基于优化器的, 分割模型可使用的参数优化器有随机梯度下降法 (Stochastic gradient descent, SGD), RMSProp (Root mean square propagation)[26]Adam (Adaptive moment estimation)[27]. Adam是收敛速度最快、分割模型使用率最高的优化器. 但研究[28-30]表明, Adam优化器会降低模型的泛化能力, 在小样本问题中, 使用Adam优化器的模型易困于局部优解, 导致准确率下滑. Wilson[28] 认为该问题是由Adam不稳定的学习率参数引起. 为解决该问题, Luo[29]提出了一种Adam的亚种, AdaBound. 通过动态地调整学习率边界, Adam优化模式在训练过程中平滑地转化为SGD优化模式. Liu[30]通过校正学习率的方差稳定训练过程的学习率. 两种方法加速了网络的收敛过程, 部分提高了模型的范性, 但是模型准确率的提升有限.

 

以上研究表明了提升模型泛化能力和鲁棒性的重要性. 但上述研究针对ROI的域固化问题和边界问题缺乏针对性, 改善能力有限. 本文提出了一种基于对抗结构的全局损失模块, 通过引入先验知识, 加强模型对分割结果的全局感知能力, ROI提取模型不添加额外结构的情况下, 提高模型在ROI边界的分割能力, 改善模型在域固化问题的表现. 不同于对抗生成网络(Generative adversarial networks, GANs)[31], 跨域(Cross-domain)模型[32]和迁移学习(Transfer learning)[33]利用目标域信息对模型进行适应性修改, 实现跨域ROI提取, 本文仅使用源域信息训练模型, 通过提高模型的泛化能力和感知能力, 提升模型在目标域的表现. 因不使用上述迁移型训练方法, 方法减少了应用下沉的成本, 拓展了模型的使用场景.

 

本文提出的ROI提取模型使用基础网络提取输入图像的深度特征, 利用深度特征, 基于语义分割的分割网络对输入图像实现像素级二分类, 完成ROI提取任务. 不同于现有研究使用单一损失函数, 本文的ROI提取模型的损失函数包含两部分, 1部分是交叉熵损失函数, 约束网络像素级别的分割; 2部分是本文提出的全局感知损失函数, 用于提高网络对分割结果的全局感知能力. 全局感知模块的核心是一个子网络判别器, 子网络判别器的输入是标签数据和模型的预测数据, 目标是区分预测数据和标签数据. 全局感知模块约束ROI提取模型生成高质量预测结果, 欺骗子网络判别器, 形成对抗结构. 子网络判别器由一系列卷积操作组成, 具有大感受野和高维感知能力, ROI提取模型引入了分割目标的先验知识, 因此交叉损失函数与全局感知模块具有互补性. 实验结果表明, 通过引入全局感知模块, 模型提取得到的ROI边界质量明显提高, 人脸提取的准确率(Pixel accuracy)达到97.09%, 交并比(IoU) 0.9734, 达到了目前的最高精度. 全局感知模块同样改善了模型在跨域问题的表现, 在不使用目标域信息的情况中, 模型对目标域2D指纹图像的ROI提取准确率达到92.58%, 交并比达到0.8606, 相比于不使用全局感知模块的模型, 准确率提升了11.93%, 交并比提升了19.86%.

 3  基于语义分割的ROI提取模型, 模型分为两部分: 基础网络和分割网络

 4  在生物特征识别中, 基于语义分割的ROI提取模型存在的问题(1行是人脸提取的案例分析; 2行是指纹ROI提取的案例分析)

 

本文提出了一种基于对抗结构的全局感知模块, 用于优化ROI提取模型. 全局感知模块解决了ROI提取模型存在的末端收敛困难, 缺少全局感知能力, 缺少全局视觉模式信息等问题, 提高了ROI提取模型的鲁棒性和泛化能力, 优化了模型对边界的分割准确性, 改善了模型在域固化问题中的表现. 实验结果表明本文提出的模型在多个生物特征数据集中达到了ROI提取的最新进展, 拥有最高的分割精度. 同时, 在类ROI提取(汗孔提取)问题中, 本文提出的方法依然能取得很好的结果, 且全局感知模块对现有的模型有增强效果, 进一步验证了本文方法的有效性. 在未来工作中, 我们将继续深入研究, 将全局感知模块应用于多目标分割任务中.

 

作者简介

 

刘凤

深圳大学计算机与软件学院副教授. 2014年获得香港理工大学计算机系的计算机科学博士学位. 主要研究方向为模式识别和图像处理以及相关技术在指纹领域中的应用. 本文通信作者.E-mail: feng.liu@szu.edu.cn

 

刘浩哲

深圳大学硕士研究生. 主要研究方向为计算机视觉和模式识别. E-mail: liuhaozhe2019@email.szu.edu.cn

 

张文天

深圳大学硕士研究生. 主要研究方向为模式识别和生物特征识别. E-mail: zhangwentianml@gmail.com

 

陈嘉树

英国纽卡斯尔大学硕士研究生. 主要研究方向为计算机视觉与生物识别. E-mail: gaasyu.chan@gmail.com

 

沈琳琳

获得英国诺丁汉大学博士学位. 现为深圳市“鹏城学者” 特聘教授、英国诺丁汉大学计算机学院荣誉教授. 主要研究方向为深度学习理论及其在人脸识别/分析以及医学图像分析上的应用. E-mail: llshen@szu.edu.cn

 

王磊

中国科学院深圳先进技术研究院副研究员. 主要研究方向为图像变换, 计算机视觉, 视觉语义理解, 视频分析, 深度学习. E-mail: lei.wang1@siat.ac.cn



https://blog.sciencenet.cn/blog-3291369-1394283.html

上一篇:智能电网虚假数据注入攻击弹性防御策略的拓扑优化
下一篇:一种基于自监督学习的矢量球面卷积网络
收藏 IP: 117.114.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-22 18:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部