|
引用本文
李威, 王蒙. 基于渐进多源域迁移的无监督跨域目标检测. 自动化学报, 2022, 48(9): 2337−2351 doi: 10.16383/j.aas.c190532
Li Wei, Wang Meng. Unsupervised cross-domain object detection based on progressive multi-source transfer. Acta Automatica Sinica, 2022, 48(9): 2337−2351 doi: 10.16383/j.aas.c190532
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190532
关键词
迁移学习,域自适应,目标检测,多源域,自训练
摘要
针对目标检测任务中获取人工标注训练样本的困难, 提出一种在像素级与特征级渐进完成域自适应的无监督跨域目标检测方法. 现有的像素级域自适应方法中, 存在翻译图像风格单一、内容结构不一致的问题. 因此, 将输入图像分解为域不变的内容空间及域特有的属性空间, 综合不同空间表示进行多样性的图像翻译, 同时保留图像的空间语义结构以实现标注信息的迁移. 此外, 对特征级域自适应而言, 为缓解单源域引起的源域偏向问题, 将得到的带有标注的多样性翻译图像作为多源域训练集, 设计基于多领域的对抗判别模块, 从而获取多个领域不变的特征表示. 最后, 采用自训练方案迭代生成目标域训练集伪标签, 以进一步提升模型在目标域上的检测效果. 在Cityscapes & Foggy Cityscapes与VOC07 & Clipart1k数据集上的实验结果表明, 相比现有的无监督跨域检测算法, 该检测框架具更优越的迁移检测性能.
文章导读
目标检测作为一类计算机视觉的基础任务, 能对图像前景对象进行定位及分类, 在智能驾驶、安防监控等领域有着广泛的应用[1-2]. 近年来, 伴随着深度卷积神经网络[3]的发展, 目标检测在检测精度和时效性上均取得了一系列重大突破. 基于深度学习的目标检测方法, 目前主要分为2类: 1)两阶段检测器, 如区域卷积网络(Region convolution neural network, R-CNN)[4]、快速区域卷积网络(Fast R-CNN)[5]、超快速区域卷积网络(Faster R-CNN)[6]等, 这类检测器首先通过区域提取网络得到感兴趣的区域, 再进一步对这些区域进行分类和回归; 2)单阶段检测器, 如一见即得检测器[7]、单发多框检测器(Single shot multi-box detector, SSD)[8]等. 这类检测器中, 直接对不同特征层上的预设边框进行分类和回归, 从而提升了检测速度. 虽然这些检测方法均取得了不错的效果, 但在许多实际场景中却不能得到有效应用. 一方面, 训练基于深层网络的检测器需要海量的标注数据, 而从数据的收集到标注, 都是一件耗时费力的事. 此外, 大部分人工数据标注缺乏统一的标准, 会不可避免地引入人为偏差. 另一方面, 现有的目标检测方法一般假设训练数据与测试数据服从独立同分布, 而在实际应用中却难以满足, 从而导致在某数据集上训练好的检测模型难以泛化到其他场景. 例如, 用天气良好时采集的图片训练得到的检测模型, 在有雾的情况下检测性能会急剧下降. 如图1所示, 上边为天气良好情况下收集的图片, 下边为有雾天气下的数据, 这2个数据集在风格、光照以及颜色等方面存在差异. 针对上述问题, 本文主要研究无监督跨域目标检测算法. 其中, 源域数据集(如图1中上行图片)有分类标注与边界框标注, 而目标域没有标注信息(如图1中下行图片). 将大量易得的标注数据的知识迁移到其他不易得且缺乏标注的数据域中, 以提升检测器在不同场景下的适应能力, 是本文的主要研究目的.
图1 Cityscapes[9] (上)与Foggy Cityscapes[10] (下)示例图
针对目标域标注数据稀缺、领域分布异构等问题, 目前主要有两类方法. 一类是弱监督的目标检测方法[11-12]. 给定只有分类标注的数据集, 通过区域提取网络得到感兴趣的区域, 然后再设计分类器并用分类标注进行训练. 相对于强监督的目标检测方法, 这种方法的检测效果较差. 另外一类, 可概括为无监督域自适应方法[13], 通过源域到目标域的域自适应, 将源域中的标注信息迁移到目标域, 从而提升目标域数据集上的检测精度. 为实现源域与目标域的语义对齐, 采用了最小化源域与目标域之间度量距离的方法, 如相关对齐[14]和最大均值差异[15]等. 这种基于度量的方法取得了一定的效果, 但在深度卷积网络中, 由于数据被映射到高维空间, 效果有时反而更差[16]. 尽管无监督域自适应方法在图像分类和分割等任务中均取得了不错的效果, 但在目标检测方面的研究仍然不足. 已有为数不多的研究[17-27], 主要采用像素级对齐[17-18]或特征级对齐[18-25]来实现源域知识到目标域的迁移. 其中, 像素级对齐主要采用图像翻译的方法来实现, 如采用循环对抗生成网络(Cycle generative adversarial network, CycleGAN)[28]等, 通过生成含有源域数据的内容信息与目标域数据的风格信息的图片, 从而将源域中的标注信息迁移到生成图像. 特征级对齐在特征层加入判别器, 通过构造对抗生成网络(Generative adversarial networks, GAN)[29]使判别器无法将源域特征从目标域特征中分辨出来, 进而拉近两个领域之间的特征分布. 例如, Inoue等[17]提出一种渐进弱监督跨域目标检测方法, 先采用CycleGAN[28]生成含有源域数据空间语义信息和目标域风格特征的图片, 并将源域中的标注信息迁移到生成图像上; 然后使用在源域数据上训练好的检测模型在这些生成图片上进行微调; 最后, 使用在目标域上预测生成的伪标签进一步训练, 并得到在目标域上的检测模型. 类似的, 加噪标签[26]直接使用在源域数据上训练的检测器在目标域上预测生成伪标注, 然后使用一个分类模块对伪标签进行修正并与源域数据联合训练, 以得到一个更具鲁棒性的检测器. Chen等[19]在Faster R-CNN[6]的基础上, 通过实例级与图像级的域自适应, 实现了检测模型的泛化. 在此基础上, 文献[20-25]通过不同特征层的对齐, 实现了不同领域之间深层特征与浅层特征的适配. 以上工作主要面向单源域到单目标域的检测迁移问题, 为了进一步有效利用众多不同领域之间的相关知识, 一些研究者将目光转向了更具挑战性的多源域到单目标域的迁移问题. Wang等[27]提出了一个基于注意力机制的域自适应检测框架, 实现了从多个源域到单目标域的检测任务. 其困难在于需要收集大量不同的源域数据集. 此外, Kim等[18]探索了如何生成多样性的翻译图片来实现多源域适配, 但其图像转换过程尚未利用目标域特有的属性特征, 以使得生成图像与目标域特征分布更加相似.
上述无监督域自适应方法的提出, 证明了基于迁移的目标检测模型的有效性, 但仍存在以下3方面问题: 1)在像素级对齐时, 采用CycleGAN[28]等图像翻译方法生成的样本, 多样性不够, 不能保持语义结构的连续性; 或是人为设置源域样本的多样性, 而没有充分利用目标域的属性特征; 2)特征级对齐方面, 大多只考虑单源域到单目标域的迁移, 没有考虑多源域到单目标域迁移的情景. 特征对齐网络在训练过程中, 其判别性主要取决于有标注信息的源域数据, 迁移性则取决于源域特征与目标域特征之间的相似性. 在单源域自适应方法中, 由于单一风格的源域图像通常只包含部分信息, 因此检测模型的判别性容易偏向于仅有的单一源域表示, 从而影响目标域上的性能; 3)部分方法仅针对某一特定检测模型, 例如Chen等[19]提出的实例级域自适应方法在单阶段的检测模型中难以实现. 为尝试解决这些困难, 本文提出了一个渐进对齐的无监督跨域目标检测框架, 主要工作如下: 1)对图片特征进行分解, 分别得到域不变的结构内容特征与域特有的风格属性特征, 以使得生成样本更好地保持原数据的空间结构信息. 并且, 通过源域与目标域之间两类特征的结合, 能够生成多样性的数据样本, 这些不同风格属性的生成图片丰富了源域样本的多样性; 2)设计了一个基于对抗网络的多域分类器, 并将生成的具有不同属性特征的样本加入到源域数据集中, 使检测器能在多个源域数据集上训练, 并且目标域特征分布可以由多个与其风格近似的源域数据来拟合, 从而获取多领域不变的特征表示; 3)采用自训练框架进一步提升目标域上的检测性能. 源域和目标域通过像素级对齐和多源域特征对齐后, 检测模型在目标域上可以预测生成质量较高的伪标签, 从而避免了直接使用源域数据训练的模型预测生成伪标注质量差的问题. 实验表明,采用这种渐进域自适应的训练方式, 显著地提升了检测模型的迁移性能.
图2 无监督跨域目标检测方法结构图
图3 损失函数
本文提出了一种基于渐进对齐的无监督跨域目标检测算法. 首先, 针对现有图像翻译中生成图像风格单一、语义结构信息不一致的问题, 通过图像特征分解实现图像的结构化翻译, 将源域的内容特征与目标域的任意属性特征结合, 生成了从源域到目标域映射的多样性图片, 并将源域的标注信息迁移到生成数据, 实现了像素级域自适应; 其次, 为了避免单源域迁移中特征对齐时出现的源域偏向性问题, 设计多领域自适应网络, 得到多领域不变的特征表示, 实现了多样性特征级域自适应; 最后, 通过自训练在目标域上生成伪标签, 进一步提升了模型在目标域上的检测性能. 多个数据集上的实验结果表明, 本文提出的算法取得了令人满意的效果. 与此同时, 由于本文在实现迁移的过程中给予了每个源域样本同等的权重考虑, 而没有考虑不同样本对目标域的迁移效果, 这个问题可作为开展下一步研究工作的方向.
作者简介
李威
昆明理工大学信息工程与自动化学院硕士研究生. 主要研究方向为图像处理, 计算机视觉以及模式识别. E-mail: leesoon2049@gmail.com
王蒙
博士, 昆明理工大学信息工程与自动化学院副教授. 主要研究方向为图像处理, 计算机视觉以及模式识别. 本文通信作者.E-mail: wmeng06@126.com
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 02:07
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社