|
引用本文
赵亮, 周继开. 基于重组性高斯自注意力的视觉Transformer. 自动化学报, 2023, 49(9): 1976−1988 doi: 10.16383/j.aas.c220715
Zhao Liang, Zhou Ji-Kai. Vision Transformer based on reconfigurable Gaussian self-attention. Acta Automatica Sinica, 2023, 49(9): 1976−1988 doi: 10.16383/j.aas.c220715
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220715
关键词
Transformer,局部自注意力,混合高斯权重重组,图像分类,目标检测
摘要
在目前视觉Transformer的局部自注意力中, 现有的策略无法建立所有窗口之间的信息流动, 导致上下文语境建模能力不足. 针对这个问题, 基于混合高斯权重重组(Gaussian weight recombination, GWR)的策略, 提出一种新的局部自注意力机制SGW-MSA (Shuffled and Gaussian window-multi-head self-attention), 它融合了3种不同的局部自注意力, 并通过GWR策略对特征图进行重建, 在重建的特征图上提取图像特征, 建立了所有窗口的交互以捕获更加丰富的上下文信息. 基于SGW-MSA设计了SGWin Transformer整体架构. 实验结果表明, 该算法在mini-imagenet图像分类数据集上的准确率比Swin Transformer提升了5.1%, 在CIFAR10图像分类实验中的准确率比Swin Transformer提升了5.2%, 在MS COCO数据集上分别使用Mask R-CNN和Cascade R-CNN目标检测框架的mAP比Swin Transformer分别提升了5.5%和5.1%, 相比于其他基于局部自注意力的模型在参数量相似的情况下具有较强的竞争力.
文章导读
目前计算机视觉领域使用的方法有两大类, 分别是卷积神经网络(Convolutional neural networks, CNN)和Transformer. 其中CNN是图像分类[1]、目标检测[2]和语义分割[3]等计算机视觉任务的主流方法, 自AlexNet[4]诞生并在ImageNet图像分类挑战中获得冠军以后, 研究者们开始通过各种方法设计卷积神经网络, 使得网络变得更深、更密集、更复杂[5-8], 在随后的几年内出现了很多经典的卷积神经网络. VGGNet[5]探索了CNN的深度及性能之间的关系, 通过使用很小的卷积叠加增加网络的深度达到提升网络精度的效果; DenseNet[6]通过从特征图的角度入手, 为每一个模块加入密集连接达到了更好的性能和更少的参数量; ResNet[7]通过引入残差结构解决了随着网络层数的加深出现梯度消失的问题; GoogLeNet[9]使用密集成分来近似最优的稀疏结构, 在提升性能的同时不增加计算量; EfficientNet[10]提出了一种多维度混合的模型缩放方法, 可以同时兼顾模型的精度以及速度. 在CNN模型性能越来越强的同时, 另一类视觉Transformer的方法横空出世. Transformer由于其自注意力模块具有捕捉长距离依赖[11]的能力广泛被应用于自然语言处理的任务中, 而后被用到了计算机视觉任务中并取得了比CNN方法更优的效果. 在文献[12-15]中将自注意力模块嵌入到CNN中并应用于图像分类、目标检测和语义分割等计算机视觉任务中. Vision Transformer (ViT)[16]不使用卷积神经网络而是通过将图像序列化的方法首次将Transformer架构应用到图像领域中, 并且在ImageNet数据集上取得了比ResNet更好的效果, 而后在短时间内被引入改进[17-20]并应用于各种图像领域的各种下游任务[21-24]. 但是Transformer的复杂度成为了其性能最大的瓶颈, 为了减小因全局自注意力引起的二次复杂度, 现有的方法较多使用局部自注意力机制. 目前现有的局部自注意力机制主要有7类(如图1所示).
1) 目前几乎所有的基于局部自注意力的Transformer模型都会使用常规窗口自注意力(Window-multi-head self-attention, W-MSA), 通过W-MSA与其他类型的局部自注意力交替使用来建立窗口之间的通信, 如图1(a)所示.
图 1 现有局部自注意力方法
2) HaloNet[25]通过对窗口进行缩放的操作来收集窗口之外的信息并建立跨窗口的信息交互, 如图1(b)所示.
3) Swin Transformer通过在连续的局部注意力层之间移动窗口的分区建立跨窗口之间的信息通信缓解感受野受限的问题, 如图1(c)所示.
4) CrossFormer[26]提出了跨尺度嵌入层和长短注意力, 有效地建立了长远距离的跨窗口的连接.
5) Shuffle Transformer[27]在连续的局部自注意力层之间加入空间shuffle的操作, 以提供长距离窗口之间的连接并增强建模能力.
6) GG Transformer[28]受到了人类在自然场景中识别物体的Glance和Gaze行为的启发, 能够有效地对远程依赖性和局部上下文进行建模, 4) ~ 6)这3种局部注意力可统一归为图1(d)的形式.
7) Axial-DeepLab[29]将二维自注意力分解为横向和纵向两个一维的自注意力, 如图1(e)所示.
8) CSWin Transformer[30]提出了一种在“十”字等宽窗口内计算自注意力的方式(Cross-shaped window self-attention), 通过横条和纵条窗口自注意力并行实现, 如图1(f)所示.
9) Pale Transformer[31]提出了“十”字等间隔窗口自注意力(Pale-shaped-attention, PS-Attention), 如图1(g)所示.
图1展示了现有的局部自注意力方法. 不同的颜色表示不同的窗口, 在每个窗口内执行计算自注意力, 并通过引入各种策略来建立跨窗口之间的连接. 这些工作虽然取得了优异的性能, 甚至优于一些最新的CNN的方法, 但是每个自注意力层中的依赖性仍然具有局限性, 具体表现在当特征图很大时, 通过有间隔的采样点组成的窗口无法建立所有窗口之间的信息流动导致了模型捕获的上下文语义信息的能力不足. 针对上述问题, 本文提出了一种高斯窗口自注意力机制(Gaussian window-multi-head self-attention, GW-MSA), 它包括纵向高斯窗口自注意力(Vertical Gaussian window-multi-head self-attention, VGW-MSA)和横向高斯窗口自注意力(Horizontal Gaussian window-MSA, HGW-MSA)两种类型的局部自注意力. GW-MSA与图1(d)中的Shuffled W-MSA联合组成了SGW-MSA, 有效地捕捉更丰富的上下文依赖, 如图2所示, 不同颜色的点代表不同的窗口组成, 在GW-MSA中, 通过混合高斯权重重组GWR策略重构特征图, 并在重构后的特征图上计算局部自注意力. 本文在Swin Transformer结构的基础上, 引入SGW-MSA设计了SGWin Transformer模型, 在公开数据集CIFAR10、mini-imagenet、KITTI、PASCAL VOC和MS COCO上进行了实验, 实验结果表明SGWin Transformer在图像分类和目标检测的任务上优于其他同等参数量的基于局部自注意力的Transformer网络.
图 2 局部自注意力组合
图 3 SGWin Transformer整体架构
本文针对现有的基于局部自注意力机制的Transformer模型不能建立所有窗口之间信息流通的问题, 提出了一种SGW-MSA局部自注意力以及SGWin Transformer模型, 在SGW-MSA中结合3种不同的局部自注意力机制的特点, 有效地建立所有窗口之间的信息交互. 实验结果表明在参数量和计算量相当的情况下, 本文提出的算法比现有的基于局部自注意力的Transformer模型更具有优势, 证明了本文提出的SGW-MSA通过高斯随机窗口策略建立所有窗口之间的信息流动能够捕捉更多的特征图语义信息并且具有更强大的上下文建模能力.
作者简介
赵亮
西安建筑科技大学信息与控制工程学院教授. 主要研究方向为智能建筑检测, 计算机视觉和模式识别. 本文通信作者. E-mail: zhaoliang@xauat.edu.cn
周继开
西安建筑科技大学信息与控制工程学院硕士研究生. 主要研究方向为图像处理和目标检测. E-mail: m18706793699@163.com
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-21 14:04
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社