|
引用本文
陈建炜, 杨帆, 赖永炫. 一种基于信息熵迁移的文本检测模型自蒸馏方法. 自动化学报, 2024, 50(11): 2128−2139 doi: 10.16383/j.aas.c210598
Chen Jian-Wei, Yang Fan, Lai Yong-Xuan. Self-distillation via entropy transfer for scene text detection. Acta Automatica Sinica, 2024, 50(11): 2128−2139 doi: 10.16383/j.aas.c210598
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210598
关键词
自然场景,文本检测,知识蒸馏,自蒸馏,信息熵
摘要
前沿的自然场景文本检测方法大多基于全卷积语义分割网络, 利用像素级分类结果有效检测任意形状的文本, 其主要缺点是模型大、推理时间长、内存占用高, 这在实际应用中限制了其部署. 提出一种基于信息熵迁移的自蒸馏训练方法(Self-distillation via entropy transfer, SDET), 利用文本检测网络深层网络输出的分割图(Segmentation map, SM)信息熵作为待迁移知识, 通过辅助网络将信息熵反馈给浅层网络. 与依赖教师网络的知识蒸馏 (Knowledge distillation, KD)不同, SDET仅在训练阶段增加一个辅助网络, 以微小的额外训练代价实现无需教师网络的自蒸馏(Self-distillation, SD). 在多个自然场景文本检测的标准数据集上的实验结果表明, SDET在基线文本检测网络的召回率和F1得分上, 能显著优于其他蒸馏方法.
文章导读
近年来, 自然场景文本理解广泛应用于自动导航与定位、手机拍照识别和智能安防等, 吸引了大批计算机视觉研究人员的关注. 文本检测作为场景文本理解中的重要一步, 直接影响后续文本识别的准确率. 随着深度全卷积网络[1]在语义分割方面取得重大进展[2], 越来越多场景文本检测方法采用语义分割作为基本检测框架, 如掩码文本检测器[3]修改实例分割网络掩码区域卷积神经网络 (Mask region convolutional neural network, Mask R-CNN)[4]的掩码分支, 以实现更加准确的字符分割. 得益于全卷积网络对图像上每个像素点的分类能力, 基于分割的文本检测模型更有利于检测出弯曲、多方向等复杂场景文本. 然而, 为了提高检测精度, 该类模型往往规模庞大, 例如在多个数据集上取得最高性能的文本聚合网络[5]使用101层的深度残差网络[6]提取图像的多级特征, 这导致前向推理需要花费更多时间且占据较大存储空间, 不利于部署在计算资源有限或者有实时性要求的场景, 例如智能手机、智能眼镜、无人驾驶汽车等. 为了减小模型规模同时保持较高检测精度, 研究者们目前采取的一种主流方法是知识蒸馏(Knowledge distillation, KD)[7]. 由于其思路简单和直接, 在实践中被证明是有效的. 知识蒸馏不仅常用于模型压缩, 也被广泛应用于提升小规模网络的性能.
知识蒸馏也被称为“师生学习”, 主要思想是将一个较大规模的教师网络知识迁移给一个紧凑的学生网络. 经典的知识蒸馏方法[7]将教师网络预测类别的概率分布作为训练学生网络的软目标, 通过带有“温度”超参数的Softmax函数来控制软目标的平滑程度, 最后在软目标和硬目标(如独热标签)的同时监督下, 学生网络泛化能力得到提升. 知识蒸馏在图像分类任务上[7-10]已经获得了广泛而成功的应用, 但当将传统基于学生−教师网络的知识蒸馏方法应用到自然场景文本检测模型上时, 尚存在以下3个问题:
1)学生网络常常不能通过对教师网络的学习达到理想精度, 例如在ICDAR2015[11]和Total-text[12]数据集上, 传统知识蒸馏方法存在“教学效率”问题[13], 随着数据集的增大, 学生和教师网络之间学习能力的差异越来越显著, 这导致教师网络的知识难以被学生网络充分吸收. 因此, 在较大数据集上, 传统知识蒸馏方法普遍效果不佳.
2)传统知识蒸馏方法分两阶段进行, 必须提前训练教师模型, 再把知识迁移到学生模型. 为获得性能优越的教师网络(通常规模较大), 需要花费大量时间进行训练和调整参数.
3)已有的文本检测网络的知识蒸馏研究[14]仅将现有图像分类中的知识蒸馏方法直接应用到文本检测模型中, 没有考虑文本检测模型自身输出信息的特点.
不同于图像分类, 文本检测模型更关注文本边缘的像素点信息. 以基于分割的文本检测网络作为研究对象, 该类检测模型都会输出对每个像素点属于文本的概率值. 从信息熵角度分析分割模型输出的分割图(Segmentation map, SM), 概率值的高低反映模型的置信度. 在对抗熵最小化的语义分割领域适应方法[15]中, 在源域上训练的语义分割模型输出的分割图置信度高、熵值低, 但对目标域的图像预测不准确, 输出高熵值. 除了领域差造成信息熵值的差异, 对基于分割的文本检测网络, 其中心和边缘同样存在显著的信息熵差. 如图1(a)模型仅对文本中心附近区域(红色区域)有较高的概率预测值, 而边缘区域概率值低. 本文将模型预测的每个像素点的概率值转换为信息熵, 则边缘区域的信息熵高, 如图1(b)信息熵图所示外围红色区域, 而中心区域熵值低(包裹的蓝色区域). 图1(c)为信息熵图和原图叠加. 可以看出, 熵值图能有效放大模型对边缘的注意力, 因此分割图的信息熵作为蒸馏知识, 能更有效地提升网络检测文本边缘的能力.
图 1 可微二值化文本检测网络的分割图和信息熵图可视化
综上, 本文针对文本检测网络提出一种基于信息熵迁移的自蒸馏训练方法(Self-distillation via entropy transfer, SDET), 克服了传统学生−教师网络必须提前训练教师网络的不足, 并且充分利用文本检测结果的信息熵. SDET从深监督[16]和自我注意力蒸馏[17]获得灵感: 对于一个文本检测模型的网络结构, 网络深层的分类器由于抽取到更加抽象的语义特征, 因此预测的结果比浅层更加确定; 而浅层获得的特征细节虽然更丰富, 但是预测的准确性不如深层分类器, 两者信息熵存在差异. 因此SDET让网络深层通过信息熵引导网络浅层的训练以达到知识迁移的目的. 具体地, SDET通过在网络的浅层部分连接一个辅助分类器, 将网络深层的信息熵作为网络浅层的训练目标. 从师生学习的角度看, 深层可被视为教师模型, 浅层则看作为学生模型, 因此SDET是一种自蒸馏方法(Self-distillation, SD). 需要注意的是, 引入的辅助分类器仅存在于训练阶段, 使用时可删除辅助分类器, 因此并不影响文本检测模型的推理速度.
本文的主要贡献有以下3点: 1)将自蒸馏方法应用于文本检测模型, 首次提出一种基于信息熵的自蒸馏方法SDET. SDET以网络深层的信息熵监督网络浅层的学习, 通过促进浅层网络学习文本框边缘信息提升网络的精度, 从而避免了训练一个大规模的教师网络. 2)与传统知识蒸馏方法相比, SDET不仅节约了教师网络的训练代价, 而且能更有效地提升网络精度. 值得注意的是, SDET无需精细地调整参数, 在ICDAR2013、TD500、TD-TR、Total-text、ICDAR2015和CASIA-10K六个标准数据集上的对比实验结果表明, 使用默认参数的SDET性能显著优于其他6种知识蒸馏方法. 3)在多个标准数据集上的实验结果进一步表明, SDET可适用于不同架构和不同规模的文本检测网络, 同时性能也优于深监督方法.
图 2 不同知识蒸馏方法对比
图 3 SDET训练框架
本文提出一种基于信息熵迁移的自蒸馏训练方法SDET, 用于自然场景文本检测模型. SDET无需提前训练教师网络, 仅在训练阶段添加一个辅助网络传递信息熵知识, 以提高文本检测模型的性能, 能够在很大程度上节约内存和训练时间. 在6个标准数据集上的对比实验结果表明, SDET无需精细地调整参数过程, 即可提升不同规模大小的基线模型(如MV3-DB、ResNet50-DB), 比已有的知识蒸馏方法和深监督方法更具有优势. SDET的不足之处在于, 不能用于仅有边界框回归的文本检测算法(如CTPN), 因为该类网络没有输出对每个像素点的概率预测, 因而不能计算信息熵. 本文存在的不足是仅设计了3种简单的辅助网络, 而不同的文本检测网络需要不同的辅助网络. 未来将探索神经网络结构搜索与SDET的结合, 通过自动调整辅助网络的结构以寻找最优的辅助网络.
作者简介
陈建炜
厦门大学航空航天学院硕士研究生. 主要研究方向为计算机视觉, 图像处理. E-mail: jianweichen@ stu.xmu.edu.cn
杨帆
厦门大学航空航天学院副教授. 主要研究方向为机器学习, 数据挖掘和生物信息学. 本文通信作者. E-mail: yang@xmu.edu.cn
赖永炫
厦门大学信息学院教授. 主要研究方向为大数据分析和管理, 智能交通系统, 深度学习和车载网络. E-mail: laiyx@xmu.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-13 22:35
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社