|
引用本文
刘畅, 杨春, 殷绪成. 基于文字局部结构相似度量的开放集文字识别方法. 自动化学报, 2024, 50(10): 1977−1987 doi: 10.16383/j.aas.c230545
Liu Chang, Yang Chun, Yin Xu-Cheng. Open-set text recognition via part-based similarity. Acta Automatica Sinica, 2024, 50(10): 1977−1987 doi: 10.16383/j.aas.c230545
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230545
关键词
开放集文字识别,开放集学习,泛用零样本学习,组成学习
摘要
开放集文字识别 (Open-set text recognition, OSTR) 是一项新任务, 旨在解决开放环境下文字识别应用中的语言模型偏差及新字符识别与拒识问题. 最近的 OSTR 方法通过将上下文信息与视觉信息分离来解决语言模型偏差问题. 然而, 这些方法往往忽视了字符视觉细节的重要性. 考虑到上下文信息的偏差, 局部细节信息在区分视觉上接近的字符时变得更加重要. 本文提出一种基于自适应字符部件表示的开放集文字识别框架, 构建基于文字局部结构相似度量的开放集文字识别方法, 通过对不同字符部件进行显式建模来改进对局部细节特征的建模能力. 与基于字根 (Radical) 的方法不同, 所提出的框架采用数据驱动的部件设计, 具有语言无关的特性和跨语言泛化识别的能力. 此外, 还提出一种局部性约束正则项来使模型训练更加稳定. 大量的对比实验表明, 本文方法在开放集、传统闭集文字识别任务上均具有良好的性能.
文章导读
文字识别是一个实际应用较为广泛的研究领域. 传统的文字识别任务只考虑训练集中见过的语言与字符[1], 不能很好地建模经常出现新字符的场景, 如演变迅速的网络图像文字识别应用环境和已知信息有限的古籍识别等任务. 对于字符集扩充的需求, 一些方法使用增量训练的方式来进行适应, 如MRN[2]提出通过补充额外训练专家模型并更新路由网络的方式进行适应, 其复杂度随专家数量的增长而提高. 麻斯亮等[3]提出了一种基于训练不确定性的方式对训练集中的新字形进行发现并进行增量适应. 但这两种方法都仍限于识别已知类别, 故需要不断依赖用户反馈进行标注和训练. 对于未知类别, 小样本文字识别方法[4−6]提出在提供辅助信息或示例样本后识别新字符的能力的需求与方案. 然而, 这两类方法均不能做到主动发现数据中的新字符[7]. 为了解决上述方法和任务建模上的局限性, Liu等[8]将这类需要发现新字符和新语言并进行增量识别的场景抽象为任务.
目前开放集文字识别 (Open-set text recognition, OSTR)方法[8−10]将字符视为一个整体进行特征提取并与其对应的类别中心计算相似度, 这种建模方式对字符的细节特征表示不够理想, 容易造成图1所示的形近字的混淆[11] (本文中识别结果由图像、图像中文字的真值、模型预测结果构成. 真值行中白色代表训练中见过的字符, 黄色代表新字符. 结果行中, 绿色和红色分别表示识别正确和错误的结果. 紫色块表示模型拒识对应位置字符, 下同). 虽然在封闭集文字识别中, 形近字可以通过建模并利用上下文信息, 一定程度上缓解这一问题, 但是开放环境下, 训练集提供的上下文信息可能有较大偏差[9, 12], 从而使形近字问题的影响更为突出.
图 1 基于整字符识别方法的形近字混淆
为了从视觉信息角度解决形近字混淆问题, Yu等[11]和Zhang 等[13]提出使用部件组成信息作为正则项来提升模型对细节信息的建模能力. 然而这些方法需要对于标签的结构性知识, 并缺乏在不同语言之间泛化的能力. 另一些方法则使用Stroklet[14]或局部图像[15]等传统浅层部件特征进行字符表示. 这些方法虽然无需依赖领域知识, 但由于其过程的复杂性, 难以端到端地集成到基于深度学习的文字识别框架中. Hamming OCR[16]提供了一种语言无关的部件编码方式, 然而这种方法会带来难度较大的实现和训练上的复杂度.
为了解决上述两类方法适用范围与复杂度上的局限性, 本工作提出一种基于自适应字符部件表示的开放集文字识别框架, 来改善模型对细节结构的建模. 该框架通过字符与标准模板的各个“部件”之间的相似程度进行分类或拒识操作. 与基于知识的部件构造方法[17−20]不同的是, 本工作中部件由自适应的端到端训练得到. 这一特性使得该模型不再需要对特定语言所有字符的结构知识. 同时和Hamming OCR[16]相比, 该方法使用连续的特征向量作为部件表示, 一定程度上降低了模型的训练复杂度.
此外, 我们发现不加约束时部分部件的注意力图 (Attention map) 会关注无关区域, 导致模型性能波动较大. 我们认为这一现象是由于训练集涉及的字符数量过少, 导致部件表示过拟合到局部最优解. 具体来说, 模型训练涉及的3791个字符类别不足以构成对标签空间足够密集的采样, 导致仅通过数据驱动学习得到的“部件”表示缺少泛化能力. 为了解决这一问题, 我们提出了一个局部性约束损失来约束部件注意力的局部性, 使其解空间更接近于结构知识意义上的部件, 如笔画和字根.
实验表明, 我们提出的基于自适应字符部件表示的开放集文字识别框架在开放集文字识别任务[8]上取得了较好的性能. 该框架也具有一定程度的封闭集文字识别能力, 可以在生产环境中替代一些常见的封闭集文字识别方法[21−23].
本文的主要贡献如下:
1) 提出了一种基于自适应字符部件表示的开放集文字识别框架, 能够通过建模语言无关部件的方式缓解形近字混淆的问题.
2) 针对基于自适应字符部件表示的开放集文字识别框架存在的模型性能不稳定的问题, 提出了一个局部性约束正则项, 通过压缩部件表示的解空间方式对这个问题进行了有效缓解.
3) 本文提出的方法在开放集和封闭集上均有较好的性能表现.
图 2 开放集文字识别任务示意图[24] , 经许可转载自文献[24], ©《中国图象图形学报》编辑出版委员会, 2023
图 3 本文提出的基于自适应字符部件表示的开放集文字识别框架
本文提出了一种基于自适应字符部件表示的开放集文字识别框架, 有效地提升了开放集文字识别的性能. 模型整体框架能够缓解形近字的混淆问题, 而局部性约束有效地解决了该框架存在的训练不稳定的问题. 实验结果表明, 本文提出的方法在开放集、传统闭集文字识别任务上均具有良好的性能. 特别的, 本文模型在相近的语言上展示出了较好的开放集识别性能, 可有效应用于数据变化较快的网络图片文字识别任务和数据多样性较广的多语言场景识别任务. 未来可以针对跨语系语种(语言文字形态差异大)迁移能力有限等局限性, 开展进一步研究工作.
作者简介
刘畅
吕勒奥理工大学博士后. 2024年获得北京科技大学博士学位. 主要研究方向为小样本学习, 文本识别和文本检测. E-mail: lasercat@gmx.us
杨春
北京科技大学副教授. 2018年获得北京科技大学博士学位. 主要研究方向为模式识别, 计算机视觉, 文档分析与识别. 本文通信作者. E-mail: chunyang@ustb.edu.cn
殷绪成
北京科技大学教授. 2006年获得中国科学院自动化研究所博士学位. 主要研究方向为模式识别, 文字识别, 计算机视觉, 人工智能芯片, 工业智能与工业软件技术及应用. E-mail: xuchengyin@ustb.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 22:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社