IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

叠层模型驱动的书法文字识别方法研究

已有 373 次阅读 2024-6-11 13:38 |系统分类:博客资讯

引用本文

 

麻斯亮, 许勇. 叠层模型驱动的书法文字识别方法研究. 自动化学报, 2024, 50(5): 947957 doi: 10.16383/j.aas.c230460

Ma Si-Liang, Xu Yong. Calligraphy character recognition method driven by stacked model. Acta Automatica Sinica, 2024, 50(5): 947957 doi: 10.16383/j.aas.c230460

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230460

 

关键词

 

书法文字识别,模型驱动,节点分离,叠层模型,精度学习 

 

摘要

 

基于二维图像的书法文字识别是指利用计算机视觉技术对书法文字单字图像进行识别, 在古籍研究和文化传播中具有重要应用. 目前书法文字识别技术已经取得了相当不错的进展, 但依旧面临很多挑战, 比如复杂多变的字形可能导致的识别误差, 汉字本身又存在较多形近字, 且汉字字符类别数与其他语言文字相比更多, 书法文字图像普遍存在类内差距大、类间差距小的问题. 为解决这些问题, 提出叠层模型驱动的书法文字识别方法(Stacked-model driven character recognition, SDCR), 通过使用数据预处理、节点分离策略和叠层模型对现有单一分类模型进行改进, 按照字体类别对同一类别不同字体风格的文字进行二次划分; 针对类间差距小的问题, 根据书法文字训练集图像识别置信度对形近字进行子集划分, 针对子集进行嵌套模型增强训练, 在测试阶段利用叠层模型对形近字进行二次识别, 提升形近字的识别准确率. 为了验证该方法的鲁棒性, 在自主生成的SCUT_Calligraphy数据集和CASIA-HWDB 1.1, CASIA-AHCDB公开数据集上进行训练和测试, 实验结果表明该方法在上述数据集的识别准确率均有较大幅度提升, CASIA-HWDB 1.1CASIA-AHCDB和自建数据集SCUT_Calligraphy上测试准确率分别达到96.33%99.51%99.90%, 证明了该方法的有效性.

 

文章导读

 

文字识别是计算机视觉领域的一个重要问题, 在票证识别[1]、车牌识别[2]、智慧办公等领域都有广泛应用. 书法文字识别是一种特殊场景下的文字识别任务, 能够为古籍研究、文化传播提供极大的帮助. 由于书法文字包含大量繁体字, 字形复杂多变(如图1所示, 包括篆书体(包含大篆、小篆)、隶书体(包含古隶、今隶)、楷书体(包含魏碑、正楷)、行书体(包含行楷、行草)、草书体(包含章草、小草、大草、标准草书)), 且汉字类别数与其他大多数语言文字相比更多, 汉字本身又存在较多形近字, 导致书法文字识别任务更加复杂. 为了在相同的训练数据上达到更优的识别性能, 本文深入分析了书法文字图像的特点, 结合人类识别物体的生物学特性, 提出叠层模型驱动的书法文字识别方法(Stacked-model driven character recognition, SDCR), 同时使用数据预处理和节点分离策略辅助提升书法文字识别准确率.

 1  中国书法作品样例

 

叠层模型驱动的书法文字识别方法主要从两方面考虑设计: 一是数据预处理, 对训练数据集进行标准化、二值化和降噪等预处理, 提高训练数据的对比度和清晰度, 纠正错误数据, 以确保模型对数据的理解正确; 二是模型优化, 由于ResNet-50[3]在图像分类任务中精度和运算效率与其他框架相比有明显优势, 本文选择ResNet-50作为基线模型搭建叠层神经网络模型, 使用注意力机制和更有效的多分类交叉熵损失函数, 调整模型超参数(如学习率、批量大小等)以优化模型性能, 提高模型的精度, 通过旋转、缩放、梯形变换等数据增强方法提升模型的泛化能力. 通过调整初始化模型权重和偏差来提高模型训练的效率和精度, 使模型在相同的训练数据上获得更优的识别性能.

 

在过去的数十年中, 深度学习技术在汉字识别任务中取得了较好的效果[4]. 然而, 在大规模书法文字识别任务中, 通常会遇到类别不平衡现象, 其主要原因如下: 1)由于字体风格变化较大, 不同书法家书写同一个字, 字形差异可能非常大, 如图2(a)“字多形书法, 导致字类内相似度差距大, 在识别中经常错误识别为是之亡邑乏丫等字. 2)由于汉字本身存在较多形近字, 如图2(b)不同类别的书法文字已己巳巴王壬字形相似, 导致图像类间相似度差距小. 由于书法文字图像普遍存在类间差距小的问题, 在识别中经常被错误识别. 为解决上述问题, 本文提出叠层模型驱动的书法文字识别方法, 与现有基于深度学习的文字识别方法相比在数据质量、模型设计上有所改进, 不再依靠单模型的优化来提升文字识别性能, 而是通过叠层模型来提取易错形近字的细粒度特征, 进而提升书法文字识别准确率.

 2  书法文字中同一类字不同字形及形近字示例

 

本文的主要贡献和创新点包括以下两方面: 一是基于文本标签及不同书法字体生成了包含3767类常用汉字的SCUT_Calligraphy书法文字数据集, 其中训练集和测试集规模分别为25166426106. SCUT_Calligraphy数据集与现有数据集相比图像质量更高, 包含更多类型的字体和样式, 提供更准确的标注, 覆盖更多汉字类别. 二是提出了叠层模型驱动的书法文字识别方法, 对训练数据中同一类字中字形差异较大的图像数据进行节点分离, 在测试阶段进行节点合并, 有效解决了书法作品中一字多形导致的识别错误; 对形近字子集使用叠层模型进一步提取细粒度特征, 提升小类别范围内的识别准确率, 进而提高大类别场景的书法文字识别准确率, 并能够拓展应用到其他大类别数分类任务中. 综上所述, 本文从数据获取和模型设计的角度重新思考书法文字识别问题, 通过提升训练数据质量和改进模型构造方式来提升书法文字识别性能, 不再局限于单模型的性能优化, 充分提升了书法文字识别性能.

 

本文第1节将介绍书法文字识别方法和数据集的相关工作和研究现状. 2节介绍本文构建的叠层模型驱动的书法文字识别方法. 3节介绍实验设置与结果分析, 通过对比实验验证了本文所述方法的有效性. 最后总结全文.

 3  本文所述部分数据集图像示例

 

本文针对书法文字识别问题从数据生成和模型设计两方面给出新的策略, 为了满足书法文字识别任务需要, 本文构建了包含3 767类常用汉字的SCUT_Calligraphy数据集, 该数据集提供了更高质量的书法文字图像和更高精度的文本标签, 使得该数据集有很强的实用价值; 考虑到单模型在大类别数的识别任务中性能较差, 本文提出了叠层模型驱动的书法文字识别方法, 使用主流的残差网络ResNet-50作为基线模型, 使用注意力机制和更有效的损失函数, 调整模型超参数以优化模型性能, 通过数据增强方法增加训练集数据来改进模型的泛化性能, 通过调整初始化模型权重和偏差来提高模型训练的效率和精度, 使模型更容易并且更快速达到最优解, 对训练阶段数据中同一个字差异大的不同字形图像数据进行节点分离, 在测试阶段节点合并, 有效解决了书法作品中一字多形导致的识别错误; 对书法文字中广泛存在的形近字, 使用叠层模型提取细粒度特征, 有效提高了识别准确率. 基于本文所述工作, 本文对后续的研究工作提出以下展望: 叠层模型驱动模型在自然场景图像和视频识别任务中也同样有效, 在算力资源有限的情况下为大模型分解为小模型提供了新的思路, 对人脸识别中双胞胎识别区分会有很大作用. 后续本文会进一步实验论证, 相信叠层模型驱动对精度要求高的分类任务有很大帮助.

 

作者简介

 

麻斯亮

华南理工大学计算机科学与工程学院博士研究生. 主要研究方向为机器学习, 文字图像处理. E-mail: 202010107394@mail.scut.edu.cn

 

许勇

华南理工大学计算机科学与工程学院教授. 主要研究方向为机器学习, 视觉计算, 大数据. 本文通信作者. E-mail: yxu@scut.edu.cn



https://blog.sciencenet.cn/blog-3291369-1437717.html

上一篇:时延非线性系统无模型预设性能控制
下一篇:基于阅读技巧识别和双通道融合机制的机器阅读理解方法
收藏 IP: 150.242.79.*| 热度|

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-20 20:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部