博文

基于跨模态深度度量学习的甲骨文字识别

已有 2807 次阅读 2022-8-31 16:21 |系统分类:博客资讯

引用本文

张颐康, 张恒, 刘永革, 刘成林. 基于跨模态深度度量学习的甲骨文字识别. 自动化学报, 2021, 47(4): 791−800 doi: 10.16383/j.aas.c200443

Zhang Yi-Kang, Zhang Heng, Liu Yong-Ge, Liu Cheng-Lin. Oracle character recognition based on cross-modal deep metric learning. Acta Automatica Sinica, 2021, 47(4): 791−800 doi: 10.16383/j.aas.c200443

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200443

关键词

甲骨文字识别，深度度量学习，最近邻分类，跨模态学习

摘要

甲骨文字图像可以分为拓片甲骨文字与临摹甲骨文字两类. 拓片甲骨文字图像是从龟甲、兽骨等载体上获取的原始拓片图像, 临摹甲骨文字图像是经过专家手工书写得到的高清图像. 拓片甲骨文字样本难以获得, 而临摹文字样本相对容易获得. 为了提高拓片甲骨文字识别的性能, 本文提出一种基于跨模态深度度量学习的甲骨文字识别方法, 通过对临摹甲骨文字和拓片甲骨文字进行共享特征空间建模和最近邻分类, 实现了拓片甲骨文字的跨模态识别. 实验结果表明, 在拓片甲骨文字识别任务上, 本文提出的跨模态学习方法比单模态方法有明显的提升, 同时对新类别拓片甲骨文字也能增量识别.

文章导读

甲骨文字是早在中国商朝时期就出现的文字, 是世界上最古老的文字之一, 同时也是中国及东亚已知的最早成体系的一种文字形式. 自动识别甲骨文字对考古学、古文字学以及历史年代学等多个领域都有着非常重要的应用价值. 目前甲骨文字标注基本只能依靠甲骨文专家手动处理, 计算机自动检测与识别技术刚刚起步, 性能远不能达到实用化水平. 随着人工智能技术的发展, 如何让计算机像处理现代文字一样处理甲骨文字, 成为计算机学者和文字与语言学者共同关注的课题.

如图1所示, 甲骨文字图像可以分为临摹甲骨文字图像与拓片甲骨文字图像两类. 拓片甲骨文字图像是从龟甲、兽骨等载体上获取的原始拓片图像, 临摹甲骨文字图像是专家临摹拓片甲骨文字后得到的高清图像, 修复了拓片甲骨文字图像的残缺和噪声等问题. 临摹甲骨文字图像可以通过临摹、手绘得到大量样本, 而拓片甲骨文字因为客观条件的限制难以获取. 由于缺少训练样本, 拓片甲骨文字识别很难取得较高的识别精度[1]. 因此, 本文研究如何用临摹甲骨文字样本辅助训练分类器进行拓片甲骨文字识别. 同时, 由于一些拓扑甲骨文字类别没有训练样本, 甲骨文字的增量识别也是辅助甲骨文字专家进行语言研究的重要手段.

图 1 不同模态的甲骨文字图像

由于甲骨文字本身具有噪声严重、图像残缺(如图2所示)、类内样本少、类间样本不均衡等问题, 文字识别领域性能优异的深度学习方法[2-4]由于依赖大量样本训练而难以得到满意的识别性能. Guo等[5]提出了一种基于卷积神经网络(Convolutional neural network, CNN)的甲骨文字分类方法, 他们在基于Gabor算子的低层特征和基于稀疏自编码器[6]的中层特征表示基础上, 设计了一种多特征融合的层次化特征表示方法, 继而通过CNN[7]实现了更好的识别效果. 这种方法依然是基于常规分类任务的CNN框架, 并没有充分利用甲骨文字自身的特点, 所以对样本极少的类别很难取得良好的识别性能.

图 2 拓片甲骨文中的字形残缺、大量噪声问题

为了充分利用临摹甲骨文字训练样本以提高拓片甲骨文字的识别性能, 我们提出一种基于深度度量学习的跨模态甲骨文字识别方法. 基于CNN和深度度量学习分别将拓片甲骨文字与临摹甲骨文字映射到相同维度的特征空间, 并通过对抗学习算法使相同类别的拓片甲骨文字和临摹甲骨文字具有相似的特征分布, 再使用深度度量学习对拓片甲骨文字特征进行修正, 以增大拓片字符样本与异类临摹甲骨文字特征的距离, 同时减小与同类临摹甲骨文字特征的距离, 实现甲骨文字的跨模态特征空间建模. 在跨模态特征学习的基础上, 我们以临摹甲骨文字特征作为原型, 使用最近邻分类方法对拓片甲骨文进行识别, 不仅可以提高已知(已训练)类别的识别性能, 还可以对没有训练样本的拓片甲骨文字进行增量识别(使用临摹甲骨文字原型). 根据已有资料来看, 本文工作首先在甲骨文字识别中提出跨模态学习方法, 通过利用临摹甲骨文字明显提高了拓片甲骨文字的识别精度, 并且可以实现对无训练样本的新类别拓片甲骨文字增量识别.

本文接下来的组织结构如下: 第1节主要介绍与本文研究相关的甲骨文字识别和草图识别, 以及深度度量学习和跨模态特征学习; 第2节介绍本文提出的跨模态甲骨文字识别方法; 第3节介绍实验设置和实验结果及分析; 第4节给出全文总结.

图 4 甲骨文字编码器结构

本文提出了一种基于深度度量学习和最近邻分类的跨模态甲骨文字识别框架, 相对于传统的CNN分类框架和单模态识别方法都具有明显的优势. 首先, 基于领域自适应的方式将拓片甲骨文字和临摹甲骨文字映射到相同的特征空间, 并保证来自同类的拓片甲骨文字与临摹甲骨文字特征具有相近的分布; 接着, 通过基于深度度量学习的特征修正, 增大拓片甲骨文字特征与异类临摹甲骨文字特征的距离, 同时减小拓片甲骨文字特征与同类临摹甲骨文字特征的距离; 最后, 以临摹甲骨文字特征为原型, 使用最近邻分类方法对拓片甲骨文字进行识别, 并在已知类识别和新类增量识别中验证了算法的有效性.

本文方法基于临摹甲骨文字原型可以对没有训练样本的拓片甲骨文字类别进行增类识别, 这对实际应用场合的拓片甲骨文字解读提供帮助. 如果临摹甲骨文字和拓片甲骨文字的训练样本能提供细粒度的同类异形标记, 将有助于训练更好的模型, 进一步提高识别精度.

作者简介

张颐康

中科院大学硕士研究生. 2016年获得中国农业大学学士学位. 主要研究方向为文字识别. E-mail: yikang.zhang@nlpr.ia.ac.cn

张恒

中国科学院自动化研究所副研究员. 2007年获中国科学技术大学学士学位, 2013年获中科院大学博士学位. 主要研究方向为文档图像分析与识别. E-mail: heng.zhang@ia.ac.cn

刘永革

安阳师范大学教授. 2000年获得西北工业大学硕士学位. 2012年至2013年, 他以访问学者身份访问加州大学洛杉矶分校. 主要研究方向为甲骨文信息处理,多媒体分析. E-mail: ay_liuyongge@163.com

刘成林

中国科学院自动化研究所模式识别国家重点实验室研究员. 主要研究方向为图像处理, 模式识别,机器学习, 文字识别, 文档分析. 本文通信作者.E-mail: liucl@nlpr.ia.ac.cn

转载本文请联系原作者获取授权，同时请注明本文来自欧彦科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3291369-1353444.html

上一篇：基于区块自适应特征融合的图像实时语义分割
下一篇：鲁棒自适应概率加权主成分分析

收藏 IP: 222.131.242.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

欧彦

扫一扫，分享此博文

全部作者的精选博文

• 2023年度自动化领域国家自然科学基金申请与资助情况

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于跨模态深度度量学习的甲骨文字识别

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于跨模态深度度量学习的甲骨文字识别

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)