博文

结合感受野增强和全卷积网络的场景文字检测方法

已有 2042 次阅读 2022-3-4 17:14 |系统分类:博客资讯

引用本文

李晓玉, 宋永红, 余涛. 结合感受野增强和全卷积网络的场景文字检测方法. 自动化学报, 2022, 48(3): 797−807 doi: 10.16383/j.aas.c190376

Li Xiao-Yu, Song Yong-Hong, Yu Tao. Text detection in natural scene images based on enhanced receptive field and fully convolution network. Acta Automatica Sinica, 2022, 48(3): 797−807 doi: 10.16383/j.aas.c190376

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190376?viewType=HTML

文章简介

关键词

感受野增强, Focalloss, GIoUloss, 全卷积网络

摘要

自然场景图像质量易受光照及采集设备的影响, 且其背景复杂, 图像中文字颜色、尺度、排列方向多变, 因此, 自然场景文字检测具有很大的挑战性. 本文提出一种基于全卷积网络的端对端文字检测器, 集中精力在网络结构和损失函数的设计, 通过设计感受野模块并引入 Focalloss、GIoUloss 进行像素点分类和文字包围框回归, 从而获得更加稳定且准确的多方向文字检测器. 实验结果表明本文方法与现有先进方法相比, 无论是在多方向场景文字数据集还是水平场景文字数据集均取得了具有可比性的成绩.

引言

场景图像文字中承载的高级语义信息可以帮助我们更好地理解周围的世界, 同时场景图像文字检测技术也可以广泛地应用于多媒体检索、视觉输入和访问, 以及工业自动化. 早期的文字检测技术都是使用传统的模式识别技术, 可以分为两大主流方法, 一种是以连通区域分析为核心技术的文字检测方法, 另一种则是以滑动窗为核心技术的文字检测方法. 传统的模式识别方法一般包含多个步骤: 字符候选区域生成、候选区域滤除、文本行构造和文本行验证, 繁琐的检测步骤致使文字检测结果过于依赖中间结果且非常耗时.

随着计算机视觉和模式识别领域的发展, 目标检测方法研究开始使用卷积神经网络(Convolutional neural network, CNN), 研究者们开始借鉴基于深度学习的目标检测方法来检测文字, 因此产生了一系列基于回归的深度学习文字检测方法, 该类方法主要是基于目标检测框架 SSD (Single shot multibox detector)、Faster-RCNN (Region CNN)等进行针对文字特性的改进得到. 这类方法的主要特点是通过回归水平矩形框、旋转矩形框以及四边形等形状来获得文字检测结果. 同时, 由于后续文字识别步骤需要精确的文字定位结果, 也诞生了一系列基于分割的深度学习文字检测方法, 该类方法主要借鉴语义分割的思路, 将文本像素分到不同的实例中, 并通过一些后处理方法获得文字像素级别的定位结果, 并且由于像素级检测的特点, 近年来该类方法逐渐开始用于解决曲线文本检测与识别问题. 此外, 由于无论是基于目标检测还是基于分割都存在各自的局限, 因此也有学者尝试融合检测和分割的思想进行文字检测. 虽然近些年基于深度学习的文字检测方法已经取得巨大进步, 但是文字作为一种具有其独有特色的目标, 其字体、颜色、方向、大小等呈现多样化形态, 相比一般目标检测更加困难, 即便有许多的学者尝试根据文字的特点进行网络改进, 如使用旋转敏感的回归来适应任意方向文本, 亦或使用端到端的文字检测与识别方法联合优化检测和识别结果, 但在遇到多方向文字以及多尺度文字场景图像时, 检测准确性和有效性依旧差强人意. 另外, 现有检测方法有一阶端对端检测流程, 但当前一阶方法存在以下问题: 1) 一阶方法如果使用较小的网络结构进行检测, 速度快但精度不理想, 因此, 一阶方法一般会通过增加网络深度提高检测精度, 显然, 这种做法增大了计算开销, 检测速度无法得到满足; 2) 一阶检测方法存在严重的正负样本不均衡、对目标尺度不敏感等问题, 也导致检测器准确率不高.

本文提出一种可端对端训练的快速文本检测方法, 可以鲁棒地检测任意方向文本和多尺度文本. 为了提升网络的检测效果并尽量减少计算量, 受人类视觉系统感受野结构的启发, 在网络结构设计中加入手工设计的感受野增强模块, 从而在保持较快速度前提下提高检测精度, 克服了一阶检测方法速度快精度低的弊端. 在损失函数部分, 为了改善样本不均衡、文字尺度不敏感等问题, 引入 Focalloss和GIoUloss训练网络, 进一步提升网络性能.

图 1 本文方法检测流程图

图 2 本文方法网络结构图

图 8 本文方法在各个数据集上检测结果比较

作者简介

李晓玉

西安交通大学软件学院硕士研究生. 主要研究方向为自然场景文字检测技术.

E-mail: 18155760591@163.com

宋永红

西安交通大学人工智能学院研究员. 主要研究方向为图像与视频内容理解, 智能软件开发. 本文通信作者.

E-mail: songyh@xjtu.edu.cn

余涛

西安交通大学软件学院硕士研究生. 2018年获得西安交通大学软件学院学士学位. 主要研究方向为自然场景文字检测技术.

E-mail: yyttmonster@outlook.com

相关文章

[1] 李文英, 曹斌, 曹春水, 黄永祯. 一种基于深度学习的青铜器铭文识别方法. 自动化学报, 2018, 44(11): 2023-2030. doi: 10.16383/j.aas.2018.c180152

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c180152?viewType=HTML

[2] 王润民, 桑农, 丁丁, 陈杰, 叶齐祥, 高常鑫, 刘丽. 自然场景图像中的文本检测综述. 自动化学报, 2018, 44(12): 2113-2141. doi: 10.16383/j.aas.2018.c170572

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170572?viewType=HTML

[3] 金连文, 钟卓耀, 杨钊, 杨维信, 谢泽澄, 孙俊. 深度学习在手写汉字识别中的应用综述. 自动化学报, 2016, 42(8): 1125-1141. doi: 10.16383/j.aas.2016.c150725

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150725?viewType=HTML

[4] 陈清江, 张雪. 基于并联卷积神经网络的图像去雾. 自动化学报, 2021, 47(7): 1739-1748. doi: 10.16383/j.aas.c190156

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190156?viewType=HTML

[5] 司念文, 张文林, 屈丹, 罗向阳, 常禾雨, 牛铜. 卷积神经网络表征可视化研究综述. 自动化学报. doi: 10.16383/j.aas.c200554

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200554?viewType=HTML

[6] 谭建豪, 郑英帅, 王耀南, 马小萍. 基于中心点搜索的无锚框全卷积孪生跟踪器. 自动化学报, 2021, 47(4): 801-812. doi: 10.16383/j.aas.c200469

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200469?viewType=HTML

[7] 孟琭, 孙霄宇, 赵滨, 李楠. 基于卷积神经网络的铁轨路牌识别方法. 自动化学报, 2020, 46(3): 518-530. doi: 10.16383/j.aas.c190182

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190182?viewType=HTML

[8] 姚红革, 董泽浩, 喻钧, 白小军. 深度EM胶囊网络全重叠手写数字识别与分离. 自动化学报. doi: 10.16383/j.aas.c190849

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190849?viewType=HTML

[9] 秦超, 高晓光, 万开方. 深度卷积记忆网络时空数据模型. 自动化学报, 2020, 46(3): 451-462. doi: 10.16383/j.aas.c180788

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180788?viewType=HTML

[10] 林景栋, 吴欣怡, 柴毅, 尹宏鹏. 卷积神经网络结构优化综述. 自动化学报, 2020, 46(1): 24-37. doi: 10.16383/j.aas.c180275

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180275?viewType=HTML

[11] 冯永, 陈以刚, 强保华. 融合社交因素和评论文本卷积网络模型的汽车推荐研究. 自动化学报, 2019, 45(3): 518-529. doi: 10.16383/j.aas.2018.c170245

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170245?viewType=HTML

[12] 张芳, 王萌, 肖志涛, 吴骏, 耿磊, 童军, 王雯. 基于全卷积神经网络与低秩稀疏分解的显著性检测. 自动化学报, 2019, 45(11): 2148-2158. doi: 10.16383/j.aas.2018.c170535

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170535?viewType=HTML

[13] 唐贤伦, 杜一铭, 刘雨微, 李佳歆, 马艺玮. 基于条件深度卷积生成对抗网络的图像识别方法. 自动化学报, 2018, 44(5): 855-864. doi: 10.16383/j.aas.2018.c170470

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170470?viewType=HTML

[14] 袁文浩, 孙文珠, 夏斌, 欧世峰. 利用深度卷积神经网络提高未知噪声下的语音增强性能. 自动化学报, 2018, 44(4): 751-759. doi: 10.16383/j.aas.2018.c170001

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170001?viewType=HTML

[15] 王伟凝, 王励, 赵明权, 蔡成加, 师婷婷, 徐向民. 基于并行深度卷积神经网络的图像美感分类. 自动化学报, 2016, 42(6): 904-914. doi: 10.16383/j.aas.2016.c150718

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150718?viewType=HTML

[16] 张晖, 苏红, 张学良, 高光来. 基于卷积神经网络的鲁棒性基音检测方法. 自动化学报, 2016, 42(6): 959-964. doi: 10.16383/j.aas.2016.c150672

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150672?viewType=HTML

[17] 孙晓, 潘汀, 任福继. 基于ROI-KNN卷积神经网络的面部表情识别. 自动化学报, 2016, 42(6): 883-891. doi: 10.16383/j.aas.2016.c150638

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150638?viewType=HTML

[18] 随婷婷, 王晓峰. 一种基于CLMF的深度卷积神经网络模型. 自动化学报, 2016, 42(6): 875-882. doi: 10.16383/j.aas.2016.c150741

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150741?viewType=HTML

[19] 张婷, 李玉鑑, 胡海鹤, 张亚红. 基于跨连卷积神经网络的性别分类模型. 自动化学报, 2016, 42(6): 858-865. doi: 10.16383/j.aas.2016.c150658

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150658?viewType=HTML

[20] 刘明, 李国军, 郝华青, 侯增广, 刘秀玲. 基于卷积神经网络的T波形态分类. 自动化学报, 2016, 42(9): 1339-1346. doi: 10.16383/j.aas.2016.c150817

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150817?viewType=HTML

[21] 常亮, 邓小明, 周明全, 武仲科, 袁野, 杨硕, 王宏安. 图像理解中的卷积神经网络. 自动化学报, 2016, 42(9): 1300-1312. doi: 10.16383/j.aas.2016.c150800

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150800?viewType=HTML

[22] 李智勇, 何霜, 刘俊敏, 李仁发. 基于蛙眼R3细胞感受野模型的运动滤波方法. 自动化学报, 2015, 41(5): 981-990. doi: 10.16383/j.aas.2015.c140810

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2015.c140810?viewType=HTML

[23] 胡峰, 孙国基. Kalman滤波的抗野值修正. 自动化学报, 1999, 25(5): 692-696.

http://www.aas.net.cn/cn/article/id/16651?viewType=HTML

转载本文请联系原作者获取授权，同时请注明本文来自欧彦科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3291369-1328044.html

上一篇：一种改进的视频分割网络及其全局信息优化方法
下一篇：基于混合变分自编码器回归模型的软测量建模方法

收藏 IP: 159.226.181.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

欧彦

扫一扫，分享此博文

全部作者的精选博文

• 2023年度自动化领域国家自然科学基金申请与资助情况

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

结合感受野增强和全卷积网络的场景文字检测方法

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

结合感受野增强和全卷积网络的场景文字检测方法

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)