|
引用本文
姚红革, 董泽浩, 喻钧, 白小军. 深度EM胶囊网络全重叠手写数字识别与分离. 自动化学报, 2022, 48(12): 2996−3005 doi: 10.16383/j.aas.c190849
Yao Hong-Ge, Dong Ze-Hao, Yu Jun, Bai Xiao-Jun. Fully overlapped handwritten number recognition and separation based on deep EM capsule network. Acta Automatica Sinica, 2022, 48(12): 2996−3005 doi: 10.16383/j.aas.c190849
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190849
关键词
深度胶囊网络,重叠数字识别,重叠数字分离,EM向量聚类
摘要
基于胶囊网络的向量神经元思想和期望最大算法(Expectation-maximization, EM), 设计了一种以EM为向量聚类算法的深度胶囊网络(Deep capsule network, DCN), 实现了重叠手写数字的识别与分离. 该网络由两部分组成, 第 1 部分是“识别网络”, 将 EM 算法改为 EM 向量聚类算法, 以替换原胶囊网络CapsNet 中的迭代路由部分, 这一改动优化了网络的运算过程, 实现了重叠数字识别. 第 2 部分是“重构网络”, 由结构完全相同的两个并行网络组成, 对双向量进行并行重构, 实现了重叠数字的分离. 实验结果显示, 对于 100% 全重叠手写数字图片本网络识别率达到了 96%, 对比CapsNet 在 80% 的重叠率下 95% 的识别率, 本文网络在难度提升的情况下, 识别率有明显提高, 能够将完全重叠的两张手写数字进行图片进行准确地分离.
文章导读
识别并分离高度重合数字对象的问题由Hinton等[1]于2002年提出, 多年来也有其他研究者在该领域进行了研究, 如Goodfellow等[2]使用深度卷积网络, Ba等[3]使用视觉注意力机制和Greff等[4]使用深度无监督分组进行尝试. 他们均是利用对象形状的先验知识进行分离. 在性能最好的Ba等[3]的研究中虽然实现了95%的识别率, 但图片也只是4%的重叠率.
直到Sabour等[5]所研究的胶囊网络CapsNet面世, 重叠手写体识别成功率才有了大幅提高, 当重叠率80%时识别率可达95%. 胶囊网络的主要特征是, 使用胶囊神经元代替了普通神经元, 使用向量代替了在网络中流通的标量. 胶囊神经元除了承载着网络权值的联系之外, 其向量内部也存在着维度上的联系, 丰富了图像特征的表达与提取能力. 在CapsNet中使用了迭代路由算法, 该算法用向量内积来表示向量方向的同向程度, 动态路由通过迭代来实现. CapsNet将最突出的向量作为分类结果输出, 向量的突出程度跟胶囊内与输出向量方向相近的向量数目和模长正相关. 为避免在使用内积作为衡量手段出现无上界的情况, 对向量进行了输出前的压缩.
CapsNet的优势是简单易实现, 但在使用它进行全重叠数字图片识别时发现, 由于网络深度宽度不足, 中间向量的规模太小, 同时内积路由算法效率低. 这些因素降低了网络的速度, 影响了网络的聚类效果, 从而使网络对图像特征提取不够充分, 在分类时表现不佳, 导致重构出来的分离图片不够准确和清晰. 为了提高对全重叠手写数字的识别精度, 基于CapsNet, 本文提出以下改进方法:
1)首先对胶囊网络CapNet进行加深. 在它的Conv1层之后加入一层卷积层“卷积层2”, 提高目标特征提取能力; 另外在CapNet的DigitCap之后, 对应本文“初级胶囊层(胶囊部分)”之后加入一层全连接胶囊层“聚类胶囊层1”, 增加聚类能力以增强网络识别能力, 参见图1(a).
图 1 深度胶囊网络结构图
2)提高胶囊维度为16维. 这样使各个胶囊层胶囊统一维度为16维, 既提高了胶囊对图片特征表达能力, 减少维度转换时系统消耗和信息的丢失和变异, 也便于各层间信息的传输.
3)用EM (Expectation-maximization)向量聚类取代原路由聚类, 提高聚类效果. 胶囊网络中向量神经元将低级特征预测为高级特征, 输出向量的分布符合以不同高级特征为期望的混合高斯模型[5]. 混合高斯模型是有限混合概率分布模型, 其可用EM算法找到最大似然估计[6-7]. 通过假设隐变量的存在, 简化似然函数方程的求解[6-8]. 基于此特点, 本文将EM聚类改为EM向量聚类, 并用它取代胶囊网络中的迭代路由, 提高了聚类效果. 也减少中间变量的产生, 降低显存以及空间消耗, 总体提高系统的运行效率.
4)设计了一个并行重构网络. 因为要分离两个重叠的数字, 需要取两个模数最长的向量来进行重构, 因此数字重构网络必须要设计成并行的两个网络结构, 才能对模数最长的两个向量分别并行重构. 依据这一想法, 本文设计了一个双并行重构网络结构, 实现了对两个全重叠手写数字的分离重构, 参见图1(b).
图 2 EM向量聚类算法流程图
图 3 全重叠数据集
本文设计了一种深度胶囊网络模型DCN, 它具有6层网络结构, 使用向量维数为16维, 用EM的向量聚类算法代替了原路由算法. 同时构建了一个并行重构网络, 以实现对重叠目标的分离重构. 最后用不同的聚类次数与训练集对重叠手写体数字进行了识别实验, 结果显示DCN网络对全重叠手写数字识别率达到96%, 超过了胶囊网络CapsNet在80%重叠率下识别率95%, 分离重构图片的效果较好. 但是DCN对重叠数字的重构效果还未达到理想效果, 重构目标还是有一定比例的模糊和近4%的识别错误问题, 这将在后期工作中进行完善. 后期工作也将进一步提高该方法应用于重叠手写汉字的识别.
作者简介
姚红革
博士, 西安工业大学计算机科学与工程学院副教授. 主要研究方向为机器学习, 计算机视觉.E-mail: yaohongge@xatu.edu.cn
董泽浩
西安工业大学计算机科学与工程学院硕士研究生.主要研究方向为深度学习, 胶囊网络.E-mail: axxddzh@gmail.com
喻钧
西安工业大学计算机科学与工程学院教授. 主要研究方向为图像处理, 模式识别.E-mail: yujun@xatu.edu.cn
白小军
西安工业大学计算机科学与工程学院副教授, 电子信息现场勘验应用技术公安部重点实验室研究员. 主要研究方向为数字图像处理, 人工智能与机器学习. 本文通信作者.E-mail: baixiaojun@xatu.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 21:06
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社