IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

使用增强学习训练多焦点聚焦模型

已有 443 次阅读 2024-7-7 16:56 |系统分类:博客资讯

引用本文

 

刘畅, 刘勤让. 使用增强学习训练多焦点聚焦模型. 自动化学报, 2017, 43(9): 1563-1570. doi: 10.16383/j.aas.2017.c160643

LIU Chang, LIU Qin-Rang. Using Reinforce Learning to Train Multi-attention Model. ACTA AUTOMATICA SINICA, 2017, 43(9): 1563-1570. doi: 10.16383/j.aas.2017.c160643

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160643

 

关键词

 

深度学习,聚焦模型,增强学习,多焦点 

 

摘要

 

聚焦模型(Attention modelAM)将计算资源集中于输入数据特定区域,相比卷积神经网络,AM具有参数少、计算量独立输入和高噪声下正确率较高等优点.相对于输入图像和识别目标,聚焦区域通常较小;如果聚焦区域过小,就会导致过多的迭代次数,降低了效率,也难以在同一输入中寻找多个目标.因此本文提出多焦点聚焦模型,同时对多处并行聚焦.使用增强学习(Reinforce learningRL)进行训练,将所有焦点的行为统一评分训练.与单焦点聚焦模型相比,训练速度和识别速度提高了25%.同时本模型具有较高的通用性.

 

文章导读

 

深度神经网络掀起了学界和工业界的热潮, 使得人工智能达到了前所未有的高度.例如物体识别、自然图像识别、语音识别、静态机器翻译、太空游戏和围棋游戏[1-2].这些成就往往伴随着大量的训练和运行时间.尽管采用各种降参手段, 一个大型卷积神经网络(Convolutional neural networks, CNN)常常在多GPU的机器上训练多天[3].在一些研究中, GPU处理单张图片就需要多秒[4-5].这种普遍的情况原因之一, 是大量的研究基于经典的滑动窗口加分类器的模型[6-7].如果对整幅图像进行卷积, 计算量随着像素数量线性增长, 所以这种模型是计算昂贵的[8].

 

聚焦模型(Attention model, AM)是一种循环神经网络(Recurrent neural network, RNN), 是当前新兴的深度学习模型. Attention是指神经网络在执行任务时, 把焦点(即计算资源), 集中于输入数据中的特定部分.因此可以让神经网络每一步从更大的输入中获取信息. AM源自人类视觉系统[9].生物解剖表明:人类视网膜中央视锥细胞较多较密, 而边缘稀疏.人类视觉总是集中于视觉中心, 并不断移动[8].关于AM已经有了广泛的应用研究.比如视频中的运动识别跟踪.文献[10]可以大致定位目标区域, 而只使用了7层神经网络.文献[11]通过对特定特征进行处理, 实现了迭代纠错, 提高了鲁棒性和高噪声的分辨率.文献[12-13]根据不同的描述语言, 在图像中寻找相关的区域.基于这种视觉模型的相关研究, 国内也有很多应用, 文献[14]针对网络中受丢包损伤的视频提出了一种基于视觉注意力变化的全参考客观质量评估方法.文献[15]面向运动目标监测, 构建了一种基于粒子滤波的视觉聚焦模型.文献[16]使用AM进行了文本分类问题的探究.

 

基于VolodymyrRecurrent models of visual attention (出于翻译习惯缩写为RAM, recurrent attention model)[8], 本文设计了一种多焦点聚焦模型. RAM是一种高效灵活的循环神经网络, 使用输入图像中的一小部分作为输入, 使用内部状态选择下一个焦点的位置, 根据所有获得的信息推断目标. RAM有多种优点, 所有参数数量和计算量都独立于输入图像大小, 可以自动忽视一些复杂的噪声干扰, 具有较高的通用性可以适用于各种视觉任务. RAM也有一些限制, 每次仅从图像中获取一个局部, 如果目标种类较多, 识别目标较大, 需要循环更多的次数才能完成识别.在输入图像过大时, 焦点不理想而采样在空白的概率也会增大, 降低效率.本文在RAM基础上, 提出了多焦点聚焦模型, 即每次从图像中采取两个或多个局部.焦点的采样是逻辑并行的.整个模型依然使用端到端的增强学习(Reinforce learning, RL)训练, 保证了模型的有效性和正确率.由于采样速率加倍, 所以仅需更少的迭代即可完成识别任务, 提高了识别速度和效率, 也提高了训练时的收敛速度.同时本模型的实用性得到进一步扩展, 不仅可以应用到视频等动态环境, 也可以作为处理多媒体数据的一种思路, 可以将一部分焦点置于视频的同时将另一部分焦点置于音频, 从而完成需要多种输入处理的复杂任务.经实验验证, 多焦点聚焦模型相比单焦点聚焦模型, 计算精度略优, 计算量降低, 识别速度和训练速度提高约25%.并保留了RAM通用性较高等优点.本文结构安排:1节介绍多焦点聚焦模型结构; 2节给出了模型训练算法; 3节通过实验验证模型的有效性并进行性能分析; 4节总结并指出下一步研究方向.

 1  单焦点聚焦模型识别过程

 2  模型结构

 3  多焦点模型识别过程

 

本文基于单焦点聚焦模型, 提出并实现了一个多焦点聚焦模型.多焦点聚焦模型的主要思想, 是并行提取输入数据中的多处信息.使用RL训练网络模型, 让模型学会寻找最有利的焦点位置.提取输入数据中最有效的信息, 完成识别任务.使用MNIST数据集及其变种进行各种实验, 验证了多焦点聚焦模型的有效性.实验结果证明, 相比于单焦点聚焦模型, 正确率略优, 训练速度和识别速度都有提高, 因为多焦点聚焦模型的信息提取效率较高.同时多焦点聚焦模型保留了单焦点聚焦模型的多种优点, 识别目标位置灵活, 计算量独立于输入图像大小, 一定的抗噪声能力, 端到端的训练算法.多焦点聚焦模型具有更大的实用潜力, 例如用在多媒体信息处理的任务等.

 

下一步, 用更多更大的数据集和更大的图像(ImageNet)进行测试同一图像中多目标的识别.将最优的焦点形状、面积、数量, 更快的训练速度, 优化GPU的表现应用于更多的应用, 例如对多媒体文件的识别.

 

作者简介

 

刘勤让

国家数字交换系统工程技术研究中心研究员.主要研究方向为片上网络设计. E-mail: qinrangliu@sina.com

 

刘畅 

国家数字交换系统工程技术研究中心硕士研究生.主要研究方向为人工智能和芯片技术.本文通信作者.E-mail: liunux1992@gmail.com



https://blog.sciencenet.cn/blog-3291369-1441272.html

上一篇:基于区块链的医疗数据共享模型研究
下一篇:一种基于共享度模型的改进Rete算法
收藏 IP: 150.242.79.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-30 17:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部