|
引用本文
张忠豪, 董方敏, 胡枫, 吴义熔, 孙水发. 基于残差的门控循环单元. 自动化学报, 2022, 48(12): 3067−3074 doi: 10.16383/j.aas.c190591
Zhang Zhong-Hao, Dong Fang-Min, Hu Feng, Wu Yi-Rong, Sun Shui-Fa. Residual based gated recurrent unit. Acta Automatica Sinica, 2022, 48(12): 3067−3074 doi: 10.16383/j.aas.c190591
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190591
关键词
深度学习,循环神经网络,门控循环单元,残差连接
摘要
传统循环神经网络易发生梯度消失和网络退化问题. 利用非饱和激活函数可以有效克服梯度消失的性质, 同时借鉴卷积神经网络中的残差结构能够有效缓解网络退化的特性, 在门控循环神经网络(Gated recurrent unit, GRU)的基础上提出了基于残差的门控循环单元(Residual-GRU, Re-GRU)来缓解梯度消失和网络退化问题. Re-GRU的改进主要包括两个方面: 1)将原有GRU的候选隐状态的激活函数改为非饱和激活函数; 2)在GRU的候选隐状态表示中引入残差信息. 对候选隐状态激活函数的改动不仅可以有效避免由饱和激活函数带来的梯度消失问题, 同时也能够更好地引入残差信息, 使网络对梯度变化更敏感,从而达到缓解网络退化的目的. 进行了图像识别、构建语言模型和语音识别3类不同的测试实验, 实验结果均表明, Re-GRU拥有比对比方法更高的检测性能, 同时在运行速度方面优于Highway-GRU和长短期记忆单元. 其中, 在语言模型预测任务中的Penn Treebank数据集上取得了23.88的困惑度, 相比有记录的最低困惑度, 该方法的困惑度降低了一半.
文章导读
在过去的十几年里, 深度学习的提出对全球各个领域带来了巨大的影响. 深层神经网络、卷积神经网络和循环神经网络(Recurrent neural network, RNN)等神经网络模型被广泛应用于各个领域. 其中, 循环神经网络具有捕获长序依赖的能力, 因此被广泛应用于语音识别[1]、语言建模[2]、机器翻译[3]等自然语言处理[1-4]领域. 然而, 普通循环神经网络会因为梯度消失[5]和梯度爆炸问题而变得不稳定, 于是学者们提出基于长短期记忆单元(Long short-term memory, LSTM)的时间递归神经网络[1, 6]来缓解梯度消失和梯度爆炸问题. 虽然LSTM确实有效, 但其门限繁杂, 于是近些年有许多针对LSTM的改良方案被提出, 其中门控循环单元(Gated recurrent unit, GRU)[7]是LSTM最具代表性的一种改进方案.
深度学习的成功主要归因于它的深层结构[8-9], 然而训练一个深层网络是较为困难的事. 随着网络层数的增加, 梯度消失、梯度爆炸、网络退化[10]等问题会导致模型被损坏. 为了能够进行更深的网络训练, 目前已有多种深层前馈神经网络的结构被提出, 最具代表性的有高速公路网络[9], 用于卷积神经网络的残差网络[11], 以及最近被提出的能够进行更深网络训练的简单循环单元(Simple recurrent units, SRU)[12-13].
在循环神经网络体系中, 因为通常使用了饱和激活函数, 所以很少会发生梯度爆炸问题, 但是由饱和激活函数而带来的梯度消失问题却很常见. 虽然LSTM和GRU相比传统的RNN是具备缓解梯度消失问题的能力, 但实际上这种缓解是有限的, 这个问题将在后文通过实验来具体展现. 在循环神经网络中也存在着网络退化问题, 导致循环神经网络的性能随着网络层数的增加而越来越糟糕. 采用高速公路网络的方法能够缓解网络的退化问题, 但是这种方法会增加网络参数量和训练耗时[11]. 近两年备受关注的SRU网络也包含了类似高速公路网络的结构[13], 同时SRU舍去了循环单元中的时间参数, 所以在运行快速的同时在一些任务中也能够进行更深的网络训练.
本文通过对GRU结构的深入研究, 发现通过修改其候选隐状态的激活函数并添加残差连接, 可以有效地解决原始GRU的梯度消失和网络退化问题. 而对于使用了非饱和激活函数而可能导致的梯度爆炸隐患, 本文则是采用了批标准化(Batch normalization, BN)[14]的方法来解决. 在本文的3类不同对比实验中, 本文设计的(Residual-GRU, Re-GRU)在3类实验中均取得了比GRU、LSTM、Highway-GRU、SRU等网络更好的效果, 并且在同样的配置下, 本文设计的Re-GRU比LSTM和Highway-GRU耗时更短.
图 1 GRU单元结构
图 2 高速公路网络结构
图 3 残差网络结构
在循环神经网络体系中, 存在着梯度消失和网络退化问题, 本文基于GRU提出的Re-GRU具备解决梯度消失和网络退化问题的能力. 与传统循环神经网络相比, 本文的Re-GRU在网络层数较深时模型依然能有较好的性能, 并且本文的改进并没有增加网络的参数量. 相比传统的循环神经网络, 本文的Re-GRU有着更低的错误率和较低的训练耗时. 在缺点方面, 本文设计的Re-GRU不能够避免过拟合现象: 如果使用了特别深的网络, 虽然模型的损失值可能继续降低或者保持不变, 但模型效果却可能变差. 此外, 之前也对RNN和LSTM进行了类似的改进并进行实验, 发现本文的改进方法在RNN上使用后能够相对RNN有较大效果提升, 但却并不适用于LSTM. 通过理论分析和具体实验发现: 当将LSTM的两个或其中一个时序传输公式中的饱和激活函数修改为非饱和激活函数时, 都会导致模型发生梯度爆炸问题; 并且, 仅仅对LSTM直接添加残差连接未能取得较大效果提升.
作者简介
张忠豪
三峡大学硕士研究生. 主要研究方向为人工智能和自然语言处理. E-mail: zhangminecraftbiu@gmail.com
董方敏
三峡大学教授. 主要研究方向为计算图形学, 计算机视觉和人工智能. E-mail: fmdong@ctgu.edu.cn
胡枫
三峡大学硕士研究生. 主要研究方向为自然语言处理. E-mail: h18271692608@163.com
吴义熔
三峡大学教授. 主要研究方向为人工智能和自然语言处理. E-mail: yirongwu@gmail.com
孙水发
三峡大学教授. 主要研究方向为多媒体信息处理和智能信息处理. 本文通信作者.E-mail: watersun@ctgu.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 16:38
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社