IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

深度学习批归一化及其相关算法研究进展

已有 1502 次阅读 2023-3-1 12:33 |系统分类:博客资讯

引用本文

 

刘建伟, 赵会丹, 罗雄麟, 许鋆. 深度学习批归一化及其相关算法研究进展. 自动化学报, 2020, 46(6): 10901120 doi: 10.16383/j.aas.c180564

Liu Jian-Wei, Zhao Hui-Dan, Luo Xiong-Lin, Xu Jun. Research progress on batch normalization of deep learning and its related algorithms. Acta Automatica Sinica, 2020, 46(6): 10901120 doi: 10.16383/j.aas.c180564

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180564

 

关键词

 

批归一化,白化,中间协变量迁移,随机梯度下降,归一化传播,批量重归一化,逐步归纳批量归一化,层归一化 

 

摘要

 

深度学习已经广泛应用到各个领域, 如计算机视觉和自然语言处理等, 并都取得了明显优于早期机器学习算法的效果. 在信息技术飞速发展的今天, 训练数据逐渐趋于大数据集, 深度神经网络不断趋于大型化, 导致训练越来越困难, 速度和精度都有待提升. 2013, Ioffe等指出训练深度神经网络过程中存在一个严重问题: 中间协变量迁移(Internal covariate shift), 使网络训练过程对参数初值敏感、收敛速度变慢, 并提出了批归一化(Batch normalization, BN)方法, 以减少中间协变量迁移问题, 加快神经网络训练过程收敛速度. 目前很多网络都将BN作为一种加速网络训练的重要手段, 鉴于BN的应用价值, 本文系统综述了BN及其相关算法的研究进展. 首先对BN的原理进行了详细分析. BN虽然简单实用, 但也存在一些问题, 如依赖于小批量数据集的大小、训练和推理过程对数据处理方式不同等, 于是很多学者相继提出了BN的各种相关结构与算法, 本文对这些结构和算法的原理、优势和可以解决的主要问题进行了分析与归纳. 然后对BN在各个神经网络领域的应用方法进行了概括总结, 并且对其他常用于提升神经网络训练性能的手段进行了归纳. 最后进行了总结, 并对BN的未来研究方向进行了展望.

 

文章导读

 

近年来, 深度学习获得了广泛应用, 如语音识别与合成、计算机视觉、机器翻译和多模态问题回答等. 传统机器学习直接处理自然数据的能力有限, 需要专业人士对未处理过的数据人工提取特征和人工进行标注, 而深度神经网络则可以从原始数据中直接学习多级不同抽象层次的特征, 随着网络层数的加深, 可以学习数据更高层次的抽象表示, 得到的特征甚至可能是人类专家无法发现的.

 

随着近年来互联网技术的发展, 深度神经网络需要处理的数据集越来越趋于大型化和异构, 为了获得数据不同抽象层次的特征表示, 网络的层数逐渐增多, 甚至达到几百层, 导致网络训练花费的时间越来越长, 训练过程中容易出现梯度消失和爆炸等问题, 网络易陷入局部极小值, 训练准确率也有待提升.

 

最近几年, 图形处理器(Graphics processing unit, GPU)的使用加快了深度神经网络的训练速度, 其可以将数据集拆分, 对不同的处理器进行训练, 或者将神经网络进行拆分, 每个处理器训练网络的一部分[1]. 但是直到目前, 新的深度学习算法和深度神经网络新的应用表明, 深度神经网络的训练过程仍然会受到计算能力的限制. 因此很多学者致力于改进训练算法, 以加快神经网络的收敛速度.

 

早在1998, Lecun[2]指出白化(Whitening)网络输入可以加快神经网络训练过程的收敛速度, 其将输入数据归一化为服从概率分布N(0,1), 即均值为0、方差为1的正态分布, 降低数据样例各个分量之间的耦合性. Wiester[3]指出在深度神经网络中每一层进行激活值白化可以加快梯度下降训练过程收敛速度, 提出了均值归一化随机梯度算法, 这种方法类似于Raiko[4]提出的动态转化激活函数以使激活值具有零均值的方法. Povey[5]Desjardins[6]也提出了相似的方法, 但这些方法因为白化运算计算量大、算法复杂性高导致应用受到限制. 2015, Ioffe[7]提出批归一化(Batch normalization, BN), 以减少中间协变量迁移(Internal covariate shift)问题, 加快神经网络梯度下降训练过程的收敛速度. 中间协变量迁移指的是神经网络使用梯度下降法进行训练的过程中网络中每一层输入向量服从的概率分布不断发生改变, 容易造成梯度消失或爆炸, 使得梯度下降训练过程对连接边权值矩阵和偏置向量的初始值比较敏感, 初值选择不好, 梯度下降过程易陷入局部鞍点或局部最小点, 训练过程需减小学习率, 收敛速度变慢. BN作为神经网络的一部分, 可以使每一层的输入具有相同的和稳定的分布. BN通过引入两个和神经网络训练参数可以一起训练的参数, 保留了神经网络的原始表示能力. BN是可微的变换, 并且对梯度反向传播有好处. BN可以使神经网络训练过程对参数初值不再敏感. BN允许梯度迭代过程使用更大的学习率, 且不会引起梯度更新过程发散. BN也可以看作是正则化过程, 使得目前作为标准配置的dropout并非必须. BN允许网络使用饱和非线性激活函数, 且保证非线性激活函数值不会陷入饱和区. BN简单有效, 配合其他手段可以有效提升神经网络的训练速度, 并且可以在一定程度上提升神经网络的预测准确率.

 

BN因其简单有效的优点, 已应用到各个神经网络领域, 如卷积神经网络(Convolutional neural network CNN)、递归神经网络(Recurrent neural network RNN)、分片线性神经网络和域自适应学习等, 效果显著. 201710, 作为人工智能重大突破的AlphaGo Zero[8], 主要原理是卷积神经网络和强化学习相结合, 含有很多个卷积层, 每一个卷积层之后, 都会使用BN来规范化层输入, 是网络结构和训练中至关重要的一部分. BN减少了这些网络中中间协变量迁移的现象, 加快了训练过程的收敛速度. 但是BN也存在一些问题, 如对mini-batch数据集的大小过分依赖, 无法使用单个样本进行训练, 训练和推理时计算过程不同, 因此很多基于BN的归一化结构和算法相继被提出, 这些改进结构和算法分别克服了BN存在的一些问题, 应用到某些特定领域时可以产生优于BN的效果, 但是可能计算复杂性会高于BN, 适用的领域也会相对单一. 到目前为止, BN仍是深度神经网络训练过程使用最广泛的归一化手段.

 

本文内容安排如下: 1节阐述了BN的具体原理以及优点. 2节对BN各种相关结构和算法进行了详细分析. 3节系统地介绍了BN在各个神经网络领域的应用方法. 4节对BN及其相关算法进行了多方面对比分析. 5节对其他加速深度神经网络训练、提升训练精度的方法进行了归纳. 6节对BN的未来研究方向进行了展望. 7节进行全文总结.

 1  批归一化算法结构图

 2  隐层中的批归一化算法结构图

 3  批归一化相关结构与算法

 

深度神经网络训练过程中存在一个严重问题: 中间协变量迁移, 使网络训练过程对参数初值敏感, 不能使用更大的学习率进行训练, 训练过程收敛速度变慢. BN可以解决中间协变量迁移问题, 加快神经网络训练过程收敛速度. 本文首先对BN的原理、可以解决的主要问题、添加BN层的神经网络的梯度更新过程和BN的优点进行了详细分析. BN虽然简单实用, 但也存在一些问题, 如学习结果依赖于小批量数据集的大小、训练和推理时计算过程不同等, 于是相继提出了很多与BN相关的归一化结构和算法. 本文对归一化传播、批量重归一化、逐步归纳批量归一化、层归一化、连接边权值行向量归一化和归一化神经网络等几种重要归一化结构和算法的原理、优势和主要应用领域进行了分析和归纳. 最后对BN在各个神经网络领域的应用方法进行了概括总结, 并且对其他常用于提升神经网络训练性能的手段进行了归纳. 随着近年来深度神经网络逐渐趋于大型化、训练数据集为大数据集、网络训练时中间协变量迁移问题越来越严重, 归一化手段逐渐成为训练深度神经网络过程中必不可少的一部分, 提出更有效的归一化方法仍是深度学习领域的未来重点研究方向.

 

作者简介

 

刘建伟

中国石油大学(北京)自动化系副研究员. 主要研究方向为模式识别与智能系统, 先进控制. 本文通信作者. E-mail: liujw@cup.edu.cn

 

赵会丹

中国石油大学(北京)自动化系硕士研究生. 2016年获得中国石油大学(北京)自动化系学士学位. 主要研究方向为模式识别与智能系统. E-mail: zhaohuidan93@126.com

 

罗雄麟

中国石油大学(北京)自动化系教授. 主要研究方向为智能控制, 复杂系统分析, 预测与控制. E-mail: luoxl@cup.edu.cn

 

许鋆

哈尔滨工业大学(深圳)机电工程与自动化学院副教授. 主要研究方向为复杂非线性系统分析, 预测与控制. E-mail: xujunqgy@hit.edu.cn



https://blog.sciencenet.cn/blog-3291369-1378441.html

上一篇:线性离散系统的有限频域集员故障检测观测器设计
下一篇:基于周期性建模的时间序列预测方法及电价预测研究
收藏 IP: 117.114.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 19:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部