IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于多隐层Gibbs采样的深度信念网络训练方法

已有 1260 次阅读 2023-8-16 16:18 |系统分类:博客资讯

引用本文

 

史科, 陆阳, 刘广亮, 毕翔, 王辉. 基于多隐层Gibbs采样的深度信念网络训练方法. 自动化学报, 2019, 45(5): 975-984. doi: 10.16383/j.aas.c170669

SHI Ke, LU Yang, LIU Guang-Liang, BI Xiang, WANG Hui. A Deep Belief Networks Training Strategy Based on Multi-hidden Layer Gibbs Sampling. ACTA AUTOMATICA SINICA, 2019, 45(5): 975-984. doi: 10.16383/j.aas.c170669

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c170669

 

关键词

 

深度信念网络,受限玻尔兹曼机,Gibbs采样,对比散度 

 

摘要

 

深度信念网络(Deep belief networkDBN)作为一类非常重要的概率生成模型,在多个领域都有着广泛的用途.现有深度信念网的训练分为两个阶段,首先是对受限玻尔兹曼机(Restricted Boltzmann machineRBM)层自底向上逐层进行的贪婪预训练,使得每层的重构误差最小,这个阶段是无监督的;随后再对整体的权值使用有监督的反向传播方法进行精调.本文提出了一种新的DBN训练方法,通过多隐层的Gibbs采样,将局部RBM层组合,并在原有的逐层预训练和整体精调之间进行额外的预训练,有效地提高了DBN的精度.本文同时比较了多种隐层的组合方式,在MNISTShapeSet以及Cifar10数据集上的实验表明,使用两两嵌套组合方式比传统的方法错误率更低.新的训练方法可以在更少的神经元上获得比以往的训练方法更好的准确度,有着更高的算法效率.

 

文章导读

 

在机器学习领域里, 最重要也是最困难的莫过于特征的提取, 抓住事物区分度强的特征也就抓住了事物的本质.在此基础上, 分类器的性能会得到极大的提高.但长期以来如何进行特征提取一直是个棘手的问题, 不同领域的数据涉及到不同的提取方法, 需要大量的领域知识作为支撑.另一方面, 一直以来各种深度神经网络模型都困扰在如何找到有效的训练方法.传统的反向传播算法在多隐层神经网络上存在着梯度消失的问题, 使得深度网络的性能甚至还不如浅层网络[1].这两个关键问题在2006Hinton提出的文献[2]中得到了很大程度上的解决.在文献[2]中提出的多层限制玻尔兹曼机(Restrict Boltzmann machine, RBM)堆叠降维的方法, 在无监督的情况下实现了自动化的特征学习, 实验表明效果比传统的PCA方法要好得多.在此基础上增加分类器就构成了深度信念网络模型(Deep belief network, DBN).作为一种生成模型, DBN有着重要的研究价值.相对于判别式模型, 生成模型可以反向生成研究对象的实例, 可以直观地观察出生成对象的各种特征, 为进一步的研究提供可能.在随后的大量研究中, DBN被广泛应用到了图像识别[3-4]、语音识别[5]、自然语言处理[6]、控制[7]等多个领域, 并取得了很好的效果.

 

针对DBN训练方法的研究一直是一个热点[8-9]. Goh[10]提出了一种有监督的预训练方法, 提高了DBN的精度.李飞等[11]Gibbs采样的次数入手, 提出了动态的采样方法, 乔俊飞等[12]将自适应学习率引入到对比散度(Contrastive divergence, CD)算法中, 提高了算法收敛速度.典型的DBN的训练分为2个阶段[13], 分别是逐层预训练和整体精调.在逐层预训练阶段, 从网络最底层的RBM开始, 自底向上逐层使用无监督的贪婪方法来使得每层RBM的损失误差最小.然后在整体精调阶段使用有监督的学习方法, 针对有标签的数据使用梯度下降进行整体权值修正.实验表明此种方法是有效的, 很好地解决了一直以来深度网络无法有效训练的难题.逐层预训练将网络的权重调整到一个合适的初始位置, 如果不进行逐层预训练而直接进行整体精调, 则网络很难收敛, 在逐层预训练的基础上进行整体精调可以确保网络能够收敛到很好的位置上.在此基础上, 网络权重的初始位置有没有进一步改进的可能, 从而获得更好的网络性能呢?DBN的逐层预训练是在堆叠着的每个RBM内进行多步Gibbs采样来逼近数据的真实分布的, 采样在RBM的可视层和隐藏层之间迭代进行.本文在此基础上, 提出了一种两阶段的无监督预训练方法, 在已有预训练的基础上引入多隐层Gibbs采样预训练方法, 将多个RBM组合成一个整体概率模型进行预训练, 使得Gibbs采样在多个RBM中进行, 从而获得更合适的网络权值初始位置.MNISTShapeSetCifar10数据集上的实验表明, 此种方法比传统的深度信念网络训练方法可以获得更好的分类效果, 在包含(1 300, 1 300, 1 300, 1 300)四层隐层的DBN上使用固定学习率的实验, 相对于传统方法的可以将MNIST的错误率从1.25%降低到1.09%.

 

本文先介绍了受限玻尔兹曼机和深度信念网络模型, 然后提出了改进后的算法, 最后在MNISTShapeSetCifar10数据集上验证并讨论了实验结果.

 1  RBM模型

 2  DBN模型

 4  MNIST数据集上4隐层模型错误率对比

 

理论分析和实验表明在传统的DBN训练方法的基础上, 增加一轮基于多隐层的Gibbs采样无监督预训练, 对于提高深度信念网络的精度是有效的, 可以为进一步的有监督全局精调提供更好的初始化.对比多种隐层的组合方式, 本文发现两两嵌套组合相邻的RBM进行训练的效果最好.此种训练方法在原有无监督逐层训练的基础上进一步地提高了模型训练数据似然概率的变分下限, 相对于传统的使用CDPCD的两阶段训练方法可以将错误率进一步降低, 同时也有着更高的算法效率.

 

无监督的预训练不需要样本标签, 堆叠基本组件逐层预训练也是众多深度学习模型[17, 21-22]的一种通用的学习框架.现有的深度网络还有以其他组件为基本元素组合而成的, 如深度降噪自编码网络[23], 其使用自动编码器来代替限制玻尔兹曼机, 组合基本组件混合训练的思想在理论上也可以推广到这些结构上, 是否有效也还有待进一步的实验证明.

 

作者简介

 

史科

合肥工业大学计算机与信息学院博士研究生.主要研究方向为自然语言处理, 信息检索, 机器学习.E-mail:shike@mail.hfut.edu.cn

 

刘广亮  

合肥工业大学计算机与信息学院博士研究生.主要研究方向为数据挖掘和机器学习.E-mail:homecs@126.com

 

毕翔  

合肥工业大学计算机与信息学院讲师.主要研究方向为模糊离散事件系统的建模和控制, 复杂软件可靠性.E-mail:bixiang@hfut.edu.cn

 

王辉  

合肥工业大学高级工程师.主要研究方向为复杂网络和神经网络.E-mail:wanghui@hfut.edu.cn

 

陆阳  

合肥工业大学计算机与信息学院教授, 主要研究方向为人工智能, 计算机控制, 传感器网络.本文通信作者.E-mail:luyang.hf@126.com



https://blog.sciencenet.cn/blog-3291369-1399257.html

上一篇:融合纹理信息的SLIC算法在医学图像中的研究
下一篇:一种基于联合学习的家庭日常工具功用性部件检测算法
收藏 IP: 222.131.242.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-16 23:58

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部