|
引用本文
南静, 代伟, 袁冠, 周平. 一种空间几何角度最大化的随机增量学习模型及应用. 自动化学报, 2023, 49(6): 1283−1294 doi: 10.16383/j.aas.c211041
Nan Jing, Dai Wei, Yuan Guan, Zhou Ping. A stochastic incremental learning model with maximizing spatial geometry angle and its application. Acta Automatica Sinica, 2023, 49(6): 1283−1294 doi: 10.16383/j.aas.c211041
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c211041
关键词
随机权神经网络,增量学习,空间几何角度最大化约束,无限逼近性
摘要
针对随机权神经网络(Random weight neural networks, RWNNs)隐含层节点随机生成过程可解释性不足和节点随机生成而导致的网络结构不紧致等问题, 提出了一种空间几何角度最大化随机增量学习模型(Stochastic incremental learning model with maximizing spatial geometry angle, SGA-SIM). 首先, 以空间几何视角深入分析随机增量学习过程, 建立了具有可解释性的空间几何角度最大化约束, 以改善隐含层节点质量, 并证明该学习模型具有无限逼近特性; 同时, 引入格雷维尔迭代法优化学习模型输出权值计算方法, 提高模型学习效率. 在真实的分类和回归数据集以及数值模拟实例上的实验结果表明, 所提增量学习模型在建模速度、模型精度和模型网络结构等多个方面具有明显优势.
文章导读
随着计算机技术和处理能力的逐渐提升, 神经网络模型及其学习技术得到了长足发展. 特别是深度神经网络, 其凭借着强大的数据分析和函数表达能力被广泛应用于图像处理[1]和语音识别[2]等领域. 但庞大的网络超参数和复杂的网络结构使得大多数深度神经网络训练过程非常耗时且对硬件设备要求较高. 实际上, 扁平结构的神经网络对非线性映射具有无限逼近能力, 其强大的表达能力足已胜任许多数据分析任务, 典型的模型为单隐含层前馈神经网络[3-4]. 但是, 传统单隐含层前馈神经网络在训练过程中使用梯度下降法获取网络参数, 故存在收敛速度慢和易陷入局部极小值等问题[5], 这些问题也一直是困扰神经计算发展的难题.
随机学习方法的快速建模和低计算消耗等特性, 为单隐含层前馈神经网络提供了一种不同的学习思路[6]. 目前, 已涌现出多种单隐含层随机权前馈神经网络[7-9], 它们统称为随机权神经网络(Random weight neural networks, RWNNs), 这种网络的特点是: 从固定区间内随机产生隐含层节点参数(输入权值和偏置)保持不变, 然后使用解析法求解网络输出权值. 文献[10]对RWNNs的基础理论进行了重新讨论, 并证明若目标函数满足Lipschitz条件, 则在对称区间内随机生成隐含层节点参数也能保证RWNNs具有无限逼近性. 但是, 传统RWNNs难以确定合适的网络拓扑结构, 其往往通过实验方式试凑确定. 在实际建模任务中, 网络拓扑结构过大会导致模型过度泛化, 过小则会引起模型表达能力不足[11], 因此, 寻找合适的网络拓扑结构通常是一项繁重的工作. 构造法[11], 剪枝法[12]和正则化法[13]是三种解决网络拓扑结构问题的主要技术. 剪枝法作为一种模型压缩方法, 其首先训练一个远超于建模任务需求的大型模型, 然后根据模型误差变化、输出相关度和隐含层节点灵敏度等规则对冗余节点进行修剪, 同时保持模型性能不变[14]. 但剪枝法先建大模型再压缩的建模方式效率低下, 且需要消耗大量的计算和存储资源. 构造法从一个小网络(通常是一个隐含层节点)开始, 然后逐步添加隐含层节点, 使网络残差下降, 直到满足预期目标. 相比于剪枝法, 构造法往往会构造具有相同表达能力但网络拓扑结构更紧致的模型, 因此, 相比于剪枝法效率更高. 正则化方法主要是通过设置惩罚系数来平衡目标函数值和约束违反值以提升模型性能. 但惩罚系数需要通过交叉验证[15]或人为调节[16]等实验方法进行确定, 且正则化方法并没有改变网络结构. 鉴于构造法良好的建模效率, 本文集中研究如何利用构造法建立RWNNs.
构造法本质上是一种增量式方法, 文献[17]将构造法引入RWNNs, 提出了增量式RWNNs (Incremental RWNNs, IRWNNs), 其首先以点增量方式为网络添加隐含层节点, 并从 [−1, 1] 的固定区间内随机生成节点的输入权值和偏置且保持不变; 然后, 利用Moore-Penrose广义逆计算隐含层和输出层之间的输出权值; 最后, 计算整个网络的残差, 重复上述步骤直到满足期望目标为止. 当前, IRWNNs已发展了正交IRWNNs[18]和集成IRWNNs[19]等多个版本. 然而, 文献[20]和文献[21]的研究结果从理论上证明了从固定区间内随机产生隐含层节点参数难以保证IRWNNs的无限逼近能力. 同时, 文献[22]也证明了将随机学习方法应用到单隐层前馈神经网络时需要基于建模任务对参数随机生成过程进行约束, 否则难以用很高的概率逼近目标函数. 在此基础上, 文献[23]提出了一种具有监督机制约束的构造算法来构建神经网络, 即随机配置网络(Stochastic configuration networks, SCNs). SCNs与其他构造算法最大的不同在于其利用不等式约束从隐含层参数分配区间内直接选择优质参数而不是简单的随机生成. 进一步地, 鲁棒SCNs[24]、并行SCNs[25]和块增量SCNs[26]等被提出以增强SCNs的鲁棒性和学习效率. 此外, 为了提高随机学习方法对数据特征的提取能力和模型更新效率, 文献[27]提出了一种宽度学习(Broad learning system, BLS)构造算法, BLS在模型结构上与其他构造算法有着明显的区别, 即: BLS首先将输入样本映射为特征节点, 然后由这些特征节点生成增强节点, 最后再将特征节点和增强节点一起输入模型. BLS主要关注如何快速构建模型, 因此BLS仍然存在由参数随机分配而导致的网络结构不紧致问题. 目前, BLS已经被广泛应用于工业噪声处理[28]、模糊系统[29]和类脑[30]等研究领域. 虽然构造算法进一步提高了RWNNs的潜力, 但缺少关于隐含层参数如何实现它们目标的研究. 即, 现有构造算法很难将隐含层参数对模型残差的影响可视化. 因此, 如何增强参数随机生成过程可解释性和避免参数随机生成而导致网络结构不紧致等问题, 仍然是一个巨大挑战.
本文旨在以空间几何角度视角深入分析扁平神经网络随机增量建模过程中隐含层节点参数与残差变化之间的内在几何关系, 建立一种具有可解释性的高效学习模型, 即, 空间几何角度最大化的随机增量学习模型(Stochastic incremental learning model with maximizing spatial geometry angle, SGA-SIM). 其主要贡献是:
1)以空间几何视角对随机增量学习模型建模过程进行分析, 建立隐含层节点参数与残差变化之间的几何关系;
2)建立具体可解释性的空间几何角度最大化约束以提升隐含层节点参数质量, 并结合残差变化证明在该约束下随机增量学习模型的无限逼近性;
3)提出了一种基于格雷维尔迭代的高效输出权值求解方法, 以提高网络建模效率.
本文使用一个数值模拟实例、四个真实数据集以及一个自主研发的手势识别 (Gesture recognition, GR) 系统来评价所提学习模型. 实验结果表明, 与现有IRWNNs模型相比, SGA-SIM在建模速度、模型精度和模型网络拓扑结构等方面有明显优势.
本文的内容安排如下: 第1节利用空间几何知识对扁平神经网络随机增量学习过程进行描述和分析; 第2节对所提的空间几何角度最大化的随机增量学习模型进行描述; 第3、4节展示所提模型的性能评估与应用; 第5节对本文进行总结.
图 2 4种模型的收敛曲线图
图 4 节点对拟合性能的影响
图 6 智能手套框架图
本文针对扁平随机权神经网络增量构建过程中出现的结构不紧致和参数生成可解释性不足等问题, 基于空间几何和对模型增量构建过程的分析, 提出了空间几何角度最大化约束随机增量学习模型. 该模型利用具有可解释性的空间几何最大化方法对隐含层节点参数进行约束, 以选择优质节点构建任务模型, 进而减少建模时所需节点数, 即模型结构紧致性更好. 此外, 本文还提出一种高效的输出权值计算方法, 以降低建模消耗. 实验探究表明, 相比于IRWNNs和SCNs, 本文所提SGA-SIM在建模时间、模型精度和模型结构紧致性等方面都具有明显优势, 特别是SGA-SIM-II. 然而, 所提模型缺少对原始数据的多层次特征提取能力, 并不是end to end模型, 因此, 在面对复杂数据分析任务时, 需要与特征提取或特征选择方法联合使用, 性能更优. 这些不足将成为未来的研究方向. 同时, 如何将其应用到实际工业中也是一个很重要的研究课题.
作者简介
南静
中国矿业大学信息与控制工程学院博士研究生. 2021 年获得中国矿业大学硕士学位. 主要研究方向为随机权神经网络, 模式识别. E-mail: jingn@cumt.edu.cn
代伟
中国矿业大学信息与控制工程学院教授. 2015 年获得东北大学博士学位. 主要研究方向为复杂工业过程建模、运行优化与控制. 本文通信作者. E-mail: weidai@cumt.edu.cn
袁冠
中国矿业大学计算机科学与技术学院教授. 2012 年获得中国矿业大学博士学位. 主要研究方向为数据挖掘, 软件工程. E-mail: yuanguan@cumt.edu.cn
周平
东北大学教授. 分别于2003年、2006年、2013年获得东北大学学士学位、硕士学位和博士学位. 主要研究方向为工业过程运行反馈控制, 数据驱动建模与控制. E-mail: zhouping@mail.neu.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-30 01:21
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社