||
本文是对北师大图形图像与模式识别实验室(IGPR)一项研究成果的简介。
我们知道,现实世界中很多问题是不确定的。在人工智能研究领域,对于不确定性问题,通常采用概率统计模型来描述。然而,大多数概率模型都是难以处理的,并且训练过程也非常困难。因此,必须利用一些近似方法使其成为一个可以求解的问题。众所周知,在概率统计模型的应用中,一个中心任务是在给定观察变量X时,估计隐变量Z的后验分布P(Z|X),并且估计该分布计算的期望值。贝叶斯变分推理是一个很好的选择,变分推理将推理任务转化为了优化问题,然后使用梯度下降法解决该优化问题。但是不可避免地,它也面临着梯度下降方法的缺点。另一种变分推理的方法是基于变分目标的随机优化,其中噪声梯度由变分分布的蒙特卡洛样本计算。这种算法计算了变分自由能(ELBO)的梯度,然而,随机优化和蒙特卡洛方法仍存在一定的不确定性,梯度下降方法也难以实现快速学习。
Pseudo-inverse learners (PILs)是一种用伪逆学习(PIL)算法训练的前馈神经网络,最早可追溯到1995年。PIL是一种非梯度下降学习方法,相比于梯度下降法,其主要优点在于计算代价更低,计算过程更快,尤其是在小规模计算,例如边缘计算研究领域的表现更为明显。然而,PIL多用于确定性学习问题,
因此,在该研究中,我们提出了一种称为为贝叶斯伪逆学习(BPIL)的近似协同学习的方案,将不确定学习转化为确定性学习。
在所提出的BPIL算法中,我们将后验概率密度函数设为:
p(z│x,Θ)=Ν(z|g(x,Θ),σ^2 I_d))
其中g(x,Θ)是一种伪逆学习器,比如MLP-PIL。
论文中提出的BPIL中,采用SLS(协同学习系统)的框架,子系统的模型使用概率模型,并且用PIL方法代替梯度下降算法。在该方法中,假设Z是隐变量,q(Z)属于一类分布,设Z的元素被划分为M个不相交的群,用Zi表示,其中i=1,2,..., M,然后q分布对这些组进行因式分解,这种分解形式在物理学中被称为平均场理论,将平均场理论用于变分推理中,即:
在该方法中,不确定性问题用概率模型表示,然后用近似协同学习(ASL)方法来实现概率模型转换,使用PIL来训练BPIL,并且使用ASL方法导出的正则化超参数估计公式:
MLP可以被认为是堆叠的自动编码器加上一个单层分类器。在学习处理中,引入辅助层构造自编码器,在获得编码器连接权值矩阵后,将该辅助层(解码器)丢弃,编码器的输出发送到PIL分类器。对于PILAE,不需要学习参数。下图给出了搜索MLP最优体系结构的过程。利用训练数据构造自编码器,利用验证数据确定超参数,包括隐神经元数和权值衰减正则化参数。测试数据用于计算网络输出精度,从而判断该学习者是否满足给定的任务要求。如果达到任务要求,网络将停止生长并退出训练处理。否则,网络增长一层,以这种方式实现动态网络结构优化。这种深度网络结构优化的策略可用到自动机器学习中去。(参考:A Robust Automated Machine Learning System with Pseudoinverse Learning,DOI:http://dx.doi.org/ 10.1007/s12559-021-09853-6)
使用该算法在MNIST数据集和Fashion-MNIST数据集中与传统的算法和其他优化算法做了对比实验,分类的精确度对比如下:
可以看到BPIL在分类中有更好的表现。时间的对比图如下:
相比于传统的BP算法,BPIL的计算代价大大减少,并且BPIL和其他优化算法相差不多,在几秒到几十秒的差距内,但却提高了精度。
上述研究成果于2021年6月在线发表在人工智能领域TOP期刊《IEEE Transactions on Cybernetics》,题为《Bayesian Pseudoinverse Learners: From Uncertainty to Deterministic Learning》。论文第一作者为北京师范大学尹乾副教授,通讯作者为北京师范大学郭平教授。该研究得到了“新一代人工智能“重大项目课题的资助((No. 2018AAA0100203)。
论文链接:https://doi.org/10.1109/TCYB.2021.3079906.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 23:58
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社