郭平的博客分享 http://blog.sciencenet.cn/u/pguo 计算机科学与技术

博文

研究成果|贝叶斯伪逆学习器:从不确定性到确定性学习

已有 3753 次阅读 2021-6-15 21:51 |个人分类:科研札记|系统分类:论文交流

研究成果|贝叶斯伪逆学习器:从不确定性到确定性学习

本文是对北师大图形图像与模式识别实验室(IGPR)一项研究成果的简介。

我们知道,现实世界中很多问题是不确定的。在人工智能研究领域,对于不确定性问题,通常采用概率统计模型来描述。然而,大多数概率模型都是难以处理的,并且训练过程也非常困难。因此,必须利用一些近似方法使其成为一个可以求解的问题。众所周知,在概率统计模型的应用中,一个中心任务是在给定观察变量X时,估计隐变量Z的后验分布P(Z|X),并且估计该分布计算的期望值。贝叶斯变分推理是一个很好的选择,变分推理将推理任务转化为了优化问题,然后使用梯度下降法解决该优化问题。但是不可避免地,它也面临着梯度下降方法的缺点。另一种变分推理的方法是基于变分目标的随机优化,其中噪声梯度由变分分布的蒙特卡洛样本计算。这种算法计算了变分自由能ELBO的梯度,然而,随机优化和蒙特卡洛方法仍存在一定的不确定性,梯度下降方法也难以实现快速学习。

Pseudo-inverse learners (PILs)是一种用伪逆学习(PIL)算法训练的前馈神经网络,最早可追溯到1995年。PIL是一种非梯度下降学习方法,相比于梯度下降法,其主要优点在于计算代价更低,计算过程更快,尤其是在小规模计算,例如边缘计算研究领域的表现更为明显。然而,PIL多用于确定性学习问题,

因此,在该研究中,我们提出了一种称为为贝叶斯伪逆学习(BPIL)的近似协同学习的方案,将不确定学习转化为确定性学习。

在所提出的BPIL算法中,我们将后验概率密度函数设为:

p(z│x,Θ)=Ν(z|g(x,Θ),σ^2 I_d))


其中g(x,Θ)是一种伪逆学习器,比如MLP-PIL

论文中提出的BPIL中,采用SLS(协同学习系统)的框架,子系统的模型使用概率模型,并且用PIL方法代替梯度下降算法。在该方法中,假设Z是隐变量,q(Z)属于一类分布,设Z的元素被划分为M个不相交的群,用Zi表示,其中i=1,2,..., M,然后q分布对这些组进行因式分解,这种分解形式在物理学中被称为平均场理论,将平均场理论用于变分推理中,即:


截屏2021-06-15 下午10.02.01.png

在该方法中,不确定性问题用概率模型表示,然后用近似协同学习(ASL)方法来实现概率模型转换,使用PIL来训练BPIL,并且使用ASL方法导出的正则化超参数估计公式:


截屏2021-06-15 下午10.03.02.png

MLP可以被认为是堆叠的自动编码器加上一个单层分类器。在学习处理中,引入辅助层构造自编码器,在获得编码器连接权值矩阵后,将该辅助层(解码器)丢弃,编码器的输出发送到PIL分类器。对于PILAE,不需要学习参数。下图给出了搜索MLP最优体系结构的过程。利用训练数据构造自编码器,利用验证数据确定超参数,包括隐神经元数和权值衰减正则化参数。测试数据用于计算网络输出精度,从而判断该学习者是否满足给定的任务要求。如果达到任务要求,网络将停止生长并退出训练处理。否则,网络增长一层,以这种方式实现动态网络结构优化。这种深度网络结构优化的策略可用到自动机器学习中去。(参考:A Robust Automated Machine Learning System with Pseudoinverse Learning,DOI:http://dx.doi.org/ 10.1007/s12559-021-09853-6


BPIL1.jpg


使用该算法在MNIST数据集和Fashion-MNIST数据集中与传统的算法和其他优化算法做了对比实验,分类的精确度对比如下:


BPIL1a.jpg

可以看到BPIL在分类中有更好的表现。时间的对比图如下:


BPIL2.jpg



相比于传统的BP算法,BPIL的计算代价大大减少,并且BPIL和其他优化算法相差不多,在几秒到几十秒的差距内,但却提高了精度。

上述研究成果于20216月在线发表在人工智能领域TOP期刊《IEEE Transactions on Cybernetics》,题为《Bayesian Pseudoinverse Learners: From Uncertainty to Deterministic Learning》。论文第一作者为北京师范大学尹乾副教授,通讯作者为北京师范大学郭平教授。该研究得到了新一代人工智能“重大项目课题的资助((No. 2018AAA0100203)。

论文链接:https://doi.org/10.1109/TCYB.2021.3079906.




https://blog.sciencenet.cn/blog-103425-1291343.html

上一篇:高校教师学术评价之怪状(1)
下一篇:研究进展|核空间互学习可得到更稳定的可判别空间分布
收藏 IP: 59.38.32.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 19:07

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部