||
我推广的语义信息论(Shannon-Lu理论或G理论)已经用来解释和改进机器学习。以前改进过多标签分类,最大互信息分类, 混合模型,贝叶斯确证,约束控制...(参看我主页:http://survivor99.com ). 现在介绍最新进展:语义变分贝叶斯——用以挑战贝叶斯主义的变分贝叶斯。有比较才能鉴别!
语义变分贝叶斯——从观察数据和各种约束函数求解隐含变量
摘要:变分贝叶斯求解隐含变量(的概率分布)使用最小自由能准则,这个准则不容易被理解,变分计算也很复杂。为此,本文提出语义变分贝叶斯(SVB)。笔者以前提出的语义信息论把信息率失真函数R(D)推广为信息率逼真函数R(G)——它是给定语义互信息G的最小香农互信息。SVB来自R(G)的参数解, 其中变分和迭代方法起源于香农等人对信息率失真函数的研究. SVB使用的约束函数不限于似然函数,也可以是真值函数,隶属函数, 相似函数,或失真函数。和使用最小自由能准则的VB不同,SVB使用最大信息效率(G/R)准则——在优化模型参数时使用最大语义信息准则(它兼容最大似然准则),而在优化香农信道时使用最小互信息(或最大熵)准则。对于同样任务,SVB的计算比VB更简单。文中计算实验包括:举例说明混合模型随G/R增大(而不是随负的自由能)增大而收敛;用给定误差范围的数据压缩说明SVB的应用;通过给定范围约束的控制任务说明语义信息测度和SVB如何用于最大熵控制和强化学习,并为权衡控制效果和效率提供数字依据。要把SVB用于神经网络和深度学习,我们需要进一步研究。
1. 引言
机器学习经常需要从观察数据(或实例先验分布P(x))和预测模型(比如似然函数P(x|y, θ))求解隐含变量y的概率分布P(y)。流行的方法是变分贝叶斯方法【1,2】,简称变分贝叶斯(VB)。VB已经成功用于很多场合,比如混合模型【3,4】,自动编码器(AutoEncoder)【5】,主动(active)推断(使用最小自由能原理或准则) 【6】, 等等【7】。贝叶斯推断(BI)是贝叶斯主义者用于推断模型参数的方法, 参数包括似然函数P(x|y, θ) 中的参数和产生P(y)的参数。和BI不同,频率主义者用的似然推断只考虑似然函数中的参数,也不考虑参数的概率分布。笔者使用频率主义方法,认为频率主义也应有求上述隐含变量(实际指概率分布P(y))的一般方法。
虽然频率主义使用的EM(期望-最大)算法也能求解混合模型的隐含变量,但是在似然函数即预测模型不变时,如何求解P(y)仍然是个问题。对于存在模糊范围约束而不是似然函数约束时,更是如此。比如,对于主动推断,给定无控制状态x的概率分布P(x)和若干目标y1, y2, …(代表模糊范围)作为约束,我们需要选择动作aj实现目标yj,并且优化控制在不同目标上的分配比例 P(a1), P(a2),… 这是需要解决的问题。
最近,信息理论的正则化已经被用于深度学习【8】和强化学习【9】,并取得很好效果。这种方法用两种信息的差作为目标函数,然后用变分方法最小化该函数, 并求解隐含变量。本文作者努力方向与此一致,并且希望有个在理论上更好理解的一般方法。本文使用香农互信息和语义互信息的差作为目标函数,其理论基础可以追溯到香农开创的信息率失真理论【10,11】。
一般说来,x可能取值数目远大于y的可能取值数目。给定观察数据或样本分布P(x)和约束P(x|y, θ)时 , 不存在P(y)的正确解(因为约束太多),它使得P(x)等于Pθ(x)=∑i P(x|yj,θ)P(yj)。但是我们可以使用某种准则得到近似解,比如VB算法中使用最小KL离散度KL(P(y)||P(x, y|θ))或KL(P(y|x)||P(x, y|θ))作为优化准则(即所谓的最小自由能原理),得到预测模型和P(y)的近似解。本文提出语义变分贝叶斯方法(Semantic Variational Bayes’ method, 缩写:SVB),它使用最大信息效率准则——兼容最大似然准则和最大熵原理。
作者使用“语义“(“Semantic”)一词,一是因为SVB基于语义信息论——即Shannon-Lu理论或G理论【12,13】(G意思是香农信息论的推广);二是因为SVB使用似然,真值,隶属,相似、失真等函数作为约束,这些函数反映语义——根据Davidson的真值条件语义学【14】【13】。虽然SVB是频率主义的,但是它使用了各种推广的贝叶斯公式,完成的任务和VB类似,所以,笔者仍然使用“Variational Bayes”。但是,笔者用“Bayes’ Inference“而不是Bayesian Inference(后者确切翻译是贝叶斯主义推断)是为了避免让人认为SVB是贝叶斯主义方法。SVB使用作者早先提出的逻辑贝叶斯推断【13】优化模型参数。由于类似的原因,作者今后使用”Logical Bayes’ Inference(LBI)”而不是”Logical Bayesian Inference”.
G理论使用似然,真值,隶属,相似、失真等函数构造语义信息测度,它把信息率失真函数R(D)推广为信息率逼真函数R(G)—— R是给定语义互信息G时的最小香农互信息。G/R等于信息效率。SVB就来自R(G)函数的参数解,其中变分和迭代方法起源于香农等人对信息率失真函数的研究【11,15,16,17】。笔者于三十年前提出语义信息G理论【18,19】,最近十年把这一理论用于机器学习。笔者先前的文章已经讨论了从样本分布求解或优化各种学习函数的方法,并将这些方法用于多标签分类,混合模型【9】,贝叶斯确证【20】,语义压缩【21】等。一些文章已经涉及求解隐含变量的概率分布和SVB【9】。
本文首次提出SVB,希望SVB成为VB的替代选择,这是因为:
1) VB使用的最小自由能原理不容易被理解,并且存在混合模型反例(见4.1节)使得我们不能通过最大化负的自由能函数F=Q+H(Y)【1,4】, 使混合模型收敛。
2) 虽然VB使用平均域方法(用P(y|x)代替P(y)作为变分)【1,3】时不存在反例,但是计算P(y|x)比较复杂,比如 P(y|x)的表达式同时用到指数和对数函数;我们希望有更简单的方法。
3) 给定观察数据和其他许多学习或约束函数中的一种时,都可能存在求解隐含变量的问题。我们需要更加一般的求解方法。
本文主要目的:
l 提供理论上容易理解,计算相对简单的从P(x)和各种学习或约束函数求解隐含变量概率分布P(y)的一般方法;
l 使香农等人研究信息率失真函数时使用的变分和迭代方法发扬光大;
l 增加大家对语义信息G理论的理解。
本文主要贡献:提出、系统地介绍、并举例验证了SVB;和VB比,
l 它在理论上更加容易理解,因为它兼容最大似然准则和最大熵原理,继承并发展了香农等人研究信息率失真函数发展出来的变分和迭代方法;
l 它允许使用多种约束函数,还可以通过指数s加强约束(参看(28));
l 其计算更加简单,因为P(y|x)和P(y)的解的表达式比较简单;对于同样任务(不用s时),计算不包含指数和对数函数。
因为本文使用信息理论方法,使用数据的概率分布或相对频率P(xi) (i = 1, 2, …, m)而不用数据序列x(1), x(2), …,x(N)。请读者注意:本文求平均的表达方式和统计学中表达方式有所不同。
全文见:http://www.survivor99.com/lcg/%E8%AF%AD%E4%B9%89%E5%8F%98%E5%88%86%E8%B4%9D%E5%8F%B6%E6%96%AF.pdf
优化公式比较:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 22:31
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社