计算士的世界尽头与冷酷仙境分享 http://blog.sciencenet.cn/u/jisuanshi

博文

贝叶斯公式的本质是什么?

已有 13697 次阅读 2009-7-18 22:45 |个人分类:未分类|系统分类:科研笔记

我有一个比较好玩的想法:区分“数据熵”和“信念熵”(我原来叫“信息熵”,旭东说容易乱,不如结合贝叶斯叫信念熵),贝叶斯判断,就是一个不断修改自己的信念分布(熵),去抓真实分布(数据熵)的过程。一开始,在没有任何先验知识的情况下,肯定是无约束最大熵分布,也就是均匀分布,慢慢根据知识去修改自己的分布。这个过程的难度还要取决于数据熵,如果数据熵是0,一个缸里装的全是黑石头,那我抓几次就明白了,如果石头颜色各不相同,那抓好多次也不明白。

Min|数据熵-信息熵|的过程,就是用似然函数(对样本数据进行加工)不断修改先验分布(源于历史知识积累),取得后验分布去逼近真实分布的过程。

后验分布=似然函数*先验分布


咱们可以用一个比喻的提法:在附件中的那个好多分布的图里,X轴就是风平浪静的大海,就是最大熵先验分布,后来起了风,就出现了各种分布,仿佛波浪。风从何来?也许是从心而来,正是我心制造的后验分布啊。

我认为,张学文推导方法里,幂律分布那个几何平均值的不变的约束,或者说Sigmaln(x)=m的约束,其实应该也等价于最大熵(公式的形式是类似的),究竟怎么等价,还有待证明。

做一点哲学思考,如果这个m指的是“心智内存”的上限呢?

2009-06-26补充

上次在集智报告的时候大略提了一个想法,就是贝叶斯判断似乎是两个过程

1.用我们“捏造”(基于样本)的后验统计分布去修改(基于先验知识,当没有任何先验知识时应取最大熵均匀分布)先验统计分布的过程;这个过程是贝叶斯精髓,一般没有争议。

2.用我们不断更新得到的后验分布(对其熵的测量可以叫“信念熵”)去逼近数据本身的“真正分布”(姑且叫“数据熵”)的过程。并提出了“用S=|信息熵-数据熵|”来衡量这逼近过程的民科公式(但是这块还有悬疑,这个“真正分布”指的是参数值的分布还是总体中元素的值的分布?)。

实际上,把经过若干步后稳定下来的后验分布视为=“真正分布”,那这两个过程就是一个过程。


这个过程是我自己瞎说的,东方隐等人指出,没有什么必要去计算不同分布的熵,熵值一样的分布曲线可能千差万别,类似的分布曲线熵也可能很不同。应当说,这个意见是有一定道理的。但我提议我们是否可以把注意力放在“相对逼近”的过程上,而忽略曲线的具体方式?这个观点得到了旭东的支持。

这样有什么好处呢?就是我们不再看具体的分布,而开始注意一个“信息处理过程”,S=|信息熵-数据熵|实际上是在测量我们“离真理(完全没有不确定性)还有多远”。如果加上贝叶斯公式的运转步数(时间)(是不是可以用马科夫链达到稳态的步数来衡量?),就可以衡量我们逼近真理的效率。

后来jake推荐了一篇论文,就是Roderick C. Dewar发表在Journal of Theoretical Biology上的Statistical mechanics unifies different ecological patterns,原来这个东西五十年前就有人提过(Kullback & Leibler,1951),里面管这个东西叫“相对熵”,最大化相对熵(the Maximisation of relative entropy )简称MaxREnt,而最大熵可以视为最大相对熵的特例。

MaxREnt有两个标准,一个是Gibbs提出的H(p||q),一个叫Kullback-Leibler divergence,D(p||q)= - H(p||q)。

H(p||q)=-sigma(pi)ln(pi/qi)

这个公式与我的民科公式不同,但思想似乎接近,就是测量两个分布p与q之间的熵的差异


摘录Kullback原文:“In Bayesian inference, the MaxREnt principle is a method of updating a prior distribution q to a posterior distribution p  in the light of new data (Kullback, 1968);摘录Dewar的原话“in terms of information, D(p||q)represents the information gained when p is used instead of q”

按照Dewar的说法,Jaynes(1957)曾主张不仅可以用MaxREnt来做统计推断(statistical inference),而且可以用来理解统计力学的物理过程(statistical menchanics)。Dewar在这篇文章就讲了如何用这个想法来调和生态学在不同Scale上观测数据的不同分布(例如diversity和resurce的关系,在local scale上是单峰分布,而在regional/continental scal上却是单调递增)。

这篇文章很有意思,我才看了一部分,想请有兴趣的人一起来读。想请诸位从两个方面评价:

对这个MaxREnt从statistical inference到statistical menchanics的过程怎么看?





Statistical mechanics unifies different ecological

https://blog.sciencenet.cn/blog-284004-244307.html

上一篇:从动力学到信息论的因果观
下一篇:最大熵原理加不同的约束条件可推导出不同的统计分布
收藏 IP: .*| 热度|

2 黄富强 hkfrank

发表评论 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-20 07:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部