博文

贝叶斯公式的本质是什么？

已有 13697 次阅读 2009-7-18 22:45 |个人分类:未分类|系统分类:科研笔记

我有一个比较好玩的想法：区分“数据熵”和“信念熵”（我原来叫“信息熵”，旭东说容易乱，不如结合贝叶斯叫信念熵），贝叶斯判断，就是一个不断修改自己的信念分布（熵），去抓真实分布（数据熵）的过程。一开始，在没有任何先验知识的情况下，肯定是无约束最大熵分布，也就是均匀分布，慢慢根据知识去修改自己的分布。这个过程的难度还要取决于数据熵，如果数据熵是0，一个缸里装的全是黑石头，那我抓几次就明白了，如果石头颜色各不相同，那抓好多次也不明白。

Min|数据熵-信息熵|的过程，就是用似然函数（对样本数据进行加工）不断修改先验分布（源于历史知识积累），取得后验分布去逼近真实分布的过程。

后验分布=似然函数*先验分布

咱们可以用一个比喻的提法：在附件中的那个好多分布的图里，X轴就是风平浪静的大海，就是最大熵先验分布，后来起了风，就出现了各种分布，仿佛波浪。风从何来？也许是从心而来，正是我心制造的后验分布啊。

我认为，张学文推导方法里，幂律分布那个几何平均值的不变的约束，或者说Sigmaln（x）=m的约束，其实应该也等价于最大熵（公式的形式是类似的），究竟怎么等价，还有待证明。

做一点哲学思考，如果这个m指的是“心智内存”的上限呢？

2009-06-26补充

上次在集智报告的时候大略提了一个想法，就是贝叶斯判断似乎是两个过程

1.用我们“捏造”（基于样本）的后验统计分布去修改（基于先验知识，当没有任何先验知识时应取最大熵均匀分布）先验统计分布的过程；这个过程是贝叶斯精髓，一般没有争议。

2.用我们不断更新得到的后验分布（对其熵的测量可以叫“信念熵”）去逼近数据本身的“真正分布”（姑且叫“数据熵”）的过程。并提出了“用S=|信息熵-数据熵|”来衡量这逼近过程的民科公式（但是这块还有悬疑，这个“真正分布”指的是参数值的分布还是总体中元素的值的分布？）。

实际上，把经过若干步后稳定下来的后验分布视为=“真正分布”，那这两个过程就是一个过程。

这个过程是我自己瞎说的，东方隐等人指出，没有什么必要去计算不同分布的熵，熵值一样的分布曲线可能千差万别，类似的分布曲线熵也可能很不同。应当说，这个意见是有一定道理的。但我提议我们是否可以把注意力放在“相对逼近”的过程上，而忽略曲线的具体方式？这个观点得到了旭东的支持。

这样有什么好处呢？就是我们不再看具体的分布，而开始注意一个“信息处理过程”，S=|信息熵-数据熵|实际上是在测量我们“离真理（完全没有不确定性）还有多远”。如果加上贝叶斯公式的运转步数（时间）（是不是可以用马科夫链达到稳态的步数来衡量？），就可以衡量我们逼近真理的效率。

后来jake推荐了一篇论文，就是Roderick C. Dewar发表在Journal of Theoretical Biology上的Statistical mechanics unifies different ecological patterns，原来这个东西五十年前就有人提过（Kullback & Leibler,1951），里面管这个东西叫“相对熵”，最大化相对熵（the Maximisation of relative entropy ）简称MaxREnt，而最大熵可以视为最大相对熵的特例。

MaxREnt有两个标准，一个是Gibbs提出的H（p||q），一个叫Kullback-Leibler divergence，D（p||q）= - H（p||q）。

H（p||q）=-sigma(pi)ln(pi/qi)

这个公式与我的民科公式不同，但思想似乎接近，就是测量两个分布p与q之间的熵的差异

摘录Kullback原文：“In Bayesian inference, the MaxREnt principle is a method of updating a prior distribution q to a posterior distribution p in the light of new data (Kullback, 1968)；摘录Dewar的原话“in terms of information, D（p||q）represents the information gained when p is used instead of q”

按照Dewar的说法，Jaynes（1957）曾主张不仅可以用MaxREnt来做统计推断（statistical inference），而且可以用来理解统计力学的物理过程（statistical menchanics）。Dewar在这篇文章就讲了如何用这个想法来调和生态学在不同Scale上观测数据的不同分布（例如diversity和resurce的关系，在local scale上是单峰分布，而在regional/continental scal上却是单调递增）。

这篇文章很有意思，我才看了一部分，想请有兴趣的人一起来读。想请诸位从两个方面评价：

对这个MaxREnt从statistical inference到statistical menchanics的过程怎么看？

Statistical mechanics unifies different ecological

转载本文请联系原作者获取授权，同时请注明本文来自吴令飞科学网博客。
链接地址：https://blog.sciencenet.cn/blog-284004-244307.html

上一篇：从动力学到信息论的因果观
下一篇：最大熵原理加不同的约束条件可推导出不同的统计分布

收藏 IP: .*| 热度|

当前推荐数：2 推荐人：黄富强 hkfrank

发表评论评论 (2 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

吴令飞

扫一扫，分享此博文

计算士的世界尽头与冷酷仙境分享 http://blog.sciencenet.cn/u/jisuanshi

博文

贝叶斯公式的本质是什么？

当前推荐数：2 推荐人：黄富强 hkfrank

发表评论评论 (2 个评论)

吴令飞

全部作者的其他最新博文

全部精选博文导读

相关博文

计算士的世界尽头与冷酷仙境分享 http://blog.sciencenet.cn/u/jisuanshi

博文

贝叶斯公式的本质是什么？

当前推荐数：2 推荐人： 黄富强 hkfrank

发表评论 评论 (2 个评论)

吴令飞

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：2 推荐人：黄富强 hkfrank

发表评论评论 (2 个评论)