生存生活生命分享 http://blog.sciencenet.cn/u/montec007 友诤友直友谅

博文

如何理解贝叶斯? 精选

已有 25760 次阅读 2013-7-12 02:56 |个人分类:有教无类|系统分类:教学心得

【题记】住外招最后一晚。十一点躺下,朦胧中门外一片喧哗。回想到回房上楼时见侧室多位宾馆工作人员聚众打牌,只能感叹。继续迷糊,却被最后一声巨大的关门声所惊醒,大概是牌后最后一位工作人员离开。看表,凌晨一点。向前台投诉,也只是消解心中一时的愤怒而已。心头难平,上科网,读命运里的贝叶斯,有感。

 

Thomas Bayes(1701-1761),专业牧师,民科数学家。在他死后的1763,他的朋友在皇家学会宣读了贝叶斯的一篇文章,标题为 An Essay towards solving a Problem in the Doctrine of Chances ,并于第二年发表在皇家学会旗下的Philosophical Transactions of the Royal Society of London。文章的关键在于提出了在推理中的一个贝叶斯定理,或贝叶斯公式:

这个看似简单的公式,蕴涵着许多道理。这里试谈其中一二。

逻辑推理的一个常见误区是以偏概全。一个典型例子是:许多渠道显示,地震发生时伴随的一个常见现象是动物园里的动物普遍地焦躁不安。于是,有些人就把动物焦躁不安作为地震预测的一个强有力的手段。更有甚者,一旦发现动物普遍地焦躁不安,直接就说,哪里要发生地震了。那,这样的推理具有什么样的缺陷呢?

地震和动物焦躁不安都是不确定性事件。用A表示动物园里的动物普遍地焦躁不安,用B表示地震的发生。那们上述推理犯了这样一个错误:

更加直白一点讲,误将正命题的正确性当成了逆命题的正确性。

仔细想想,我们在日常生活当中,实际上经常性地犯这样类似的错误。比如,在一次列车旅行当中,坐在你对面的旅客和你攀谈。你注意到这位朋友中等身材,皮肤比亚洲正研究员安陈还黑。简短的语言交流之后,你发现他思维敏捷程度甚至不输安陈。继续接触下来,你感觉这个人做的工作似乎与应急管理非常类似。继续聊天,那人告诉你他比王宝强还喜欢K歌。这个时候你边上的另一位旅客说,你猜猜他是做什么工作的?给两个选项:

(A)应急管理研究

(B)农民

你会选哪个呢?如果你选(A),但你就陷入了刚刚讲的推理误区了。对照贝叶斯公式,你发现你漏掉了什么?

你在这个推理过程当中漏掉了背景信息!在一个这样的列车上,你说是研究员多呢,还是农民多?反过来,如果坐的是高铁,那你直接猜他是安陈可能也一语中的。

上面讲的这个推理误区,在认知心理学里称作为Representative Bias.

 

************************************************************************

贝叶斯统计是上述贝叶斯公式的一个简单推广。这个推广,简单地讲,无非是做了下面的一点置换:

进一步,按统计学的习惯写法,将记作, 也就是在给定数据下的似然函数,那么贝叶斯统计的参数估计的公式就表现为

上式中三项分别为后验分布、似然函数、先验分布。

理解上述贝叶斯统计公式,有几个需要注意的问题。

第一,这是中国人的智慧,永远不要把话讲得太满。什么意思呢,我们不要将先验概率的定义域限得太死。没有充分的、机理上的证据,不要将定义域的上下限定得过于具体。比如,实际计算时一个常见的错误是人为地定一个位于某个确定区间内的均匀分布,然后还宣扬自己没有先验信息。这样做的直接后果是,将一大批可能的黑天鹅[注1]都赶尽杀绝。引申开来就是,自己的推理永远跳不出你先验分布的框框里面。要注意,如果在某个区间,那么无论数据(事实)如何,在该区间永远是零——这就是屁股决定脑袋的贝叶斯。

第二,如果将先验分布理解为对不确定性参数所有先验知识和信息的一个概率描述,那么,贝叶斯更新表现为似然函数乘以先验分布,就可以更加直观地理解为它是不同渠道信息的一个融合。这与数据本身不同观察值在条件相互独立前提下构造似然函数的办法是一脉相承的。这里的关键问题于,如何对先验信息和知识进行概率化表达?

第三,从预测的角度,贝叶斯学派和传统的Fisher学派也是一脉相承的。假设某个随机量服从某个参数化概率模型,记作。那么,在给定数据下的预测值可以写成如下形式:

引入条件独立性[注2],式中第一项即为随机变量的固有不确定性模型,而第二项在贝叶斯统计当中即为参数的后验分布,在Fisher学派里头即为似然函数。第二项反映的是模型参数的不确定性。这样,这个预测公式既包含了固有不确定性(Aleatory uncertainty),又包括了认知的不确定性(Epistemic uncertainty)。

第四,贝叶斯统计往往涉及到高维积分,这一点从上面的预测公式容易看出。当模型参数比较多,后验分布经过似然函数的藕合后通常变是相互关联。因此在计算许多统计量如后验均值、方差时,都将涉及到高维积分。为此,许多现代统计计算方法如Markov-chain Monte Carlo, Quasi Monte Carlo等应用而生。

 [注1]所谓“黑天鹅”,是一个英文典故,来源于Taleb的畅销书Black Swan。特指普遍认为不可能发生、发生后却觉得很自然,后果还非常严重的事情,比如911事件。

[注2]此处可介绍统计充分性的概念。



https://blog.sciencenet.cn/blog-103568-707316.html

上一篇:想家了
下一篇:也谈学位论文再发表
收藏 IP: 113.246.77.*| 热度|

24 刘全慧 魏东平 蔣勁松 赵斌 薛宇 王善勇 李宁 应行仁 蒋迅 肖重发 罗岚 庄世宇 李宇斌 徐晓 麻庭光 陆泽橼 武夷山 徐腾飞 王云龙 张海权 陆绮 黄河宁 hangzhou zzjtcm

该博文允许注册用户评论 请点击登录 评论 (13 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 19:51

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部