安静分享 http://blog.sciencenet.cn/u/physicsxuxiao 致远

博文

编派袁贤讯:频率派和贝叶斯的区别 精选

已有 8918 次阅读 2013-8-21 01:25 |个人分类:高级科普|系统分类:科普集锦

【按:本文是为写前面袁贤讯故事的补充。我发现,如果先不把概率的道理讲清楚,编了一堆袁贤讯的故事也没意义。因此,本文先介绍我们如何获得概率值,然后再接着编故事比较好(袁贤讯,你稍安勿躁)。鉴于在概率和统计方面,袁贤讯是专业级民科,所以本文任何错漏都归袁贤讯负责】

      对于物理民科而言,概率的基本思想,就是我们从高中学习的时候就知道的摸彩球游戏。比如,一个盒子里有两个白球,一个黑球,你看不见,那么你摸到黑球的概率是多少?你不用想,就可以回答到,1/3。

     果真如此吗?如果黑球的体积是白球的10倍,会是什么情形?如果在你摸的时候,黑球的大小一直在变化,一会儿变大,一会儿变小,又会是什么结果?

     OK,你思考一会,会问,到底什么是概率?或者说概率是如何定义的?浅显的说法,是某个事情发生的可能性。

      比较好的讲法,我个人认为,是Gibbs的系综(ensemble)理论。Gibbs的系综,是假定存在无穷多个一模一样结构的系统(系统的数目记为N,N趋于无穷大),彼此没有相互作用,处于一样的环境,你同时测量这无穷多个系统的某个特性,比如系统的能量,如果你得到有M个系统的能量处于能量区间[E1,E2],那么我们就说这样一个系统在测量时刻处于能量区间[E1,E2]的状态的概率是M/N。

      这个讲法很抽象,也没什么可操作性-哪里去找无穷多个一模一样的系统?难道我可以种下无穷多个袁贤讯,这些袁贤讯彼此之间还不能打情骂俏,并且还要把他们放到完全相同的环境,再看看袁贤讯每天12点正在吃东西的概率?

      那么在实际中,如何度量概率呢?

(1)频率派

      按照频率派的说法,就是你不断重复地进行某个实验,进行了N次,如果某个实验现象出现了M次,那么我们认为这个实验现象出现的可能性,或者概率就是M/N。如果你不断进行这个实验,其次数N趋于无穷多次,那么比值M/N就会固定到某个值。那么这个时候,其概率值M/N就是个确定的值。

      当然在实际中,你也做不到无穷多次,我们说你只要进行的实验次数足够多就好。 在真实情况下,我们就是使用这种统计频次的方式来获得概率值的。

      你翻开教科书,举得最多的例子,就是扔钢镚儿-看看扔出来钢镚儿两个面各自出现的概率。

      但是,频率派也提出了些基本的假定或者要求,要求任何实验的条件都不能发生变化,而且各次实验不能相互影响。

      稍微复杂点的情况,就会破坏频率派的假定,对频率值的统计产生影响。

      比如你射箭,第一箭射歪了,心情大坏,后面接着的一箭可能直接脱靶。这个时候两次射箭彼此就相互影响了。这样,用多次射箭所获得的结果来统计概率值,就作不得准。

      而如果实验条件随多次实验开展,而发生了明显变化,当然也会影响概率值的获得。比如骑自行车掉链子,往往跟自行车转盘的机械磨损有关。如果使用的时间长,转盘被磨损,掉链子次数会增加。如果我们从你使用新车开始,到你自行车报废为止,来统计上路掉链子的次数(次数以每走1米掉或者不掉记),然后计算你掉链子的概率,那么这个结果往往也是作不得准的。

      在实际应用中,我们会自觉不自觉地接受频率派的概率思想,以此为基础,然后假定多次实验或者观察彼此没有影响,再假定实验和观察条件的一致性,而进一步认为统计事件发生的频次,就可以计算概率。当然事情复杂一点,我们就没戏了。除非我们自觉或者不自觉地忽略了频率派的假定。

(2)贝叶斯的概率测量

      关于概率的测量上,贝叶斯则是另外的思路。

      先从条件概率的基本公式出发:

                $P(AB)=P(A|B)P(B)=P(B|A)P(A)$

      这条公式是说,事件A和B都发生的概率,等于事件B发生的概率乘以事件B发生条件下事件A发生的概率,也等于事件事件A发生的概率乘以事件A发生条件下事件B发生的概率。

      将这个公式变变形,得到:

                $P(B|A)=\frac{P(A|B)}{P(A)}P(B)$

      以上公式也没有什么巧妙。但是如果我们给事件A和B赋予稍微特殊点的功能,这个公式就变得有趣起来。

      比如,我并不清楚,袁贤讯是男是女,甚至有可能是个网络机器人(soft robot)。按照最一般的办法,我开始认为,袁贤讯是男,是女,是网络机器人的概率各占1/3。(当然还有其他可能性,但是为避免袁贤讯生气,我就假设这三种了。)这个概率,对我而言,没有任何事实支撑,所以我们将之叫做先验概率(prior probablity)。我们定义“袁贤讯是男的”这一事件是事件B,其先验概率是$P(袁贤讯是男的)=1/3$。

     我们定义事件A是“袁贤讯有长胡子的博客头像”。

     显然,袁贤讯是“人+网络机器人”中的一员,假定我们按照频率派的手法,统计了所有这类成员的图片,最后,想象一下,得到了一个结果:

                               P(袁贤讯有长胡子的头像)=0.1

    再想像一下,假定我们按照频率派的手法,统计了所有男成员的图片,也得到了袁贤讯在是男的的情况下使用带胡子头像的可能性,如下:

                               P(袁贤讯有长胡子的头像|袁贤讯是男的)= 0.7

    最后,经过计算,我们有:

                               $P(袁贤讯是男的|袁贤讯有长胡子的头像)=\frac{P(袁贤讯有长胡子的头像|袁贤讯是男的)}{  P(袁贤讯有长胡子的头像)}P(袁贤讯是男的)$

                               $=0.7*(1/3)/0.3=0.778$

    也就是说,如果我们看到了袁贤讯长胡子的头像,我们就可以认为“袁贤讯是男的”这件事的概率大大增加了,概率为0.778,我们会对“袁贤讯是男的“这件事信心大增。

    我们去看袁贤讯博客头像,果然是条小龙,长了两片胡子!

                                         

    因此,对我而言,“袁贤讯是男的“的概率大大升高。由于我们是在看了头像的基础上,得到的结论,是经过观察而得的结论,所以叫做后验概率(posterior probablity)。

    再次的观察,我将会以这次的后验概率为基础,将之作为下次观察的先验概率,也就是说:

                       P(袁贤讯是男的)= 0.778

    如此进行,我们观察不同事实,最终我们会在P(袁贤讯是男的)的某个概率值上稳定下来。

    这样我们就通过巧妙的方式,测量了 P(袁贤讯是男的)的值。

(3)频率派推断(frequentist inference)与贝叶斯推断(Bayesian inference)的区别

    往下进行的这个话题,很不科普,所以需要袁贤讯进一步解释。

-----------

以下是回答老邪的博文http://blog.sciencenet.cn/blog-2984-718593.html 中的问题(4)的。

完整的贝叶斯公式的推导有两个来源,一是条件概率,一个全概率公式,其结果为:

$P(B_{i}|A)=\frac{P(A|B_{i})P(B_{i})}{\sum_{i=1}^{N}  P(A|B_{i})P(B_{i})}$

这里要求$B_{i}$两两互不相容(注意不是相互独立),而且$B_{1}$到$B_{N}$正好覆盖样本空间全体。

      所谓事件独立,是指两个事件彼此没关系,比如事件A:“我现在正在写博客”和事件B:“北京正在下雨。”彼此没什么影响,就没有什么关系。概率上就有:

                     P(AB)=P(A)P(B)=P(A|B)P(B)=P(B|A)P(A)

就有               P(A)=P(A|B),P(B)=P(B|A)

     而事件互不相容,是指,发生了事件C,就不可能发生事件D,那么事件C和D就互不相容。因此,概率上有:

                    P(CD)=P(C|D)=P(D|C)=0

---------

关于上面的公式,袁贤讯认为是错的,我本人也有疑惑。因为一般地讲,所谓互不相容事件,是指不可能同时发生的事件,比如你不可能射出一箭,是十环又是九环。换言之,你要么是十环,要么是九环。所以“你那一次射箭是十环”和“你那一次射箭是九环”两个事件就是互斥事件,或者说是互不相容事件。

但是概率论开始部分的定义是跟“时间”没有关系的。

所以,在公理化概率体系里面,互斥事件A和B定义为:AB=空集。所以有P(AB)=0;

而条件概率定义为:同一概率空间上的两个事件A和B,则

                                P(A|B)=P(AB)/P(B)

如果用这两个条件,很容易证明以上公式成立。

 



https://blog.sciencenet.cn/blog-731678-718255.html

上一篇:正是当年初见海
下一篇:外行问题:秦四清研究员的地震预测方法是原创吗?
收藏 IP: 219.137.181.*| 热度|

13 武夷山 袁海涛 魏东平 刘全慧 袁贤讯 彭真明 庄世宇 王锟 赵斌 赵美娣 张明武 杨正瓴 zzjtcm

该博文允许注册用户评论 请点击登录 评论 (37 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-2 01:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部