||
【按:本文是为写前面袁贤讯故事的补充。我发现,如果先不把概率的道理讲清楚,编了一堆袁贤讯的故事也没意义。因此,本文先介绍我们如何获得概率值,然后再接着编故事比较好(袁贤讯,你稍安勿躁)。鉴于在概率和统计方面,袁贤讯是专业级民科,所以本文任何错漏都归袁贤讯负责】
对于物理民科而言,概率的基本思想,就是我们从高中学习的时候就知道的摸彩球游戏。比如,一个盒子里有两个白球,一个黑球,你看不见,那么你摸到黑球的概率是多少?你不用想,就可以回答到,1/3。
果真如此吗?如果黑球的体积是白球的10倍,会是什么情形?如果在你摸的时候,黑球的大小一直在变化,一会儿变大,一会儿变小,又会是什么结果?
OK,你思考一会,会问,到底什么是概率?或者说概率是如何定义的?浅显的说法,是某个事情发生的可能性。
比较好的讲法,我个人认为,是Gibbs的系综(ensemble)理论。Gibbs的系综,是假定存在无穷多个一模一样结构的系统(系统的数目记为N,N趋于无穷大),彼此没有相互作用,处于一样的环境,你同时测量这无穷多个系统的某个特性,比如系统的能量,如果你得到有M个系统的能量处于能量区间[E1,E2],那么我们就说这样一个系统在测量时刻处于能量区间[E1,E2]的状态的概率是M/N。
这个讲法很抽象,也没什么可操作性-哪里去找无穷多个一模一样的系统?难道我可以种下无穷多个袁贤讯,这些袁贤讯彼此之间还不能打情骂俏,并且还要把他们放到完全相同的环境,再看看袁贤讯每天12点正在吃东西的概率?
那么在实际中,如何度量概率呢?
(1)频率派
按照频率派的说法,就是你不断重复地进行某个实验,进行了N次,如果某个实验现象出现了M次,那么我们认为这个实验现象出现的可能性,或者概率就是M/N。如果你不断进行这个实验,其次数N趋于无穷多次,那么比值M/N就会固定到某个值。那么这个时候,其概率值M/N就是个确定的值。
当然在实际中,你也做不到无穷多次,我们说你只要进行的实验次数足够多就好。 在真实情况下,我们就是使用这种统计频次的方式来获得概率值的。
你翻开教科书,举得最多的例子,就是扔钢镚儿-看看扔出来钢镚儿两个面各自出现的概率。
但是,频率派也提出了些基本的假定或者要求,要求任何实验的条件都不能发生变化,而且各次实验不能相互影响。
稍微复杂点的情况,就会破坏频率派的假定,对频率值的统计产生影响。
比如你射箭,第一箭射歪了,心情大坏,后面接着的一箭可能直接脱靶。这个时候两次射箭彼此就相互影响了。这样,用多次射箭所获得的结果来统计概率值,就作不得准。
而如果实验条件随多次实验开展,而发生了明显变化,当然也会影响概率值的获得。比如骑自行车掉链子,往往跟自行车转盘的机械磨损有关。如果使用的时间长,转盘被磨损,掉链子次数会增加。如果我们从你使用新车开始,到你自行车报废为止,来统计上路掉链子的次数(次数以每走1米掉或者不掉记),然后计算你掉链子的概率,那么这个结果往往也是作不得准的。
在实际应用中,我们会自觉不自觉地接受频率派的概率思想,以此为基础,然后假定多次实验或者观察彼此没有影响,再假定实验和观察条件的一致性,而进一步认为统计事件发生的频次,就可以计算概率。当然事情复杂一点,我们就没戏了。除非我们自觉或者不自觉地忽略了频率派的假定。
(2)贝叶斯的概率测量
关于概率的测量上,贝叶斯则是另外的思路。
先从条件概率的基本公式出发:
$P(AB)=P(A|B)P(B)=P(B|A)P(A)$
这条公式是说,事件A和B都发生的概率,等于事件B发生的概率乘以事件B发生条件下事件A发生的概率,也等于事件事件A发生的概率乘以事件A发生条件下事件B发生的概率。
将这个公式变变形,得到:
$P(B|A)=\frac{P(A|B)}{P(A)}P(B)$
以上公式也没有什么巧妙。但是如果我们给事件A和B赋予稍微特殊点的功能,这个公式就变得有趣起来。
比如,我并不清楚,袁贤讯是男是女,甚至有可能是个网络机器人(soft robot)。按照最一般的办法,我开始认为,袁贤讯是男,是女,是网络机器人的概率各占1/3。(当然还有其他可能性,但是为避免袁贤讯生气,我就假设这三种了。)这个概率,对我而言,没有任何事实支撑,所以我们将之叫做先验概率(prior probablity)。我们定义“袁贤讯是男的”这一事件是事件B,其先验概率是$P(袁贤讯是男的)=1/3$。
我们定义事件A是“袁贤讯有长胡子的博客头像”。
显然,袁贤讯是“人+网络机器人”中的一员,假定我们按照频率派的手法,统计了所有这类成员的图片,最后,想象一下,得到了一个结果:
P(袁贤讯有长胡子的头像)=0.1
再想像一下,假定我们按照频率派的手法,统计了所有男成员的图片,也得到了袁贤讯在是男的的情况下使用带胡子头像的可能性,如下:
P(袁贤讯有长胡子的头像|袁贤讯是男的)= 0.7
最后,经过计算,我们有:
$P(袁贤讯是男的|袁贤讯有长胡子的头像)=\frac{P(袁贤讯有长胡子的头像|袁贤讯是男的)}{ P(袁贤讯有长胡子的头像)}P(袁贤讯是男的)$
$=0.7*(1/3)/0.3=0.778$
也就是说,如果我们看到了袁贤讯长胡子的头像,我们就可以认为“袁贤讯是男的”这件事的概率大大增加了,概率为0.778,我们会对“袁贤讯是男的“这件事信心大增。
我们去看袁贤讯博客头像,果然是条小龙,长了两片胡子!
因此,对我而言,“袁贤讯是男的“的概率大大升高。由于我们是在看了头像的基础上,得到的结论,是经过观察而得的结论,所以叫做后验概率(posterior probablity)。
再次的观察,我将会以这次的后验概率为基础,将之作为下次观察的先验概率,也就是说:
P(袁贤讯是男的)= 0.778
如此进行,我们观察不同事实,最终我们会在P(袁贤讯是男的)的某个概率值上稳定下来。
这样我们就通过巧妙的方式,测量了 P(袁贤讯是男的)的值。
(3)频率派推断(frequentist inference)与贝叶斯推断(Bayesian inference)的区别
往下进行的这个话题,很不科普,所以需要袁贤讯进一步解释。
-----------
以下是回答老邪的博文http://blog.sciencenet.cn/blog-2984-718593.html 中的问题(4)的。
完整的贝叶斯公式的推导有两个来源,一是条件概率,一个全概率公式,其结果为:
$P(B_{i}|A)=\frac{P(A|B_{i})P(B_{i})}{\sum_{i=1}^{N} P(A|B_{i})P(B_{i})}$
这里要求$B_{i}$两两互不相容(注意不是相互独立),而且$B_{1}$到$B_{N}$正好覆盖样本空间全体。
所谓事件独立,是指两个事件彼此没关系,比如事件A:“我现在正在写博客”和事件B:“北京正在下雨。”彼此没什么影响,就没有什么关系。概率上就有:
P(AB)=P(A)P(B)=P(A|B)P(B)=P(B|A)P(A)
就有 P(A)=P(A|B),P(B)=P(B|A)
而事件互不相容,是指,发生了事件C,就不可能发生事件D,那么事件C和D就互不相容。因此,概率上有:
P(CD)=P(C|D)=P(D|C)=0
---------
关于上面的公式,袁贤讯认为是错的,我本人也有疑惑。因为一般地讲,所谓互不相容事件,是指不可能同时发生的事件,比如你不可能射出一箭,是十环又是九环。换言之,你要么是十环,要么是九环。所以“你那一次射箭是十环”和“你那一次射箭是九环”两个事件就是互斥事件,或者说是互不相容事件。
但是概率论开始部分的定义是跟“时间”没有关系的。
所以,在公理化概率体系里面,互斥事件A和B定义为:AB=空集。所以有P(AB)=0;
而条件概率定义为:同一概率空间上的两个事件A和B,则
P(A|B)=P(AB)/P(B)
如果用这两个条件,很容易证明以上公式成立。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-20 07:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社