|
(此文想给袁贤讯老师“再谈贝叶斯——从个体和群体的概率更新角度”一文中提到的beta分布及贝叶斯分析等,补充一点简单解释。)
贝叶斯是2、3百年前英国的一位古人,却在当代科技界“红”了起来,原因是归结于他的一个著名的概率论公式:贝叶斯定理。
简略历史回顾
当年,贝叶斯研究一个“白球黑球”的概率问题。概率问题可以正向计算,也能反推回去。例如,盒子里有10个球,黑白两种颜色。如果我们知道10个球中5白5黑,那么,如果我问你,从中随机取出一个球,这个球是黑球的概率是多大?问题不难回答,当然是50%!如果10个球是6白4黑呢?取出一个球为黑的概率应该是40%。再考虑复杂一点的情形:如果10个球中2白8黑,现在随机取2个球,得到1黑1白的概率是多少呢?10个球取出2个的可能性总数为10*9=90种,1黑1白的情况有16种,所求概率为16/90,约等于17.5%。因此,只需进行一些简单的排列组合运算,我们可以在10个球的各种分布情形下,计算取出n个球,其中m个是黑球的概率。这些都是正向计算的例子。
不过,贝叶斯当时更感兴趣的是反过来的问题(可称之为逆概率问题):假设我们预先并不知道盒子里黑球白球数目的比例,只知道总共是10个球,那么,比如说,我随机地拿出3个球,发现是2黑1白。逆概率问题则是要从这个试验样本(2黑1白),猜测盒子里白球黑球的比例。
也可以从最简单的抛硬币试验来说明“逆概率”问题。假设我们不知道硬币是不是两面“公平”的,也就是说,不了解这枚硬币的物理偏向性,这时候,得到正面的概率p不一定等于50%。那么,逆概率问题便是企图从某个试验样本来猜测p的数值。
为了解决逆概率问题,贝叶斯在他的论文中提供了一种方法,即贝叶斯公式:
后验概率 = 观测数据决定的调整因子×先验概率 (1)
根据贝叶斯公式,利用先验知识与观察数据一起,可决定假设的最终概率,以允许对某种不确定性逐步调整后验概率并做出最终的概率预测。
分布之分布
虽然大家都可以使用贝叶斯公式,但使用的方法却可以五花八门,一是确定先验概率的方法便有多种多样。此外,因为是要对未知的不确定性作出预测,那么,如何理解这种“不确定性”?自然地便产生了一些哲学意义上的分歧。
这儿只谈哲学分歧之一:这种不确定性是固有的客观存在吗?
逆概率问题,就是从样本数据来猜测概率模型的参数,比如说抛硬币实验,每次实验可以用随机变量X表示,X服从二项分布或伯努利分布。如何“猜测”抛硬币时正面出现的概率p?频率学派认为模型参数p是固定的客观存在的,贝叶斯学派则把模型的参数p也当作一个不确定的随机变量Y,因而,贝叶斯学派的Y不像频率学派的p那样是一个固定值,而是符合某种分布的随机变量(序列)。所以,对贝叶斯学派而言,硬币实验中有两类随机变量:硬币“正反”的一类随机变量X,和表征硬币偏向性的另一类随机变量Y。随机变量序列与分布相对应,因为Y是建立在随机序列X的模型参数之上的随机序列,因此,其分布被称为“分布之分布”。
频率学派认为p有一个固定数值,也就自然而然地认为决定这个数值的比较好的方法就是多次试验,不停地抛硬币,记录其中正面出现的频率,实验次数足够大的时候,就能越来越逼近p的真实数值,比如说,抛了1000次,正面601次,得到频率p(1000)=0.601,大概可以预测p=0.6。
贝叶斯学派并不假定p有一个“客观”数值,而是认为p也对应一个随机变量Y,可以取0到1之间的任何值,但可能服从某种分布(均匀、正态、或其它),实验次数的增多可以对此分布的情况了解更多。这样一来,使用贝叶斯公式,便可以逐次修正Y对应的分布:
后验概率分布 = 观测数据决定的调整因子×先验概率分布
将上式表达得稍微“数学”一点:
P(Y|数据) = {P(数据| Y) / P(数据)} * P(Y) = 似然函数* P(Y) (2)
P(数据)可以暂不考虑,以后会放到概率的归一化因子中。
Beta分布
公式(2)中的P(Y)是先验分布,P(Y|数据) 是考虑得到了更多数据条件下的后验分布,P(数据| Y)是(正比于)似然函数。
以简单的“抛硬币”实验为例,首先研究一下似然函数。对硬币“正反”随机性X对应的二项离散变量,事件要么发生(p),要么不发生(1-p)。如果发生m次,不发生n次,似然函数的形式为:
Pm(1-p)n
如果我们能找到一种分布形式来表示先验分布,乘以似然函数后,得到的后验分布仍然能够保持同样的形式的话,便不仅具有代数公式的协调之美,也会给实际上的计算带来许多方便之处。
很幸运,beta分布就具有我们要求的性质。具有上述性质的分布叫做“共轭先验”,beta分布是二项分布的共轭先验:
f(x; a, b) =xa-1(1-x)b-1/B(a,b) (3)
beta分布用f(x;a,b)表示,其中的B(a,b)是通常的由gamma函数定义的beta函数,在这儿意义不大,只是作为一个归一化的常数而引进,以保证概率求和(或积分)得到1。
简单举例
事实上,仅仅从硬币物理性质的角度来看,频率学派的观点似乎言之有理。硬币正反面的偏向性显然是一种固定的客观存在。但是,除此之外,还有很多其它不确定性的情况,就不见得符合这种“参数固定”的模型了,比如量子现象是其中1例。下面再举一个简单例子:
用简单的“雨”或“无雨”来表示某城市气候中的“雨晴”状态。该城市已经有了10天的“雨晴”记录,其中3天有雨,7天无雨,因而可以由此记录得到一个beta先验分布:f(雨; 3, 7)。
然后,再过了8天之后,观测到了新的数据:其中7天有雨1天无雨,后验概率仍然是一个beta分布,不过参数有所改变:f(雨; 10, 8),见下图。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-21 22:36
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社