tianrong1945的个人博客分享 http://blog.sciencenet.cn/u/tianrong1945

博文

浅谈分布之分布(beta分布)-贝叶斯分析之1 精选

已有 10201 次阅读 2017-4-17 06:51 |系统分类:科普集锦

(此文想给袁贤讯老师“再谈贝叶斯——从个体和群体的概率更新角度”一文中提到的beta分布及贝叶斯分析等,补充一点简单解释。)

贝叶斯是23百年前英国的一位古人,却在当代科技界“红”了起来,原因是归结于他的一个著名的概率论公式:贝叶斯定理。

简略历史回顾

当年,贝叶斯研究一个“白球黑球”的概率问题。概率问题可以正向计算,也能反推回去。例如,盒子里有10个球,黑白两种颜色。如果我们知道10个球中55黑,那么,如果我问你,从中随机取出一个球,这个球是黑球的概率是多大?问题不难回答,当然是50%!如果10个球是64黑呢?取出一个球为黑的概率应该是40%。再考虑复杂一点的情形:如果10个球中28黑,现在随机取2个球,得到11白的概率是多少呢?10个球取出2个的可能性总数为10*9=90种,11白的情况有16种,所求概率为16/90,约等于17.5%。因此,只需进行一些简单的排列组合运算,我们可以在10个球的各种分布情形下,计算取出n个球,其中m个是黑球的概率。这些都是正向计算的例子。

不过,贝叶斯当时更感兴趣的是反过来的问题(可称之为逆概率问题):假设我们预先并不知道盒子里黑球白球数目的比例,只知道总共是10个球,那么,比如说,我随机地拿出3个球,发现是21白。逆概率问题则是要从这个试验样本(21白),猜测盒子里白球黑球的比例。

也可以从最简单的抛硬币试验来说明“逆概率”问题。假设我们不知道硬币是不是两面“公平”的,也就是说,不了解这枚硬币的物理偏向性,这时候,得到正面的概率p不一定等于50%。那么,逆概率问题便是企图从某个试验样本来猜测p的数值。

为了解决逆概率问题,贝叶斯在他的论文中提供了一种方法,即贝叶斯公式:

后验概率 = 观测数据决定的调整因子×先验概率    1

根据贝叶斯公式,利用先验知识与观察数据一起,可决定假设的最终概率,以允许对某种不确定性逐步调整后验概率并做出最终的概率预测。

分布之分布

虽然大家都可以使用贝叶斯公式,但使用的方法却可以五花八门,一是确定先验概率的方法便有多种多样。此外,因为是要对未知的不确定性作出预测,那么,如何理解这种“不确定性”?自然地便产生了一些哲学意义上的分歧。

这儿只谈哲学分歧之一:这种不确定性是固有的客观存在吗?

逆概率问题,就是从样本数据来猜测概率模型的参数,比如说抛硬币实验,每次实验可以用随机变量X表示,X服从二项分布或伯努利分布。如何“猜测”抛硬币时正面出现的概率p?频率学派认为模型参数p是固定的客观存在的,贝叶斯学派则把模型的参数p也当作一个不确定的随机变量Y,因而,贝叶斯学派的Y不像频率学派的p那样是一个固定值,而是符合某种分布的随机变量(序列)。所以,对贝叶斯学派而言,硬币实验中有两类随机变量:硬币“正反”的一类随机变量X,和表征硬币偏向性的另一类随机变量Y。随机变量序列与分布相对应,因为Y是建立在随机序列X的模型参数之上的随机序列,因此,其分布被称为“分布之分布”。

频率学派认为p有一个固定数值,也就自然而然地认为决定这个数值的比较好的方法就是多次试验,不停地抛硬币,记录其中正面出现的频率,实验次数足够大的时候,就能越来越逼近p的真实数值,比如说,抛了1000次,正面601次,得到频率p(1000)=0.601,大概可以预测p=0.6

贝叶斯学派并不假定p有一个“客观”数值,而是认为p也对应一个随机变量Y,可以取01之间的任何值,但可能服从某种分布(均匀、正态、或其它),实验次数的增多可以对此分布的情况了解更多。这样一来,使用贝叶斯公式,便可以逐次修正Y对应的分布:

后验概率分布 = 观测数据决定的调整因子×先验概率分布      

将上式表达得稍微“数学”一点:

P(Y|数据)   =    {P(数据| Y) / P(数据)} * P(Y)  =   似然函数* P(Y)                               2

P(数据)可以暂不考虑,以后会放到概率的归一化因子中。

Beta分布

公式(2)中的P(Y)是先验分布,P(Y|数据) 是考虑得到了更多数据条件下的后验分布,P(数据| Y)是(正比于)似然函数。

以简单的“抛硬币”实验为例,首先研究一下似然函数。对硬币“正反”随机性X对应的二项离散变量,事件要么发生(p),要么不发生(1-p)。如果发生m次,不发生n次,似然函数的形式为:

Pm1-pn

如果我们能找到一种分布形式来表示先验分布,乘以似然函数后,得到的后验分布仍然能够保持同样的形式的话,便不仅具有代数公式的协调之美,也会给实际上的计算带来许多方便之处。

很幸运,beta分布就具有我们要求的性质。具有上述性质的分布叫做“共轭先验”,beta分布是二项分布的共轭先验:

f(x; a, b) =xa-1(1-x)b-1/B(a,b)                       3

beta分布用f(x;a,b)表示,其中的B(a,b)是通常的由gamma函数定义的beta函数,在这儿意义不大,只是作为一个归一化的常数而引进,以保证概率求和(或积分)得到1

简单举例

事实上,仅仅从硬币物理性质的角度来看,频率学派的观点似乎言之有理。硬币正反面的偏向性显然是一种固定的客观存在。但是,除此之外,还有很多其它不确定性的情况,就不见得符合这种“参数固定”的模型了,比如量子现象是其中1例。下面再举一个简单例子:

用简单的“雨”或“无雨”来表示某城市气候中的“雨晴”状态。该城市已经有了10天的“雨晴”记录,其中3天有雨,7天无雨,因而可以由此记录得到一个beta先验分布:f(; 3, 7)

然后,再过了8天之后,观测到了新的数据:其中7天有雨1天无雨,后验概率仍然是一个beta分布,不过参数有所改变:f(; 10, 8),见下图





概率问题与贝叶斯定理
http://blog.sciencenet.cn/blog-677221-1049350.html

上一篇:概率论悖论
下一篇:再谈分布之分布(dirichlet分布)-贝叶斯分析之2
收藏 分享 举报

20 李伟钢 赵克勤 徐传胜 蔡新华 杨正瓴 刘全慧 李颖业 袁贤讯 应行仁 邱嘉文 李泳 李欣海 魏焱明 高建国 icgwang Allanmu xlsd laijianshan qiue ymytm

该博文允许注册用户评论 请点击登录 评论 (13 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2017-10-21 03:49

Powered by ScienceNet.cn

Copyright © 2007-2017 中国科学报社

返回顶部