|
(此文为“浅谈分布之分布(Beta分布)”之延续)
主观和客观
概率是客观的还是主观的?有人认为这是频率学派和贝叶斯学派的区别,其实不然,也许可以认为是一种哲学思想上的差别,但就科学研究的意义上,尽管物理世界是客观存在的,解决问题的方法却总是人为的,难免掺进主观的因素,自觉或不自觉地,明显的或隐含的,不管哪个派别,主观性在所难免。作为数学的应用,必须具体问题具体分析,哪种方法有效便使用哪一种,主观还是客观之说法,只不过是凌驾于科学之上的“哲人”们对理论的不同诠释,对解决具体问题无济于事。
也许有人将此观点称为“客观贝叶斯派”。实际上纯粹的主观贝叶斯派和纯粹的频率学派一样,很难独立存在。如果主观派排斥使用频率学派多次实验的观点,那么,对概率论中最重要的两个原理:大数定律和中心极限定理,又该如何理解?另外,对频率学派而言,即使你认为硬币正反两面的偏向性是固有的客观存在,也仍然可以使用贝叶斯方法来研究和预测它。事实上,频率派在具体计算中经常使用“uniform”分布作为“先验分布”的隐含条件。
上篇文章中谈到的抛硬币例子,即使模型参数p是固定的客观存在,也可以使用Beta函数来猜测p,赋予p什么样的先验分布呢?最合理的猜测是假设硬币是公平的两面均匀的,也就是说p=1/2,或正面反面概率相等,即对应于uniform distribution。使用前文中Beta分布的符号,参数a=1,b=1时的Beta分布f(x; 1, 1) 对应的便是均匀分布。
二项分布到多项分布
二项分布用以描述抛硬币数次的随机过程,也可以用来描述掷骰子时某一个面“出现”或“不出现”的概率分布。更一般的掷骰子问题,如果要同时考虑6个面出现的概率分布,便需要将二项分布推广到多项分布(6项分布),考虑它们似然函数的形式,如下图所示。
以上的多项分布具体用到掷骰子的例子,N=6。但骰子也可以不是6面的,可以是8面、12面,……,或推广到任意多个面,同样可以使用上式中的多项分布公式。
根据贝叶斯定理:P(Y|数据) =(正比于) 似然函数 * P(Y)
为了方便起见,如果先验分布和似然函数有类似结构,这样得到的后验分布也有类似结构,计算得以简化,因为此时后验和先验的差别只是指数幂的参数相加。类似于二项分布的先验共轭Beta分布,多项分布的先验共轭是Dirichlet分布。因此,对多项分布的似然函数,如果P(Y)使用共轭先验,即Dirichlet分布的形式,后验概率分布P(Y|数据) 仍然保持Dirichlet分布的形式,只是参数有所变化而已。
Dirichlet分布
上式中的B(a,b)和B(a)是由gamma函数定义的beta函数,作为归一化常数。二项分布和多项分布是离散概率分布,但它们的共轭分布:Beta分布和Dirichlet分布,是连续概率分布。因此,上面的Beta和Dirichlet分布公式中参数a的取值范围扩充到任何正实数。当所有的a=1时,Dirichlet分布简化为K维空间的均匀分布。Beta分布和Dirichlet分布都被称为“分布之分布”。
图1:不同a下的Dirichlet分布
以掷一个6面(K=6)的骰子为例,如果我们不知道这个骰子的物理偏向性,各面(“1”、“2”、“3”、“4”、“5”、“6”)出现的概率分别记为p1、p2、p3、p4、p5、p6(6个概率之和为1)。掷骰子N次之后,得到从“1”到“6”的一堆数据,每一个数字的数据都对应一个(待猜测的)分布,如何从这些数据来猜测这6个pi?贝叶斯分析的方法是首先给pi一个假设分布,比如均匀分布(pi=1/6),即先验概率为f(x1, x2, x3,x4, x5,x6; 1,1,1,1,1,1)。然后,比如 N=21,假设21个样本数据中,有3个“1”、4个“2”、2个“3”、3个“4”、5个“5”、4个“6”,从贝叶斯公式可得后验概率为如下Dirichlet分布:
f(x1,x2, x3, x4, x5,x6;4,5,3,4,6,5)。
这个Dirichlet分布决定了由这21个样本而猜测的6个概率的分布函数。比较图1中的b和c可知,后验分布函数的形状已经大大不同于先验的“uniform”,。
Dirichlet过程
上面例子中是一个已知6面的骰子。如果我们对试验骰子的情况一无所知,甚至也不知道它有多少个面,从我们的样本数据中,不仅仅出现“1”到“6”,或许突然就冒出来一个“12”,或者甚至“213”等等奇怪的大数值。将来的数据也无法预测,在这种情形下,最好的方法是将我们的理论推广到无穷大维数(即上面Dirichlet分布表达式中的K)的情形。当Dirichlet分布之维度趋向无限时,便成为Dirichlet过程(Dirichlet process)。
Dirichlet过程是无限非参数离散分布的先验共轭,可以用在无限混合模型中作为先验概率分布。
与Dirichlet过程(DP)紧密相关并等效的另一个有趣过程是“中国餐馆过程”(CRP),是一个可以用通俗语言叙述的抽象数学模型。
中国餐馆过程
一个有无限多张桌子的中国餐馆,第一个顾客到来,坐上第一张桌子,之后的每位顾客来到时都面临不同概率的两种选择:选择坐在已有顾客的某张桌子上,或者选择新开一张桌子。选择的概率规则如下:比如说,第n+1(n>0)个顾客到来的时候,已经在k张桌子上,分别坐了n1, n2, ...,nk个顾客,那么,第n+1个顾客可以以概率为ni/(a+n) 选择坐在第i张桌子上,或者以a/(a +n) 的概率选择一张新的(第k+1张)桌子坐下,见图2。
图2:中国餐馆过程
将上述过程进一步解释一下:进来的第n+1个顾客,选择新开桌子的概率为a/(a +n),选择在某个有人的第i张桌子坐下的概率则正比于该桌子上原有的人数ni。
此外,每张桌子上只能有同一道菜。这个限制使得顾客们自然地倾向于与“看起来和自己同一类的人”坐在一起,正是:“物以类聚、人以群分”。
在n个顾客坐定之后,这n个顾客分到了K个桌子上,形成K个clusters。然后,第n+1个顾客来到,如此继续下去……,可以证明,这个随机过程等效于Dirichlet过程。
一点题外话
我的读博导师CécileDeWitt是做数学物理的,当时选论文课题时,她给了我两个选择方向:一是“费曼路径积分”用于广义相对论,另一个是“随机过程”用于微分流形。因为我在中科院理论物理所时是跟郭汉英先生等作广义相对论,所以就选了第一个题目,但对概率和随机过程也一直保持关注,感觉现在概率论在现代科技中应用越来越多,特别是人工智能的发展,有关贝叶斯在机器学习中的应用引人注目,从而产生写这方面科普文的念头。但仓促成文,水平有限,不足之处还望各位批评指正。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 09:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社