|||
《概率统计系列-结束篇》
本文借一个二战中的概率统计问题“德国坦克问题”,再次将频率学派与贝叶斯学派做一比较,也算是作为间断了一段时间的“概率统计系列”之结束篇。
频率学派和贝叶斯学派最大的差别是在于对物理世界建模时使用的参数的认知。频率学派认为模型的参数是固定的,真实而客观存在的。他们的方法,是使用最大似然(maximum likelihood)以及置信区间(confidence interval),以便找出这个参数的真实值。而贝叶斯学派恰恰相反,不关心参数的所谓“真实值”,关心的是参数的每一个值的可能性,即参数的概率分布。贝叶斯学派将参数看作是随机变量,每个值都有可能是真实模型使用的值,区别只是概率不同而已【1】。
在数理统计学中,经常使用似然函数来描述统计模型中的参数,由此函数的最优化来估算参数的方法叫做“最大似然估计”。
似然函数是什么?“似然性”一词与“概率”一词意义相近,都是指某种事件发生的可能性。似然函数与之前介绍过的概率分布函数有关,他们的函数形式有可能相同,但在统计学中,两者在概念上有着明确的区分:概率分布函数是随机变量的函数,参数固定;似然函数是参数的函数,随参数之变化而变化。
从概率的角度看,也可以说,两种方法的差异来自于使用条件概率还是使用边缘概率。如果有两个以上的随机变量,通常用它们的联合概率分布来描述其在多维空间的随机性。如图1表示随机变量X和Y的联合概率分布以及边缘概率。
图1:联合概率边缘化
频率学派将模型参数看着是固定的,贝叶斯学派则把参数也看着是随机变量,也符合某种分布,这是两者的根本区别。
贝叶斯学派的想法其实更为自然,这也是为什么贝叶斯学派的产生远早于频率学派,但当电子计算机技术尚未出现时,大大限制了贝叶斯方法的发展。频率学派主要使用最优化的方法,处理起来要方便很多。如今,贝叶斯学派重新回到人们的视线中,日益受到重视。两个学派除了在参数空间的认知上有区别以外,方法论上都是互相借鉴也可以相互转化的。
因为贝叶斯派认为所有的参数都是随机变量,都有分布,因此可以使用一些基于采样的方法(如MCMC)使得我们更容易构建复杂模型。频率派的优点则是没有假设一个先验分布,因此更加客观,也更加无偏,在一些保守的领域(比如制药业、法律)比贝叶斯方法更受到信任。
贝叶斯派认为参数不确定。有时候,这种不确定性是物体的固有属性,是独立于主观因素的客观存在。比如硬币或骰子,它的物理偏向性如何?某一面出现的概率是多少?是否“公平”?这些都是在物体的制造过程中决定了的,原则上可用频率派多次实验的方法来探索它的概率。但在某些情形,“不确定性”的客观意义并不显而易见,例如在清华对北大的某次篮球赛中,某人预言清华队“赢”的概率,是他的个人观点结合两个球队实力得出的主观猜测,这时候,使用贝叶斯定理逐次更新概率模型的方法更为合适。
图2:两学派对参数的不同观点
图2表示两大学派从不同角度来看待物理参数:频率学派认为参数值是固定的,使用多次测量来逼近这个固定值。贝叶斯学派从固定的样本区间,考虑参数所有可能值,用实验结果来更新参数取值的概率。
德国坦克问题—贝叶斯推断
下面我们用一个简单的例子:第二次世界大战中的德国坦克问题,来说明频率学派和贝叶斯学派处理统计推断问题时的区别。
当年,德国佬正在大规模地生产坦克,盟军想要知道他们每个月的坦克产量数。为了了解这个信息,盟军采取了两种方法:一是根据情报人员刺探的消息而得到,另一种是根据盟军发现和截获的德国坦克数据,用统计分析办法得到。根据第一种方法得到的情报,德军坦克每个月的产量大约有1400辆,但根据概率统计推断的方法,预计的数量只有数百辆。二战之后,盟军对德国的坦克生产记录进行了检查,发现统计方法预测的答案(见表1)令人惊讶地与事实符合【2】,统计学家们是怎么做到这点的呢?
表1(来自维基百科)
那时候,德国制造的每一辆坦克上都有一个序列号。假设德国每个月生产一批坦克,从1到最大值N顺序排列,因此,可以把这个最大编号N,当作每个月总的生产量。盟军发现和截获的任何德国坦克上的序列号,都应该是介于1和N之间的一个整数,根据这些截获坦克序列号的数据,如何来猜测总的生产数N?这是当年的战争给数学家们提出的难题。
这是一个统计推断的问题,也就是从观察到的数据样本(序列号),来推断随机变量的某些整体参数(N)。如今思考这个问题,有两种不同的推断方法:经典方法和贝叶斯推断。
经典统计推断包括几个基本原则:最大似然(概率)估计、最小方差、无偏性等等。简单而言,经典统计使用求极值的方法,让选取的某个似然函数最大化,同时也考虑样本平均平方差最小化,而无偏性指的则是尽量使得样本平均值等于整体平均值。
比如说,先考虑最简单的情况:在某个月内,盟军只发现了1辆德国坦克,其标号为60,那么,你如何来估计德国在这个月生产坦克的总数N?也许读者会说:“你疯了!只有这么1个数据,有什么可估计的?还能使用什么统计方法吗?参数N是任何数值都有可能的,只能随便猜测一个啦!”
不过,你的说法显然不正确。首先,N不可能是任何数,N的值起码要大于或等于60!严肃的统计学家就更不会这么说了,即使对如此少量的数据,他仍然可以进行他的统计推断。
图3:截获任何一辆坦克的概率vs坦克总数
第一,为了估计真实的总产量数N0,他需要构造一个概率函数,称其为似然函数。设想:如果这批坦克生产的总数是N的话,根据等概率原则,拦截到1到N中任何一个编号的坦克的可能性都相同,均为1/N。也就是说,截获任一辆坦克的概率是坦克总数N的函数:N越大,即生产的坦克数越多,截获某个编号坦克的概率便越小。概率随N的变化情形,如图3所示的一截双曲线。这个概率分布曲线,便可选作似然函数。
最大似然估计的目标是找出概率最大的点对应的N0,因为这个问题中,N越小概率越大,所以得到在最大化概率点的N0=60,即图3中曲线最左边的起始点。
经典方法的第二个考虑是最小化均方差(MSE)。为此,我们假设总产量N不是刚好等于60,而是乘以一个大于1的因子a。想象盟军看到了N个坦克中所有的坦克,那么,均方差可以按照如下方法计算并最优化,再求最小值。
图4:将均方差最小化
从上面的计算结果,当坦克总数N比较大时,相乘的因子a近似为3/2,由此可将N0的估计值从60,调节到N0 (均方差最小) = 60×3/2 = 90。
最后,还得考虑样本的无偏性。如果N0=60的话,这个样本太不符合“无偏”的条件了,既然每一辆坦克被发现的概率都是一样的,凭什么盟军截获了一辆坦克就截到了最后生产的那一辆呢?这听起来太奇怪了,N0=90也不符合无偏,最符合无偏条件的就是截获的是序号为中间的那一辆,它的序号使得样本序号的平均值等于整体所有样本序号的平均值。也就是说,无偏的N0被估计为60的两倍,N0 (无偏)=120.
真不愧为数学家,仅仅截获到1辆坦克,就有这么多的考虑,如果截获了更多呢?我们可以将问题一般化,以上经典学派的思考方式也可以推广到一般的情况,简单叙述如下:
问题:盟军发现了k辆坦克,序号分别为i1……ik,最大的序号是m,估计总数N0。
经典推断方法的答案:N0 = m + (m-k)/k。
比如说,盟军发现了5辆坦克,其序列号分别为215、90、256、248、60,因此,k = 5,m = 256。从以上经典方法的公式,得到坦克未知的总数N0 = 256 +(256-5)/5 = 306。
贝叶斯推断【3】
以上使用的是经典统计推断方法,贝叶斯学派又如何解决德国坦克问题呢?
贝叶斯派的估算方法比频率派的方法更为有趣和更有意思。刚才说过,贝叶斯派有别于频率派的重要差别之一是对“参数”的看法。频率派认为物理参数是固定不变的,比如这儿的参数N,经典方法的目的是要找出这个N。而按照贝叶斯派的观点,物理参数不一定是固定的,对外部观察者而言,它们也可以被认为是随机变量。因此,贝叶斯推断企图追踪的不是模型参数N本身,而是参数N取各种可能值的分布情况。贝叶斯派解决坦克问题的思想是:未知欲求的生产量N是一个服从某种概率分布的随机变量。随着数据样本的增加,N的概率分布函数不断被更新,贝叶斯推断描述这个更新的过程。
以刚才截获5辆坦克的具体数据,来说明贝叶斯派的推断过程。
假设盟军截获的第一辆坦克序列号是215,从前面频率派方法最开始的一段分析可知,对应这1个样本,N可能是从215开始的任何整数,但是,N值越大,概率越小,我们暂时忽略N值大于1000的情况,可以画出N的概率分布是类似于图3的双曲线,不同的是曲线的起始点和形状,图3中的曲线参数N0=60,这儿的参数N0=215,见图5a中最大值在N0=215处的“序列号215分布”曲线(蓝色)。
图5:贝叶斯推断解决德国坦克问题
现在,我们加上第二辆坦克的信息:序列号90。因为90小于215,它的出现并不改变似然函数的最大值,但是它却对N的分布曲线有所影响,两个变量的联合分布曲线用图5a中的红线表示,这也是加上第二个数据之后更新了的参数分布。如图可见,序列号90的数据使得概率分布曲线变得更尖锐,说明N的较大数值出现的概率大大降低。
如果再加上后面3个样本:序列号256、248、60,五个样本的联合分布变得更为尖锐,峰值是256,N=400到1000的概率已经几乎为0,可以忽略不计了,如图5b所示。
在这个具体例子中,最后对N0的估计:频率派的N0 = 306,与贝叶斯派的N0 = 256相差不大,难分孰优孰劣。然而,通过该问题,我们简单了解了频率派和贝叶斯派的不同思考方法。
不少学者认为贝叶斯分析的方式和人脑的工作机制有相似之处,这也是为什么近年来将贝叶斯统计方法广泛应用于人工智能研究,特别是机器学习领域的原因之一。当今人工智能技术的崛起,部分归功于计算和统计的联姻,实际上也就是说,归功于计算机和贝叶斯方法的联姻。
参考文献:
【1】Aldous, D. J. (1985). "Exchangeability and related topics". Lecture Notes in Mathematics. 1117. pp. 1–1. 1983.
【2】Ruggles, R.; Brodie, H. (1947). "An Empirical Approach to Economic Intelligence in World War II".[J], Journal of the American Statistical Association. 42 (237): 72.
【3】Edwin Thompson Jaynes. Probability Theory: The Logic of Science.[M], Cambridge University Press, (2003).
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 15:56
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社