|
概率论起源于中世纪的欧洲,那时盛行掷骰子赌博, 提出了许多有趣的概率问题。当时法国的帕斯卡、费马和旅居巴黎的荷兰数学家惠更斯都对此类问题感兴趣,他们用组合数学研究了许多与掷骰子有关的概率计算问题。20世纪30年代柯尔莫哥洛夫提出概率公理化,随后概率论迅速发展成为数学领域里一个独立分支。
随机现象背后是隐藏某些规律的,概率论的一项基本任务就是揭示这些规律。现在概率论已经发展成为数学领域里一个相对充满活力的学科,并且在工程、国防、生物、经济和金融等领域得到了广泛的应用。
统计学是一门具有方法论性质的应用性科学,它在概率论基础上,发展出一系列的原理和方法,研究如何采集和整理反映事物总体信息的数字资料,并依据这些复杂的数据(称为样本)对总体的特征和现象背后隐藏的规律进行分析和推断。
法国数学家拉普拉斯有句名言:“生活中最重要的问题,绝大部分其实只是概率问题”。当代国际著名的统计学家C.R.劳说过:“如果世界中的事件完全不可预测的随机发生,则我们的生活是无法忍受的。而与此相反,如果每一件事都是确定的、完全可以预测的,则我们的生活将是无趣的。”
我长期从事概率论和随机分析研究,对概率论和数理统计学科的本质有些领悟,曾写过下面这首“悟道诗”:随机非随意, 概率破玄机;无序隐有序, 统计解迷离。本文试图通过若干日常生活中的一些例子来向大家展示概率是如何破玄机和统计是如何解迷离的。
在社会和自然界中,我们经常遇到一些事件,因为有很多不确定的偶然因素很难判断它会发生或不发生,这样的事件就是所谓的随机事件或偶然事件。概率则是对随机事件发生的可能性大小的一个度量。必然要发生的事件的概率规定为1,不可能发生的事件的概率规定为0,其他随机事件发生的概率介乎0与1之间。例如,抛一枚匀质的硬币,出现正面或反面的概率均为二分之一;掷一个匀质的骰子,每个面出现朝上的概率均为六分之一。在这两个例子中,每个简单事件(或“场景”)都是等可能发生的。一个复合事件(如掷骰子出现的点数是偶数)发生的概率就等于使得该复合事件发生的场景数目与可能场景总数之比。
什么是随意?随意就是带有主观意识的一种随机。比方说,我们知道掷一枚匀质硬币出现正面或反面的概率都是1/2。如果让某人臆想一个相继掷50次硬币的可能结果,并用1和0分别表示出现“正面”和“反面”,在一张纸上写下来,由于他考虑到接连多次出现正面或反面的可能性较小,在他写1和0时,可能有意识避免连写三个或四个以上的1或0,这样产生的0-1序列就是“随意的”,它看似随机,但与真实作一次掷50次硬币记录下的结果在统计特性上是有区别的。
2. 靠直觉作判断常常会出错
下面是一个靠直觉作判断容易出错的例子。某人新来邻居是一对海归夫妇,只知道这对夫妇有两个非双胞胎孩子。某天,看到爸爸领着一男孩出门了,问这对夫妇的另一孩子也是男孩的概率是多大?许多人可能给出的答案是1/2,因为生男生女的概率都是1/2。但实际上正确答案应该是1/3,因为在已知该家至少有一男孩的前提下,他家两个小孩可能的场景是三个(按孩子出生先后次序):“男男”“男女”“女男”。只有“男男”才符合“另一孩子也是男孩”这一场景。如果突然从这家传出婴儿的啼哭声,“另一孩子也是男孩”的概率就变成1/2了,因为这时可以断定出了门的那个男孩是老大,可能的场景就变成两个了(按出生先后次序):男男,男女。
从这两个简单初等概率问题可以悟出一个道理:靠直觉作判断常常会出错。计算一个随机事件发生的概率,重要的是要对此事件得以发生的所有可能场景有正确的判断。
3.“生日悖论”
N个人中至少有两人生日相同的概率是多少? 这是有名的“生日问题”。令人难以置信的是:随机选取的23人中至少两人生日相同的概率居然超过50%, 50人中至少两人生日相同的概率居然达到97%!例如,假定一个中学有二十个班,每个班平均有50个学生,你可以调查一下,大概会有十几个班都有至少两个相同的生日的学生。这和人们的直觉是抵触的。因此这一结果被称为“生日悖论”。
其实有关概率的计算很简单,首先计算50个人生日都不相同的概率。第一个人的生日有365个可能性,第二个人如果生日与第一个人不同,他的生日有364个可能性,依次类推,直到第50个人的生日有316个可能性,所以50人生日都不同的可能组合方式就是365乘364乘363一直乘到316,但由于每个人是生日是独立的,总的可能组合365的50次方,这样一来,50个人生日都不相同的概率就等于两个组合数之比,这个概率非常小,只有3%,至少两个人生日相同的概率等于1减去3%,得到97%,这样概率就计算出来了。
注意:如果预先选定一个生日,随机选取125人、250人、500人、1000人,出现某人生日正好是选定生日的概率分别大约只有 30%,50%,75%,94%,比想象的小得多。
4.“三枚银币”骗局
某人在街头设一赌局。他向观众出示了放在帽子里的三枚银币(记为甲、乙、丙),银币甲的两面涂了黑色,银币丙的两面涂了红色,银币乙一面涂了黑色,另一面涂了红色。游戏规则是:他让一个观众从帽子里任意取出一枚银币放到桌面上(这里不用“投掷银币”是为了避免暴露银币两面的颜色),然后由设局人猜银币另一面的颜色,如果猜中了,该参与者付给他1元钱,如果猜错了,他付给该参与者1元钱。试问:这一赌局是公平的吗?从直觉上看,无论取出的银币所展示的一面是黑色或红色,另一面是红色或黑色的概率都是1/2,这一赌局似乎是公平的。但实际上不公平,设局者只要每次“猜”背面和正面是同一颜色,他的胜算概率是2/3,因为从这三张牌随机选取一枚银币,其两面涂相同颜色的概率就是2/3。如果有许多人参与赌局,大概有1/3的人会赢钱,2/3的人会输钱。
5. 在猜奖游戏中改猜是否增大中奖概率?
这一问题出自美国的一个电视游戏节目,问题的名字来自该节目的主持人蒙提·霍尔,20世纪90年代曾在美国引起广泛和热烈的讨论。假定在台上有三扇关闭的门,其中一扇门后面有一辆汽车,另外两扇门后面各有一只山羊。主持人是知道哪扇门后面有汽车的。当竞猜者选定了一扇门但尚未开启它的时候,节目主持人去开启剩下两扇门中的一扇,露出的是山羊。主持人会问参赛者要不要改猜另一扇未开启的门。问题是:改猜另一扇未开启的门是否比不改猜赢得汽车的概率要大?正确的答案是:改猜能增大赢得汽车的概率,从原来的1/3增大为2/3。这是因为竞猜者选定的一扇门后面有汽车的概率是1/3,在未选定的两扇门后面有汽车的概率是2/3,主持人开启其中一扇门把这门后面有汽车给排除了,所以另一扇未开启的门后面有汽车的概率是2/3。
也许有人对此答案提出质疑,认为在剩下未开启的两扇门后有汽车的概率都是1/2,因此不需要改猜。为消除这一质疑,不妨假定有10扇门的情形,其中一扇门后面有一辆汽车,另外9扇门后面各有一只山羊。当竞猜者猜了一扇门但尚未开启时,主持人去开启剩下9扇门中的8扇,露出的全是山羊。显然:原先猜的那扇门后面有一辆汽车的概率只是1/10,这时改猜另一扇未开启的门赢得汽车的概率是9/10。
6. 如何设计对敏感性问题的社会调查?
设想要对研究生论文抄袭现象进行社会调查。如果直接就此问题进行问卷调查,就是说要你直说你是否抄袭,即使这样的调查是无记名的,也会使被调查者感到尴尬。设计如下方案可使被调查者愿意作出真实的回答:在一个箱子里放进1个红球和1个白球。被调查者在摸到球后记住颜色并立刻将球放回,然后根据球的颜色是红和白分别回答如下问题:你的生日是否在7月1日以前?你作论文时是否有过抄袭行为?回答时只要在一张预备好的白纸上打√或打×,分别表示是或否。假定被调查者有150人,统计出有60个√。问题:有抄袭行为的比率大概是多少?已知:P(红)=0.5,P(√|红)=0.5,P(√)=0.4, 求条件概率 P(√|白),用贝叶斯公式算出的答案是30%。
这一例子是对“无序隐有序,统计解迷离”的一个很好解读。
7. 如何理解社会和大自然中出现的奇迹?
对单个彩民和单次抽奖来说,中乐透头奖的概率大概是2250万分之一。到2008年,在“纽约乐透”史上发生过3次有一人中过两次头奖的事件。在河北省著名旅游景点野三坡的蚂蚁岭左侧,断崖边缘有一块直径十米、高四米的“风动石”,此石着地面积不足覆盖面积的1/20,尤其基部接触处只有两个支点。这也算是一个奇迹。
从概率论观点看,上述两个奇迹的发生并不奇怪,因为即使是极小概率事件,如果重复很多次,会有很大概率发生。假设一事件发生概率为p, 重复n次还不发生的概率为