||
如果我们有了一个女儿,再生一个的话,生男孩的概率有多少?
你肯定会说,很无聊的问题,因为生男生女的概率是根据男性的性染色体(XY)决定的,如果与女性(XX)结合后,是XX就是女孩,是YX就是男孩,所以我们的二胎生男或生女的概率应该相同,也就是各占50%。
事实果真如此吗?
说一个1959年被一个美国人提出来的生男生女著名悖论:假设我们有了两个孩子,总共有四种组合(男孩B,女孩G):
BB,GG,BG,GB
假设我们知道了有一个是女孩,所以第一种情况BB可以淘汰,剩下的三种概率相同,所以另一个是男孩的概率应该是1/3+1/3=2/3,即66.7%,而不是上面说的50%。
意思就是说,如果我们生了一个女儿,第二个是男孩的概率将高达66.7%。
到底哪一个是正确的呢?看似简单,其实有很多逻辑性问题。
事实上,上一个悖论用传统的概率论(即用频率代表概率)是很难算出来的,如果用贝叶斯的思路,就非常简单。
今年是贝叶斯提出250年,国际贝叶斯学会有专门的庆祝活动,因为频率论和贝叶斯论争执了足足一百年,还没有休止。
下面说说贝叶斯是怎么解决这一问题的:
因为GG, BB, GB, BG的概率都是1/4=0.25,我们记为:
P(GG)=P(BB)=P(GB)=P(BG)=0.25
另外,其中一个是男孩的概率和一个是女孩的概率,也就是说两个孩子肯定不同性别,这时概率是0.50,记为:
P(G.B)=P(GB)+P(BG) = 0.50
(以上这些在贝叶斯理论里被称为先验概率,就是说根据专家意见或者积累经验形成的认识,这一点是被频率论极为指责的,看不懂,可以忽略这些)
现在的难题是,至少一个是男孩的概率是多少?(基于我们想要个男孩的愿望)
我们把一个已知是男孩,另一个也是男孩的概率记为:
P(BB|B)——意为在B的条件下,BB的概率。
根据贝叶斯经典公式(推论过程你不需懂了,这个有N多专著在证明下式是成立的):
P(BB|B) = P(B|BB) · P(BB) / P(B) = 1 · 1/4 / (3/4) = 1/3
上式中, P(B|BB)表示在两个都是男孩(BB)的条件下,其中一个是男孩(B)的概率(这是显而易见是肯定存在的,所以此值等于1);而P(BB)是两个都是男孩,如前面定义的等于1/4;比较特殊的至少一个是男孩的概率P(B)为什么等于3/4?
因为至少一个是男孩的概率P(B)应该等于两个都是男孩的概率P(BB)加上两个孩子不同性别的概率P(G.B),所以:
P(B)= P(BB)+P(G.B)=1/4 + 1/2 = 3/4
现在我们可以放心的说,如果一个已知是男孩,另一个也是男孩的概率是比较低的,只有1/3,即只有33%;换言之,我们有了一个女儿,再生一个还是女儿的概率只有33%,所以再生一个男孩的概率会非常高。
这么说你肯定高兴了,生二胎,生儿子!
先别高兴太早,我们接着分析,我们的结果还是和常识不一致啊,生男生女就应该是各有50%才对啊?
我们仔细来说这个问题,有两种表述:
(1)董先生和吴小姐的第一个孩子是女孩,生第二个孩子,也是女孩的概率是多少?
(2)董先生和吴小姐可以生两个孩子,至少一个是女孩,两个都是女孩的概率是多少?
你仔细想想上面两个表述一样吗?
这是1959年美国人的原始问题改述。
其实前面的分析是偷换概念了,我们明明分析的是第二个问题,而不是第一个问题!
第一个问题的答案还是1/2,而第二个问题的答案按照分析是1/3.
看来我们二胎生男孩的概率又回到了1/2,失望了吧!
别急,我们接着分析。
第二个问题的结果肯定是1/3吗?
不一定。
首先,我们认识问题是非常模糊的,你说“至少一个是女孩”你有什么依据?基于确切的文字和可能的假设,其实都是模糊的,模糊性已被2004年Nickerson的专著,中文译为“认知和机会:概率推理的心理学”一书所证明,还有最近更多文献在讨论这个模糊性。在此不论。
再次,第二个问题什么时候和第一个问题是等价的呢?只要我们在第二个问题定义时,说“至少一个是女孩”,我们就指定第一个必须是女孩。此时,两个问题其实是同一个问题。第二个问题的答案应该还是1/2,而不是1/3.
最后,还有一个随机取样的问题,这又是概率论上另一个大的领域,到底有没有真随机?很多大科学家是倾向于没有真随机(比如牛顿,逝世前用了10多年要证明上帝是存在的,没有证明完就去世了,很可惜),他们认为只有伪随机的(我们做风险评估的,都是用的伪随机,比如蒙特卡罗取样,我是坚决认为世界上存在真随机的,毕竟我从事的是实证科学,要否定上帝的存在),他们认为世界是由上帝置骰子决定的,这是科学和哲学(或者更高的神学、玄学之争),在此不展开,我们用两种表述随机性来说明第二个问题:
(1)在所有有两个孩子的家庭中,每个家庭中至少一个是女孩,家庭的选择是随机的,那么第二个问题的答案就是1/3.
(2)在所有有两个孩子的家庭中,孩子的选择是随机的,其中一个孩子的性别是指定的(女孩),那么第二个问题的答案就是1/2.
你仔细想下,上面两个表述是不同的。
但是也有很多学者认为上面两种定义随机性的表述也是模糊的(证明没有找到),他们的理由我来通俗的翻译:
你到有两个孩子的家庭里,看见一个是女孩,另一个躲起来了,你不知道男女。这个时候,这种情况其实就是第二个问题说的“至少一个是女孩”。但是不一定符合第一个问题,因为你看不到第二个孩子,如果你看到第二个孩子是男孩,就不匹配第一个问题了。
所以说,你看到第一个是女孩,其实是命题的充分条件,而非必要条件。
(补充下数学知识,如果A成立,导致B成立,A叫做B的充分条件,B叫做A的必要条件;如果A成立导致B成立,同时B成立也导致A成立,A叫做B的充分必要条件)
争议的来源其实主要来源于我们表达的“至少”,人类语言受限,什么叫“至少”?你到别人家里看见一个女孩,确定她是个女孩,这叫“至少”一个女孩吗?如果从取样的角度说:是以下哪种情况:是从一个群体中,发现一个女孩,而后把她“取”走,再替换一个新人,这叫“至少”;还是从群体中发现一个女孩,不“取走”她,继续再在这个整体中寻找发现(有可能还发现是同一个女孩),这叫“至少”。
以上两种情况,以我做风险评估的理解,所谓取样应该是第一个解释是对的。
下面我们再用贝叶斯理论来解释刚才这个说明,你就会知道贝叶斯是多么伟大了,为什么被SCIENCE期刊称为“永不会灭亡的理论”。
按照前一封邮件的贝叶斯方法,我们把表述“这个孩子是男孩”记为b,那么仍然根据贝叶斯经典公式,下式是必然成立的:
P(BB|b) = P(b|BB) · P(BB) / P(b) = 1 · 1/4 / 1/2 = 1/2.
意义同前。唯一不同的是P(b)是何意?我们把它看做是从所有可能的情形中取样,发现是男孩的概率(注意这里没有说“至少”),此时肯定的是P(b) = 1/2
贝叶斯巧妙的绕过了人类语言中“至少”这一模糊性,利用先验概率(还记得前面提到的这个概念吗?),我们来个预先可以肯定的共识(或者是公理吧),即两个孩子都是男孩、都是女孩、或者一男一女的概率各为1/3,用数学式表达就是:
P(GG) = P(BB) = P(G.B) = 1/3.
那么在这种情况下,“至少”这一假设产生的结果就是P(BB|B) = 1/2 (差不多可以对应上面说的第二个问题的第二种表述“孩子的选择是随机的”)
同时,在这一情况下,取样假设后的结果是P(BB|b)=2/3.
我们把刚才的问题扩展一下,假设你来投资下赌注。
你投资1块钱,假设别人家生了两个孩子,如果两个都是男孩,你就会赢4块钱来。
下面两种情况,哪一种你会更开心:
(1)知道其中一个是男孩。
(2)知道其中至少是一个男孩(呵呵,又是“至少”)。
毋庸置疑,按照常识,第二种的概率更低。其实上面两种情况正好对应着前面的两个问题,结果当然是不同的。
下面换为数字,如果我们赌其中一个孩子是男孩,并且赢了,投资就会翻倍(即赢2块钱来);再赌第二个孩子是男孩,如果能赢,投资再翻倍,就会赢4块钱了,所以赢的概率,应该叫赔率1:2.
第二种情况,如果我们知道其中至少是一个男孩,我们的投资会追加,因为我们有一定把握了,我们目前的1块钱,实际“身价”已经是4/3块钱了,要真正赢回4块钱,我们必须增加财富的3倍(即4/3乘以多少等于4块钱?),所以,赔率是1:3.
以上分析,不是我原创的,它叫Martingale分析法。
来继续挑战下思维吧。
我们把问题再变化下:
假设我们有了两个孩子,有一天我带女儿路上遇见我大学同学,这时我自豪的对他说,这是我的女儿,问题:我的另一个孩子也是女孩的概率是多少?
这个问题的答案当然和前面是一样的,概率是1/2.
但是,这和前面的问题是不同的,在我带女儿路上遇见大学同学前,同学是知道我有两个孩子的,但并不知道是两个男孩(BB)、两个女孩(GG),还是一男一女(BG或GB)。所以我大学同学知道我有两个女儿的概率是1/4,这时经我介绍我的女儿后,他知道我有一个女儿了,会把两个男孩(BB)的可能给直接排除掉了,我只可能在剩余的三种情况里选择:两个女孩(GG),或者老大男孩、老二是女孩(BG),或者老大女孩、老二是男孩(GB)。那么,我有两个女孩的概率只能是上述三种情况的一种,即1/3.
为什么又出现了上面说到的两个答案不一样?
首先我们要做个假设,我们有两个孩子,带谁出门是随机的。那么如果我带出来的孩子是女儿,此时我有两个女孩(GG)的概率应该是一男一女(GB或BG)的两倍,此时因为我已经带出来是女孩了,我有两个男孩的概率降为0,可以排除这种情况。我带出来女儿,另一个是男孩,或者另一个是女孩,这两种可能性相等,各占1/2.
再次,我们来做个假设,我当爸爸的就愿带女儿出门(女儿是爸爸上辈子情人吗,呵呵),因此带女儿出门的概率提高,在这种情况下,我不管是有两个女孩(GG),还是一男一女(BG或GB),都会倾向于带女儿出门遇见大学同学,这时我另一个孩子是女儿的概率也是1/3.
看吧,上面两种情况是不是正好对应前面说的两个问题?
当然以上的问题也不是我首先想到的,是两个人Bar-Hillel和Falk在1982年提出来的。
再来看另外一个经典问题,是Vos Savant在1996年首先想到的:
有一个女人和一个男人(两人不认识,生活也没有交叉),他们各有两个孩子,我们已知女人至少有一个是男孩,而男人家老大是个男孩。问题是:女人家有两个男孩,和男人家有两个男孩的的概率相等吗?
如果你理解了上面的各种情况,你会立刻知道答案应该是女人家1/3,男人家1/2.
为了验证,Vos Savant居然真的调研了 17946个有两个孩子的女人,发现至少有一个是男孩,另一个也是男孩的比例是35.9%,非常惊人的接近1/3!(其实按照数学极限理论,这和抛硬币是一样的道理,样品越多,越接近总体,即越接近理论极限值)。
但是,我们必须明白,我们以上的计算都是基于男女性别是独立的,即男女出现的概率相同(和贝叶斯的先验一样),但是实际上,按照中国传统,男孩比女孩更受欢迎,导致男女性并不独立,或者说二胎的性别并不独立于一胎的性别。如果调研来验证,会出现极大的偏差。
根据前面的分析,我们发现数学都是“冷冰冰”的,一点都不温情。似乎是没有正确答案。
这个生男生女的悖论问题还引起很多心理学专业的思考,比如Fox和Levav在2004年用两种表述来测试看人们怎么“估计”概率:
(1)我有两个孩子,其中至少一个是女孩。另一个也是女孩的概率是多少?
(2)我有两个孩子,但是不会是两个都是男孩。我两个孩子都是女孩的概率是多少?
那么,这两种表述其实是给人有心理暗示的,第一个表述似乎是暗示读者只有两种可能结果(要么男孩、要么女孩),因为我问的是“另一个”,只能二选一,这是一种误导;第二种给人的印象是一下子就跳到了四种可能性,一种已经排除了(都是男孩),剩下有三种,所以只能三选一。
Fox和Levav实际调研后发现85%的读者会认为第一个问题答案是1/2,而仅有39%的读者会认为第二个问题答案也是1/2. 所以心理学解释是这属于先入为主的诱导式问题,让你自然向目标答案靠近。
以上我主要根据英文维基、概率论教材等材料写成,以及自己的一些思考认识,因为非数学、统计学专业,理解不对的地方请专业人士指正。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 07:24
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社