andydong的个人博客分享 http://blog.sciencenet.cn/u/andydong

博文

我的二胎会生儿子吗?

已有 5797 次阅读 2014-3-7 17:39 |系统分类:科研笔记| 统计, 贝叶斯, 悖论, 概率, 生男生女

如果我们有了一个女儿,再生一个的话,生男孩的概率有多少?

你肯定会说,很无聊的问题,因为生男生女的概率是根据男性的性染色体(XY)决定的,如果与女性(XX)结合后,是XX就是女孩,是YX就是男孩,所以我们的二胎生男或生女的概率应该相同,也就是各占50%

    事实果真如此吗?

说一个1959年被一个美国人提出来的生男生女著名悖论:假设我们有了两个孩子,总共有四种组合(男孩B,女孩G):

BBGGBGGB

    假设我们知道了有一个是女孩,所以第一种情况BB可以淘汰,剩下的三种概率相同,所以另一个是男孩的概率应该是1/3+1/3=2/3,即66.7%,而不是上面说的50%

    意思就是说,如果我们生了一个女儿,第二个是男孩的概率将高达66.7%

到底哪一个是正确的呢?看似简单,其实有很多逻辑性问题。

    事实上,上一个悖论用传统的概率论(即用频率代表概率)是很难算出来的,如果用贝叶斯的思路,就非常简单。

    今年是贝叶斯提出250年,国际贝叶斯学会有专门的庆祝活动,因为频率论和贝叶斯论争执了足足一百年,还没有休止。

    下面说说贝叶斯是怎么解决这一问题的:

    因为GG, BB, GB, BG的概率都是1/4=0.25,我们记为:

    PGG=PBB=PGB=PBG=0.25

    另外,其中一个是男孩的概率和一个是女孩的概率,也就是说两个孩子肯定不同性别,这时概率是0.50,记为:

    PG.B=P(GB)+P(BG) = 0.50

    (以上这些在贝叶斯理论里被称为先验概率,就是说根据专家意见或者积累经验形成的认识,这一点是被频率论极为指责的,看不懂,可以忽略这些)

    现在的难题是,至少一个是男孩的概率是多少?(基于我们想要个男孩的愿望)

    我们把一个已知是男孩,另一个也是男孩的概率记为:

    PBB|B——意为在B的条件下,BB的概率。

    根据贝叶斯经典公式(推论过程你不需懂了,这个有N多专著在证明下式是成立的):

    P(BB|B) = P(B|BB) · P(BB) / P(B) = 1 · 1/4 / (3/4) = 1/3

    上式中, P(B|BB)表示在两个都是男孩(BB)的条件下,其中一个是男孩(B)的概率(这是显而易见是肯定存在的,所以此值等于1);而PBB)是两个都是男孩,如前面定义的等于1/4;比较特殊的至少一个是男孩的概率PB)为什么等于3/4?

    因为至少一个是男孩的概率PB)应该等于两个都是男孩的概率PBB)加上两个孩子不同性别的概率PG.B),所以:

    PB= PBB+PG.B=1/4 + 1/2 = 3/4

    现在我们可以放心的说,如果一个已知是男孩,另一个也是男孩的概率是比较低的,只有1/3,即只有33%;换言之,我们有了一个女儿,再生一个还是女儿的概率只有33%,所以再生一个男孩的概率会非常高。

    这么说你肯定高兴了,生二胎,生儿子!

   先别高兴太早,我们接着分析,我们的结果还是和常识不一致啊,生男生女就应该是各有50%才对啊?

    我们仔细来说这个问题,有两种表述:

    1)董先生和吴小姐的第一个孩子是女孩,生第二个孩子,也是女孩的概率是多少?

    2)董先生和吴小姐可以生两个孩子,至少一个是女孩,两个都是女孩的概率是多少?

    你仔细想想上面两个表述一样吗?

    这是1959年美国人的原始问题改述。

    其实前面的分析是偷换概念了,我们明明分析的是第二个问题,而不是第一个问题!

第一个问题的答案还是1/2,而第二个问题的答案按照分析是1/3.

    看来我们二胎生男孩的概率又回到了1/2,失望了吧!

    别急,我们接着分析。

    第二个问题的结果肯定是1/3吗?

    不一定。

    首先,我们认识问题是非常模糊的,你说至少一个是女孩你有什么依据?基于确切的文字和可能的假设,其实都是模糊的,模糊性已被2004Nickerson的专著,中文译为认知和机会:概率推理的心理学一书所证明,还有最近更多文献在讨论这个模糊性。在此不论。

    再次,第二个问题什么时候和第一个问题是等价的呢?只要我们在第二个问题定义时,说至少一个是女孩,我们就指定第一个必须是女孩。此时,两个问题其实是同一个问题。第二个问题的答案应该还是1/2,而不是1/3.

    最后,还有一个随机取样的问题,这又是概率论上另一个大的领域,到底有没有真随机?很多大科学家是倾向于没有真随机(比如牛顿,逝世前用了10多年要证明上帝是存在的,没有证明完就去世了,很可惜),他们认为只有伪随机的(我们做风险评估的,都是用的伪随机,比如蒙特卡罗取样,我是坚决认为世界上存在真随机的,毕竟我从事的是实证科学,要否定上帝的存在),他们认为世界是由上帝置骰子决定的,这是科学和哲学(或者更高的神学、玄学之争),在此不展开,我们用两种表述随机性来说明第二个问题:

    1)在所有有两个孩子的家庭中,每个家庭中至少一个是女孩,家庭的选择是随机的,那么第二个问题的答案就是1/3.

    2)在所有有两个孩子的家庭中,孩子的选择是随机的,其中一个孩子的性别是指定的(女孩),那么第二个问题的答案就是1/2.

    你仔细想下,上面两个表述是不同的。

    但是也有很多学者认为上面两种定义随机性的表述也是模糊的(证明没有找到),他们的理由我来通俗的翻译:

    你到有两个孩子的家庭里,看见一个是女孩,另一个躲起来了,你不知道男女。这个时候,这种情况其实就是第二个问题说的至少一个是女孩。但是不一定符合第一个问题,因为你看不到第二个孩子,如果你看到第二个孩子是男孩,就不匹配第一个问题了。

    所以说,你看到第一个是女孩,其实是命题的充分条件,而非必要条件。

    (补充下数学知识,如果A成立,导致B成立,A叫做B的充分条件,B叫做A的必要条件;如果A成立导致B成立,同时B成立也导致A成立,A叫做B的充分必要条件)

    争议的来源其实主要来源于我们表达的至少,人类语言受限,什么叫至少?你到别人家里看见一个女孩,确定她是个女孩,这叫至少一个女孩吗?如果从取样的角度说:是以下哪种情况:是从一个群体中,发现一个女孩,而后把她走,再替换一个新人,这叫至少;还是从群体中发现一个女孩,不取走她,继续再在这个整体中寻找发现(有可能还发现是同一个女孩),这叫至少

    以上两种情况,以我做风险评估的理解,所谓取样应该是第一个解释是对的。

    下面我们再用贝叶斯理论来解释刚才这个说明,你就会知道贝叶斯是多么伟大了,为什么被SCIENCE期刊称为永不会灭亡的理论

    按照前一封邮件的贝叶斯方法,我们把表述这个孩子是男孩记为b,那么仍然根据贝叶斯经典公式,下式是必然成立的:

    P(BB|b) = P(b|BB) · P(BB) / P(b) = 1 · 1/4 / 1/2 = 1/2.

    意义同前。唯一不同的是P(b)是何意?我们把它看做是从所有可能的情形中取样,发现是男孩的概率(注意这里没有说至少),此时肯定的是P(b) = 1/2

    贝叶斯巧妙的绕过了人类语言中至少这一模糊性,利用先验概率(还记得前面提到的这个概念吗?),我们来个预先可以肯定的共识(或者是公理吧),即两个孩子都是男孩、都是女孩、或者一男一女的概率各为1/3,用数学式表达就是:

    P(GG) = P(BB) = P(G.B) = 1/3.

那么在这种情况下,至少这一假设产生的结果就是P(BB|B) = 1/2 (差不多可以对应上面说的第二个问题的第二种表述孩子的选择是随机的

    同时,在这一情况下,取样假设后的结果是P(BB|b)=2/3.

 

我们把刚才的问题扩展一下,假设你来投资下赌注。

    你投资1块钱,假设别人家生了两个孩子,如果两个都是男孩,你就会赢4块钱来。

    下面两种情况,哪一种你会更开心:

    1)知道其中一个是男孩。

    2)知道其中至少是一个男孩(呵呵,又是至少)。

    毋庸置疑,按照常识,第二种的概率更低。其实上面两种情况正好对应着前面的两个问题,结果当然是不同的。

    下面换为数字,如果我们赌其中一个孩子是男孩,并且赢了,投资就会翻倍(即赢2块钱来);再赌第二个孩子是男孩,如果能赢,投资再翻倍,就会赢4块钱了,所以赢的概率,应该叫赔率1:2.

    第二种情况,如果我们知道其中至少是一个男孩,我们的投资会追加,因为我们有一定把握了,我们目前的1块钱,实际身价已经是4/3块钱了,要真正赢回4块钱,我们必须增加财富的3倍(即4/3乘以多少等于4块钱?),所以,赔率是1:3.

    以上分析,不是我原创的,它叫Martingale分析法。

 

来继续挑战下思维吧。

    我们把问题再变化下:

    假设我们有了两个孩子,有一天我带女儿路上遇见我大学同学,这时我自豪的对他说,这是我的女儿,问题:我的另一个孩子也是女孩的概率是多少?

    这个问题的答案当然和前面是一样的,概率是1/2.

    但是,这和前面的问题是不同的,在我带女儿路上遇见大学同学前,同学是知道我有两个孩子的,但并不知道是两个男孩(BB)、两个女孩(GG),还是一男一女(BGGB)。所以我大学同学知道我有两个女儿的概率是1/4,这时经我介绍我的女儿后,他知道我有一个女儿了,会把两个男孩(BB)的可能给直接排除掉了,我只可能在剩余的三种情况里选择:两个女孩(GG),或者老大男孩、老二是女孩(BG),或者老大女孩、老二是男孩(GB)。那么,我有两个女孩的概率只能是上述三种情况的一种,即1/3.

    为什么又出现了上面说到的两个答案不一样?

    首先我们要做个假设,我们有两个孩子,带谁出门是随机的。那么如果我带出来的孩子是女儿,此时我有两个女孩(GG)的概率应该是一男一女(GBBG)的两倍,此时因为我已经带出来是女孩了,我有两个男孩的概率降为0,可以排除这种情况。我带出来女儿,另一个是男孩,或者另一个是女孩,这两种可能性相等,各占1/2.

    再次,我们来做个假设,我当爸爸的就愿带女儿出门(女儿是爸爸上辈子情人吗,呵呵),因此带女儿出门的概率提高,在这种情况下,我不管是有两个女孩(GG),还是一男一女(BGGB),都会倾向于带女儿出门遇见大学同学,这时我另一个孩子是女儿的概率也是1/3.

    看吧,上面两种情况是不是正好对应前面说的两个问题?

    当然以上的问题也不是我首先想到的,是两个人Bar-HillelFalk1982年提出来的。

 

再来看另外一个经典问题,是Vos Savant1996年首先想到的:

    有一个女人和一个男人(两人不认识,生活也没有交叉),他们各有两个孩子,我们已知女人至少有一个是男孩,而男人家老大是个男孩。问题是:女人家有两个男孩,和男人家有两个男孩的的概率相等吗?

    如果你理解了上面的各种情况,你会立刻知道答案应该是女人家1/3,男人家1/2.

为了验证,Vos Savant居然真的调研了 17946个有两个孩子的女人,发现至少有一个是男孩,另一个也是男孩的比例是35.9%,非常惊人的接近1/3!(其实按照数学极限理论,这和抛硬币是一样的道理,样品越多,越接近总体,即越接近理论极限值)。

但是,我们必须明白,我们以上的计算都是基于男女性别是独立的,即男女出现的概率相同(和贝叶斯的先验一样),但是实际上,按照中国传统,男孩比女孩更受欢迎,导致男女性并不独立,或者说二胎的性别并不独立于一胎的性别。如果调研来验证,会出现极大的偏差。

 

根据前面的分析,我们发现数学都是冷冰冰的,一点都不温情。似乎是没有正确答案。

    这个生男生女的悖论问题还引起很多心理学专业的思考,比如FoxLevav2004年用两种表述来测试看人们怎么估计概率:

    1)我有两个孩子,其中至少一个是女孩。另一个也是女孩的概率是多少?

    2)我有两个孩子,但是不会是两个都是男孩。我两个孩子都是女孩的概率是多少?

    那么,这两种表述其实是给人有心理暗示的,第一个表述似乎是暗示读者只有两种可能结果(要么男孩、要么女孩),因为我问的是另一个,只能二选一,这是一种误导;第二种给人的印象是一下子就跳到了四种可能性,一种已经排除了(都是男孩),剩下有三种,所以只能三选一。

    FoxLevav实际调研后发现85%的读者会认为第一个问题答案是1/2,而仅有39%的读者会认为第二个问题答案也是1/2. 所以心理学解释是这属于先入为主的诱导式问题,让你自然向目标答案靠近。

   

   以上我主要根据英文维基、概率论教材等材料写成,以及自己的一些思考认识,因为非数学、统计学专业,理解不对的地方请专业人士指正。



https://blog.sciencenet.cn/blog-106203-773933.html

上一篇:关于语言的思考
下一篇:慢腾腾的英国人
收藏 IP: 149.155.195.*| 热度|

4 刘全慧 王春艳 董明 zzjtcm

该博文允许注册用户评论 请点击登录 评论 (15 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 22:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部