||
Zmn-0936黄汝广: 有关辛普森悖论
【编者按。下面是黄汝广先生的文章。现在发布如下,供网友们共享。请大家关注并积极评论。另外本《专栏》重申,这里纯属学术讨论,所有发布的各种意见仅代表作者本人,不代表本《专栏》编辑部的意见。《专栏》中有些文章发扬了啄木鸟精神,对一些错误的观点和言论进行了说理的批评。但请大家注意,也有些有严重错误的文章在这里发布,就是为了引起和得到广大网友们的评论。不要以为在这里发布的文章都是正确无误的。】
有关辛普森悖论
黄汝广
笔者认为,几乎一切所谓的悖论都是佯谬,其根源在于:要么有意或无意中偷换了概念,要么概念或方法的使用超出了其适用范围,甚至于直接违反了基本定律或常识。现以统计学上有名的辛普森悖论为例进行分析。
根据《统计因果推理入门》一书,辛普森悖论的经典例子如下:
患者 | 服药 | 不服药 | ||||
总数 | 痊愈数 | 痊愈率 | 总数 | 痊愈数 | 痊愈率 | |
男性 | 87 | 81 | 93% | 270 | 234 | 87% |
女性 | 263 | 192 | 73# | 80 | 55 | 69% |
合计 | 350 | 273 | 78% | 350 | 289 | 83% |
该表显示:男性患者中,服药患者痊愈率(93%)比未服药患者痊愈率(87%)高。这一结果同样出现在女性患者中(分别为73%、69%)。然而,对于全体受试者而言,未服药患者痊愈率(83%)比服药患者痊愈率(78%)高。显然,这个结论是荒谬的。
《统计因果推理入门》的作者认为,这个问题无法简单地从统计学中找到答案。为了考察患者的作用,首先要了解数据背后的原因,即产生结果的因果机制。
我们知道,统计分析的样本必须要具有代表性,而当样本分为试验组与对照组进行比较时,两组子样本的代表性应当与总样本保持一致,最好的办法是随机分组。从表中数据看:在全部700例患者的总样本中,男女比例357:343≈1.04:1;在试验组(服药)中,男女比例87:263≈0.31:1;在对照组(不服药)中,男女比例270:80≈3.38:1。很显然,试验组与对照组的男女比例差别巨大,并且都远远偏离总样本。这样的分组不可能是随机分组的结果,如果性别因素有实质性的影响,那么将导致两组样本的代表性偏离总样本,从而没有可比性;而没有可比性的东西,硬要放一起进行比较,某种意义上讲也是偷换概念!
实际上,保持痊愈率93%、87%、73%、69%不变,只要调整试验组与对照组的男女比例与总样本保持一致或比较接近,悖论就可以消除。因此,所谓的辛普森悖论,不过是其试验分组设计故意违相关基本原则的结果!
返转到
zmn-000文清慧:发扬啄木鸟精神-《数学啄木鸟专栏》开场白及目录
Zmn-0915 李鸿仪: 哪天薛先生水平提高到能看懂我的文章了,再来讨论吧-----评薛问天的《zmn0914》 Zmn-0918 薛问天: 质疑戴德金分割的错在哪里?评李鸿仪先生的《0917》
科学网《数学啄木鸟专栏》Zmn-000 到 Zmn-0900 期目录:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-4-24 20:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社