博文

Zmn-0936黄汝广: 有关辛普森悖论

已有 814 次阅读 2023-2-9 22:10 |个人分类:数学啄木鸟|系统分类:论文交流

Zmn-0936黄汝广: 有关辛普森悖论

【编者按。下面是黄汝广先生的文章。现在发布如下，供网友们共享。请大家关注并积极评论。另外本《专栏》重申，这里纯属学术讨论，所有发布的各种意见仅代表作者本人，不代表本《专栏》编辑部的意见。《专栏》中有些文章发扬了啄木鸟精神，对一些错误的观点和言论进行了说理的批评。但请大家注意，也有些有严重错误的文章在这里发布，就是为了引起和得到广大网友们的评论。不要以为在这里发布的文章都是正确无误的。】

有关辛普森悖论

黄汝广

笔者认为，几乎一切所谓的悖论都是佯谬，其根源在于：要么有意或无意中偷换了概念，要么概念或方法的使用超出了其适用范围，甚至于直接违反了基本定律或常识。现以统计学上有名的辛普森悖论为例进行分析。

根据《统计因果推理入门》一书，辛普森悖论的经典例子如下：

患者	服药			不服药
患者	总数	痊愈数	痊愈率	总数	痊愈数	痊愈率
男性	87	81	93%	270	234	87%
女性	263	192	73#	80	55	69%
合计	350	273	78%	350	289	83%

该表显示：男性患者中，服药患者痊愈率（93%）比未服药患者痊愈率（87%）高。这一结果同样出现在女性患者中（分别为73%、69%）。然而，对于全体受试者而言，未服药患者痊愈率（83%）比服药患者痊愈率（78%）高。显然，这个结论是荒谬的。

《统计因果推理入门》的作者认为，这个问题无法简单地从统计学中找到答案。为了考察患者的作用，首先要了解数据背后的原因，即产生结果的因果机制。

我们知道，统计分析的样本必须要具有代表性，而当样本分为试验组与对照组进行比较时，两组子样本的代表性应当与总样本保持一致，最好的办法是随机分组。从表中数据看：在全部700例患者的总样本中，男女比例357:343≈1.04:1；在试验组（服药）中，男女比例87:263≈0.31:1；在对照组（不服药）中，男女比例270:80≈3.38:1。很显然，试验组与对照组的男女比例差别巨大，并且都远远偏离总样本。这样的分组不可能是随机分组的结果，如果性别因素有实质性的影响，那么将导致两组样本的代表性偏离总样本，从而没有可比性；而没有可比性的东西，硬要放一起进行比较，某种意义上讲也是偷换概念！

实际上，保持痊愈率93%、87%、73%、69%不变，只要调整试验组与对照组的男女比例与总样本保持一致或比较接近，悖论就可以消除。因此，所谓的辛普森悖论，不过是其试验分组设计故意违相关基本原则的结果！

返转到

zmn-000文清慧：发扬啄木鸟精神-《数学啄木鸟专栏》开场白及目录