andydong的个人博客分享 http://blog.sciencenet.cn/u/andydong

博文

考研是“阴盛阳衰”吗?试试成功上岸统计学

已有 837 次阅读 2021-8-31 12:02 |系统分类:科研笔记

又是一年研究生开学季。和同事闲聊,都说现在女生会考试,普遍比男生成绩高。

 

有“较真”者,偏要用数字来证明:据说我们学院两个学科“生物医学工程”和“食品科学与工程”共招收了445人,算一算男生和女生哪个考分高(比如总分超过300分的人数)。

 

计算这个比例得知,男生是202/246=82%,女生是162/199=81%。

 

看吧,还是男生学习好一点点,还是“阳盛阴衰”啊。

 

不过更“较真”者,说本科里都是女生“学霸”多,敢报学硕的也多,看看学硕和专硕各自的比例吧:

 

对于两个专业的学硕,男生是65/88=74%,女生是71/94=76%

对于两个专业的专硕,男生是137/158=87%,女生是91/105=87%

 

咦,这么看,好像是女生成绩更好些(起码不比男生差)。

 

也就是说,分学硕和专硕时,女生成绩高、男生成绩低;学硕和专硕加起来,却是男生成绩高、女生成绩低。

 

问题出在哪呢?

 

估计懂行的人都看出来了,这是著名的“辛普森悖论”现实版之一,由英国统计学家辛普森于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。

 

我们用数学上的条件概率来转换上面的结果:

 


性别X

学硕和专硕Y

成绩300分Z

0

只看专硕

低于

1

只看学硕

高于

 

那么,不区分的总体来看:

  

男生成绩 P(Z=1〡X=1) = 0.82   记为式A

女生成绩 P(Z=1〡X=0) = 0.81   记为式B

 

只看学硕:

 

男生成绩 P(Z=1〡X=1, Y=1) = 0.74   记为式①

女生成绩 P(Z=1〡X=0, Y=1) = 0.76   记为式②


只看专硕:

 

男生成绩 P(Z=1〡X=1, Y=0) = 0.87   记为式③

女生成绩 P(Z=1〡X=0, Y=0) = 0.87   记为式④

 

为了简化表达,我们把X, Y, Z = 0的情况分别记为X', Y'和X',而X, Y, Z = 1的保持不变。

 

那么以上6个值依次改写为:

 

P(Z〡X) = 0.82      式A

P(Z〡X') = 0.81      式B

P(Z〡X, Y) = 0.74    式①

P(Z〡X', Y) = 0.76    式②

P(Z〡X, Y') = 0.87    式③

P(Z〡X', Y') = 0.87    式④

 

根据概率知识,其中男生总体可分解如下:

 

P(Z〡X) = P(Z〡X, Y) · P(Y〡X) + P(Z〡X, Y') · P(Y'〡X)

 

即:

 

A = ① · P(Y〡X) + ③ · P(Y'〡X)

 

此式中P(Y〡X)和P(Y'〡X)没有在上面出现过,分别表示男生里学硕的概率和专硕的概率,当然可知P(Y〡X) + P(Y'〡X) = 1。

 

为了再简化,令Q = P(Y〡X),上式变为:

 

A = ① · Q + ③ · (1 - Q)

 

类似的女生情况:

 

B = ② · P(Y〡X') + ④ · P(Y'〡X')

 

此式里,P(Y〡X')和P(Y'〡X') 分别表示女生里学硕的概率和专硕的概率,同样P(Y〡X') + P(Y'〡X') = 1,也令Q’ = P(Y〡X'),上式变为:

 

B = ② · Q’ + ④ · (1 – Q’)

 

画成坐标系的结果如下:


 

因此看成分类的话,男生<女生。为什么总体上会男生>女生呢?

 

我们可以这样认为:男生成绩A在实线①→③上移动,而女生成绩B在点画线②→④上移动。

 

而且,如正好在“*”处,那么总体上成绩男生A<女生B,与分类时一致;相反地,A > B,与分类时不一致。

 

很显然,“*”在何处取决于Q和Q’的取值。Q影响男生A,Q’影响女生B。

 

比如真的是女生学硕多,那么Q’大,B线上的“*”就接近④,如果这时正好是男生学硕少,Q小,A线上的“*”更接近①,正好低于B线上的(如上图显示),那么就是总体上男生就低于女生的,与分类时一致;反之,就不时一致。

 

换一种不太抽象的解释,原点O分别和A、B的连线分别组成O-①-③和O-②-④两个三角形向量,示意图如下:

 

 

   因此,不光要看①-②、③-④的比较,还要看连成变量后总的A、B的情况。

 

   我们还可以换一种角度,根据下图,本来我们要考察性别X对成绩Z的影响,但现在增加了学硕/专硕Y的影响:

 

 

如果女生真的成绩高,加了区分学硕和专硕这个混扰变量,如果还是保持一致的趋势,一定要满足的条件是:女生报学硕的多,同时男生报学硕的少;否则,就可能发生不一致的情况。

 

例如上图这样的影响模式,看总体X→Z比加上了“干扰项Y”变成X→Y→Z更合适些。

 

看来,统计真的会说谎,这个辛普森悖论还有更多的演化版。从当前的实例看,男女生的成绩是差别不大的,基本上是“阴阳和谐”呗,要想成功上岸,还是要靠多努力、多积累。

 

有言道:If you don’t trust people, you can trust data.

 

我加一句:If you don’t trust data, you can trust yourself.

 

(以上参考过各知名视频网站、百科网页、教材专著等,一并致谢。转发请联系我qdong@usst.edu.cn)




https://blog.sciencenet.cn/blog-106203-1302195.html

上一篇:年终随笔

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-1-25 13:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部