|
天嫉英才?因为没有人在乎普通人活多久。
读书无用?因为没有人在乎学历低且没成功的人。
这就是幸存者偏差(survivorship bias),也被称为“沉默的数据”、“死人不会说话”等等,日常生活中随处可见。
关于幸存者偏差的段子
有一个广泛传播于投资界、经济学界和鸡汤界的段子[1],全文如下:
二次世界大战时,美英联军对德国展开了战略大轰炸。由于德国防空力量强大,美英空军损失惨重,国防部找来飞机专家,要求研究战斗机受损情况,对飞机进行改进。专家们检查了执行任务归来的飞机,发现所有飞机的机腹都伤痕累累,于是专家们建议,机腹非常容易受到防空炮火攻击,应该加强机腹的防护。最后国防部的改进要求却是,改进和加强对机翼的防护。因为国防部的一个统计学家发现,能够幸运返航的飞机,机翼都完好无损,这说明,被击中机翼的飞机都坠落了,而仅仅被击中机腹的飞机都返航了,应该加强防护的是机翼,而不是机腹。统计学里将这类因结果导致错误认知的情况,称为“幸存者偏差”。
注:图片来源于网络
段子终究是段子,缺乏正确的学术态度。段子里有错误:对飞机而言,座舱和发动机远比机翼重要。总有人喜欢用幸存者偏差鼓励你:你高估了成功的概率,只是因为你只看到了成功者,而过滤了失败者。你只关心鸡汤浓不浓,而不关心例子里是否有错误。因此,知乎答主周祚调侃:经济学在最近几年越来越有向鸡汤学发展的趋势。哈哈哈哈哈哈哈哈!
段子里的那个统计学家是谁?
亚伯拉罕·瓦尔德(Abraham Wald,1902-1950),供职于美国哥伦比亚大学,从事统计推断方面的理论研究工作。
他是怎么解决幸存者偏差的?
他在1943年写了一篇论文:A Method of Estimating Plane Vulnerability Based on Damage of Survivors,该文章未曾正式发表,直到1980年,美国 Centre for Naval Analyses 整理并出版瓦尔德的国防研究备忘录时,这篇论文得以正式发表[2]。对了,这项研究虽然完成于二战期间,但对后来的朝鲜战争与越南战争起到了指导作用。
论文总共89页,先来看一下第一页,
嗯,跟文科论文的写法不一样,开篇没有介绍故事背景,没有介绍研究意义,直接定义参数、推导引理。然后,作者假定有400架飞机参战,380架安全返回,其中320架未曾中弹,32架中弹1次,20架中弹2次,4架中弹3次,2架中弹4次,2架中弹5次。经过55页的推导,作者得出:中弹1-5次(分别是Q1-Q5)后飞机幸存的概率如下:
紧接着,又假定400 架飞机参战,返回 359 架,其中,240 架未曾中弹, 68 架中弹 1次,29 架中弹 2次, 12 架中弹3次, 10 架中弹 4次;且已知飞机各部位面积和各部位中弹次数如下,
注意,假定的数据中,我们对于被击落的飞机一无所知。在上面三组数据的基础上,作者竟然推导出(具体怎么推导的,看不懂):安全返回的飞机中引擎中弹次数最少,但一旦中弹后幸存概率最低,具体结果如下,
佩服佩服!!!
对于不具备统计学知识的人而言,在安全返回的飞机中,机身中弹最多,那么,加强防护的就应该是机身。如果得到这样的结论,那么我们就掉入幸存者偏差的圈套了,因为我们只看到了幸存者。瓦尔德用统计学方法揭示了幸存者偏差的真相:样本呈现的结果与实际结果存在偏差。
瓦尔德的贡献
只用幸存者的数据,瓦尔德仍然能用统计学方法推断出真相。
请自行联想如何解决统计学与计量经济学中广泛存在的选择性偏差(selection bias)的解决方案。
[1] 周祚. 知乎. https://www.zhihu.com/question/21949175/answer/19960708[2021-4-10].
[2] Wald, A. (1980). A method of estimating plane vulnerability based on damage of survivors, CRC 432, July 1980. Center for Naval Analyses.
欢迎关注林墨团队的英文慕课《Quantitative Information Analysis》
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 20:38
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社