||
老板上周去欧洲开大会,于是楼主就很荣幸的又帮他上课啦。 本学期最后一次课,需要给学生做一个关于假设检验的介绍。 整堂课气氛还不错,有两个故事我觉得挺适合作为假设检验的开篇。 其中之一便是著名的“女士品茶”。 考虑到这个经典的故事在中文网络世界中貌似还并没有广为人知,楼主就抛砖引玉对此推广一番。
这个故事最早出现在统计学家Fisher发表于1935年的著作《the design of
experiment》中被用来描述原假设(null hypothesis)。据Fisher教授描述有一位女士声称自己在喝英式茶的时候能区分出来是茶先倒进杯子还是奶先倒进杯子。 于是Fisher教授就打算设计一个实验来验证这位女士是否真的具有她描述的这种能力。楼主暗自揣测着教授当时的心情可能就跟我听见我朋友说“我能抽出什么烟比什么烟好”,或者告诉我“A牌子的咖啡机比B牌子的机器的 做出来的咖啡好喝”一样半信半疑吧。
在继续讲故事之前,咱先看看老外喝茶搞得有多繁复。具体的我也不太懂,总之我不喜欢外国茶,已经失去了茶叶本来的味道。
好啦好啦,言归正传。常识告诉我们,如果想得到有意义的结论,就应该随机给女士几杯茶让女士鉴别一番,根据她答对的次数(或者答对的比例)来判断她是否有这个能力。可是问题是,要做多少次实验呢?根据结果我们又如何来给出定量的结论呢?Fisher君在当年就给出了他的一套实验方法:
他调配出了八杯其他条件一模一样而仅仅是倒茶倒奶顺序相反的茶,其中两类各四个(为了少打几个字,我在下文中称其为“奶”或者“茶”)。然后他让女士品尝之后告诉他哪四杯是“奶”。当然,剩下的就都是“茶”了。
在分析实验结果的时候,他运用了这样的逻辑:
他首先假设女士没有这个能力(这个假设被称为原假设),然后如果女士很好的鉴别了这八杯茶,那就说明在原假设成立的情况下,发生了非常反常的现象,以至于说明原假设是令人怀疑的。从统计上来说,如果在原假设成立的前提下,发生了非常小概率的事件,那我们就有理由怀疑原假设的真实性。
这也是Fisher的假设检验的基本思路。在我看来这有点像反证法,我首先假设我想推翻的命题成立,然后试图找出矛盾,找出不合理的地方来证明否命题为假命题。不同之处在于在随机实验中,经常找不到完全不可能发生的事情。
Fisher君的原假设是:
$H_0$ : 女士没有这样的能力。
实验可能出现的结果是:
设女士选对了X杯“奶”。因为两种各4杯,所以X可能出现的值是集合 $\{0,1,2,3,4\}$ 中的一个。在原假设的前提下,女士是毫无根据的瞎猜,这就好比一个袋子里放了8个球,红黑各4个。不放回的情况下随机的抽取4个球,其中红色球数目X的概率分布是多少?【1】
好熟悉的感觉,这让我不禁想起了高二那天在夕阳下的奔跑。对,这仅仅就是个高二课后作业题。答案如下:
$P(X=0)&=&\dfrac{C_4^0\times C_4^4}{C_8^4}=\dfrac{1}{70}$
$P(X=1)&=&\dfrac{C_4^1\times C_4^3}{C_8^4}=\dfrac{16}{70}$
$P(X=2)&=&\dfrac{C_4^2\times C_4^2}{C_8^4}=\dfrac{36}{70}$
$P(X=3)&=&\dfrac{C_4^3\times C_4^1}{C_8^4}=\dfrac{16}{70}$
$P(X=4)&=&\dfrac{C_4^4\times C_4^0}{C_8^4}=\dfrac{1}{70}$
对于这样的分布,Fisher又说了,即使X=3,女士鉴别出来了6杯茶,我们也不能拒绝原假设(认为女士有鉴别能力)。因为如果在X=3的情况下拒绝了原假设,那在X=4的情况下(女士鉴别出了8杯茶!)也要拒绝原假设。所以在原假设成立的前提下,拒绝原假设的概率变成了17/70。也就是说如果女士没有这个能力,但是她侥幸靠瞎猜通过了测试,使我们我们错误的认为她有这个能力的概率居然有17/70!这种错误被称为第一类错误,一般来说不希望这个错误发生的概率超过5%。
所以Fisher只有在女士在把8杯茶都鉴别出来的情况下,才会认为她有这个能力。后来有位叫David Salsburg的统计学家写了一本书《The lady tasting tea》, 在书中他告诉我们这位女士还真把8杯茶都鉴别出来了!据说这位女士是Fisher的同事,植物学家Muriel Bristol。
好吧,在楼主看来,这简直就是一个较真理科男和感性小资女的故事。Fisher君你太不浪漫了,绝对是个泡妹子的反面教材。试想,万一姑娘没把8杯茶都鉴别出来,Fisher君出于对数学的忠诚拒绝了原假设,这还怎么让姑娘跟他继续聊天。
Fisher君在1956年发表了一篇《6 Mathematics of a Lady Tasting Tea》, 继续讨论了随机试验的重要性,以及增加样本数量和重复实验会带来的益处,还讨论了实验设计中为什么“茶”和“奶”的数量应该相等。 我将这篇文章放在了本文的附件之中。 在今天看来,这个一百多年前的小实验也许并不复杂,但其中展示出的先驱性的思想让学生我深感佩服。
留个课后思考题。约会的时候如果妹子自称她的气质很像林黛玉。那么男主应该设计一个什么实验,得到一个什么样的结论呢?如果您的结论不太支持她的论断,又如何让妹子不要生气呢?(我的答案在回复里)
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
下面是我对这个问题的一些看法和补充,与故事无关了。
首先,我认为女士的鉴别能力不像很多其他的问题,比如“发送的信号是0还是1”,“监测区域有没有目标”,等等。很难简单地说她有还是没有这个能力。我个人感觉女士品茶问题说不定更适合用模糊逻辑来解决。虽然有些统计学家并不喜欢模糊数学,不过我还是对这种相对“新生事物”更加充满好奇。以后有机会再好好深入的学一学。
其次,作为介绍性的故事,我觉得没必要铺展的太开,要不然学生可能就跟不上,听不懂,失去兴趣。这也是我没有提备择假设和第二类错误,也没有引入显著性水平的概念的原因。按照这个故事的思路继续往下讲,可以发散出很多很多东西。
再次,在我这种喜欢贝叶斯,喜欢后验概率的人看来,我可能会把这个问题理解成一个参数估计问题。我认为女士能鉴别出来某一杯茶的概率是p,我随机的给她上N杯茶(为了样本独立), 看他能鉴别出来的有多少,假设是M杯。这不就变成了最大似然估计 $\hat{p}_{ML}=M/N$ 了么?或者假设p服从beta的先验分布,于是后验也服从beta,推导就不写了。当然,我也可以把M作为test statistic 来构建其他的检验。
最后,我感觉自己很少有机会直接用假设检验里这一套东西了,但也不是说完全脱离假设检验的理论,只是把它当做一个基础。经常还是要用机器学习里的分类器的那些东西,感觉要更干脆一些。根据样本,根据距离分割空间,貌似会比较健壮。我就是菜鸟一枚,半瓶子晃荡,理解的也不深刻,要是写的不对请老师不吝赐教啊。
【1】Fisher计算概率的时候似乎用的是排列,不过我觉得组合似乎更容易让人理解,毕竟高中数学课本上这种题都是用的组合。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 02:09
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社