||
1908年,戈塞特(William Sealy Gosset)发明了统计学中著名的学生氏t-分布。戈塞特当时在爱尔兰都柏林的吉尼斯(Guinness)啤酒酿造公司担任酿造化学技师。戈塞特得到吉尼斯公司的允许以“学生”(Student)为笔名在《Biometrika》上发表了题为“平均值的可能误差” 的论文。戈塞特的这篇论文被认为开创了小样本统计理论。同时期的著名统计学家费歇尔(Sir Ronald Aylmer Fisher)以t-分布为基础发明了t-检验。同时期的另一位著名统计学家纽曼(Jerzy Neyman)于1935年发明的置信区间理论中的t-区间也是基于t-分布。在之后的80多年间,t-区间和t-检验成为小样本统计推断的主要方法。
然而笔者于2006年在应用t-分布对ADCP(声学多普勒流速剖面仪)河流流量测验进行不确定度分析时发现了一个令人困惑的悖论,之后笔者在文献中又发现了与t-分布应用有关的另外两个悖论。这3个悖论使笔者怀疑基于t-分布进行小样本统计推断可能是一个谬误【1】。历经9年的迷茫和求索,笔者终于在2015年发现了 “t-转换扭曲”和在t-转换扭曲了的样本空间进行统计推断是一个方法论的错误。因为这个发现直接挑战了经典的小样本统计理论,投稿过程非常艰难。 3年中经历了7次拒稿后,论文终于被英国物理学会旗下的期刊《测量科学与技术》接受,并且应审稿编委的要求将原稿分成两部分【2,3】。从发现问题到发表答案共计12年,可谓“十二年磨一剑”。
统计量t是样本误差ε与样本标准差s的比值。样本误差ε和样本标准差s都有物理意义。但是它们的比值t却没有物理意义。因此,学生氏t-分布是一个“人造”的、没有物理意义的概率分布;它本质上是一个“扭曲”的正态分布。
t-转换扭曲的发现颠覆了基于t-分布的小样本理论。那么有没有适合小样本的统计推断方法呢?其实,统计推断的本质就是“根据样本统计量来推断未知总体参数”。所以无论在理论上还是实际应用中,不需要人为地区分大样本和小样本。换句话说,一个有效的统计推断方法应该适用于任何样本量,只不过对于小样本,推断结果的不确定度会比较大。因此,根本就不(应该)存在所谓“小样本统计理论”。比如“无偏估计”法可以用于任何样本量,但是基于小样本的无偏估计的不确定度比基于大样本的无偏估计大。仅此而已。前面提到的与t-分布应用有关的3个悖论随着无偏估计法的应用迎刃而解。所谓“大道至简”,小样本统计推断其实没有那么复杂和费解。学生氏t-分布事实上误导了小样本统计推断。
参考文献
【1】 黄河宁,为什么基于t-分布计算小样本测量不确定度是一个谬误? -3 个悖论及其消解,Researchgate 链接:https://www.researchgate.net/publication/343039726_weishenmejiyu_t-fenbujisuanxiaoyangbenceliangbuquedingdushiyigemiuwu_-3_gebeilunjiqixiaojie
【2】Huang H 2018a Uncertainty estimation with a small number of measurements, Part I: new insights on the t-interval method and its limitations Measurement Science and Technology 29 https://doi.org/10.1088/1361-6501/aa96c7
【3】 Huang H 2018b Uncertainty estimation with a small number of measurements, Part II: a redefinition of uncertainty and an estimator method Measurement Science and Technology 29 https://doi.org/10.1088/1361-6501/aa96d8
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-21 22:30
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社