博文

置信区间的物理意义

已有 7006 次阅读 2020-9-6 12:02 |个人分类:统计推断与概率|系统分类:论文交流

1935年，英国统计学家纽曼（Jerzy Neyman）发明了置信区间理论。置信区间理论在刚提出时就受到学术界的质疑。同时期的著名统计学家费歇尔曾经指出置信区间理论的主要缺陷是“结果的不唯一性”（the loss of uniqueness in the result）。然而在之后的80多年间，置信区间理论还是占据了统计学教科书，并且与统计显著性检验一起成为广泛应用于科学研究的统计推断方法。

最近十几年来，统计显著性检验和置信区间理论受到越来越多的质疑。这是因为科学研究的许多新发现被认为是“假阳性”（false positive results），无法被重复试验所证实，即所谓“可重复性危机” (replication crisis)。一些学者认为，统计显著性检验和置信区间的应用或者滥用是造成“假阳性”和“可重复性危机”的主要原因之一。Morey 等人在论文“对置信区间置信的谬误”中指出：置信区间理论不是用来进行统计推断的，并建议科学界摒弃置信区间（Morey et al 2016a）。心理学期刊《Basic and Applied Social Psychology》于2015年初正式禁止使用统计显著性检验和置信区间 (Trafimow and Marks 2015)。

置信区间及其置信水平被认为是统计学中最容易和最经常被误解的概念之一。例如百度百科对置信水平的两种解释就相互矛盾：（1）“置信水平是指总体参数值落在样本统计值某一区内的概率”，（2）“置信水平是指构造总体参数的多个样本区间中，包含总体参数的区间占总数之比，一般用1-α表示”。（1）的解释的另一种说法是“ 真值落在某一置信区间内的概率为置信水平1-α”。对于置信区间的误解不仅仅局限于实际应用者，也发生于一些统计学家或专家（Morey et al 2016b）。

那么，置信区间究竟有怎样的物理意义？笔者(Huang 2018)设计了一个“物理试验”来帮助理解置信区间的物理意义。试验第一步：在地面上画一条直线L-L代表真值μ。第二步：用一些长短不齐的木棍代表t-区间，木棍的中心为样本均值，木棍的长度为t-区间。第三步：将这些木棍抛向直线L-L，确认木棍垂直于直线L-L。第四步：计算与直线L-L相交的木棍数与抛出的总木棍数之比，该比值即为置信水平1-α，称之为“Capture rate” 。这个“物理试验”的数学表达式为

必须指出，“Capture rate” 是置信区间方法的长期性质（long-run property）。对于某一具体的置信区间，“Capture rate” 或者是0，或者是1，对应于某一木棍与直线L-L不相交或者相交。

因此，置信区间只不过是“一个产生以1-α频率与直线L-L（真值）相交的木棍集合的方法”，它不是根据样本统计量推断未知总体参数的统计推断方法。

参考文献

Huang H 2018 More on the t-interval method and mean-unbiased estimator for measurement uncertainty estimation Cal Lab the International Journal of Metrology 25 24-33 ReserarchGate 链接：https://www.researchgate.net/publication/326331247_More_on_the_t-Interval_Method_and_Mean-Unbiased_Estimator_for_Measurement_Uncertainty_Estimation

Morey R D, Hoekstra R, Rouder J N, Lee M D and Wagenmakers E-J. 2016a The fallacy of placing confidence in confidence intervals Psychon Bull Rev 23 103-123 https://rd.springer.com/article/10.3758%2Fs13423-015-0947-8

Morey R D, Hoekstra R, Rouder J N and Wagenmakers E-J 2016b Continued misinterpretation of confidence intervals: response to Miller and Ulrich. Psychonomic Bulletin & Review 23 131-140 https://link.springer.com/article/10.3758%2Fs13423-015-0955-8

Trafimow D and Marks M 2015 Editorial Basic and Applied Social Psychology 37(1) 1-2

转载本文请联系原作者获取授权，同时请注明本文来自黄河宁科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3427112-1249460.html

上一篇：误差膨胀（error dilation）现象
下一篇：学生氏t-分布：一个误导小样本统计推断一百多年的概率分布

收藏 IP: 104.63.253.*| 热度|

heninghuang的个人博客分享 http://blog.sciencenet.cn/u/heninghuang

博文

置信区间的物理意义

当前推荐数：6 推荐人：张学文 宁利中 尤明庆 张鹰 张伟 晏成和

发表评论评论 (3 个评论)

黄河宁

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

heninghuang的个人博客分享 http://blog.sciencenet.cn/u/heninghuang

博文

置信区间的物理意义

当前推荐数：6 推荐人： 张学文 宁利中 尤明庆 张鹰 张伟 晏成和

发表评论 评论 (3 个评论)

黄河宁

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

当前推荐数：6 推荐人：张学文宁利中尤明庆张鹰张伟晏成和

发表评论评论 (3 个评论)