||
一、p值统治时代的结束出现了“权力”真空
p值是假设检验(比如t-检验、F-检验等等)的重要成果。p<0.05长期以来一直作为判断统计显著性的标准。因此p值在经典统计推断中占据统治地位。然而事实上,几十年来学术界对假设检验一直有很大的争议。比如Ziliak和McCloskey于2008年出版了一本专著论述假设检验无效,并且是错误的 (Ziliak and McCloskey 2008)。最近几年来,学术界对假设检验和置信区间理论提出越来越严重的质疑,这是因为科学研究上的许多新发现被认为是“假阳性”(false positive results),无法被重复试验所证实,称之为“可重复性危机” (replication crisis)。一些学者认为,假设检验和置信区间的应用或者滥用是造成“可重复性危机”的主要原因之一。2015年初,心理学期刊《Basic and Applied Social Psychology》正式禁止使用假设检验和置信区间 (Trafimow and Marks 2015)。Amrhein, Greenland, and McShane (2019)则建议假设检验“退休”。 2016年,美国统计协会(ASA)发布了一则关于p值的正式声明(Wasserstein and Lazar 2016)。随着假设检验受到严峻的挑战,p值的统治时代已经结束(Halsey 2019),这意味着学术界将迎来一个后p<0.05时代(Wasserstein, Schirm, and Lazar 2019)。
p值统治时代的结束出现了“权力”真空(Halsey 2019) 。Halsey (2019)论述了有可能替代p值的几种统计量以用来填补“权力”真空,包括置信区间、贝叶斯因子、赤池信息准则(AIC)。然而这些统计量都有局限性。比如置信区间和p值的计算基于相同的数学框架,其推断结果基本是等价的。所以《Basic and Applied Social Psychology》同时禁止使用假设检验和置信区间。 那么有没有其它较好的统计量来替代p值?
三、算例:两个厂家产品质量评估
我们采用Roberts (1964) 给出的一个算例来展示两个样本差异性信号指数的实际应用。厂家A提供了根据9个产品样本得到的使用寿命统计数据;厂家B提供了根据4个产品样本得到的使用寿命统计数据(见表1)。我们要根据这些数据来选择使用寿命较长的产品:厂家A或者厂家B。显然这是一个经典的Behrens-Fisher问题。
表1. 两个厂家产品样本的统计数据
厂家 |
样本容量 |
均值 (hours) |
标准差 (hours) |
SSE (hour2) |
A |
9 |
42 |
7.48 |
1758 |
B |
4 |
50 |
6.87 |
2490 |
注:SSE (sample signal energy)为样本信号能量
Roberts (1964) 采用了假定总体方差相同的t检验,其结果表明在0.1的显著性水平下两个厂家的产品质量没有显著性差异。因此选择厂家A或者厂家B的产品都可以。Jaynes (1976)则认为Roberts (1964)的推断是无效的,因为根据常识就可以判断厂家B的产品质量好于厂家A的产品,应该选择厂家B的产品。Jaynes (1976)采用了一种贝叶斯分析方法,其结果表明有92%的概率厂家B产品的使用寿命比厂家A产品的使用寿命要长。这个分析结果与常识相一致。
笔者首先采用了Welch近似t检验。得到t=1.9568, 有效自由度=6, p=0.0981>0.05。因此在0.05的显著性水平下两个厂家的产品质量没有显著性差异。
笔者接着计算了两个样本差异性信号指数。得到信号指数=0.74,表明两个厂家的产品质量有比较大的差异。而厂家B产品的样本信号能量SSE=2490,远大于厂家A产品的样本信号能量SSE=1758。因此应该选择厂家B的产品。这个分析结果与Jaynes (1976)的贝叶斯分析结果和常识相一致。
四、小结
p值统治时代的结束意味着学术界将迎来一个后p<0.05时代。而因此形成的 “权力”真空需要由其它统计量来填补。置信区间、贝叶斯因子、赤池信息准则(AIC)、 信号指数都有可能成为替代p值的统计量。寻求较好的统计量替代p值成为近年来统计学界的一个热门研究课题。
参考文献
Amrhein V, Greenland S, and McShane B 2019 Retire statistical significance Nature 567 305-307
Halsey L G 2019 The reign of the p-value is over: what alternative analyses could we employ to fill the power vacuum? Biology Letters 15: 20190174 https://doi.org/10.1098/rsbl.2019.0174
Huang H 2019 Signal content index (SCI): a measure of the effectiveness of measurements and an alternative to p-value for comparing two means. Measurement Science and Technology, https://doi.org/10.1088/1361-6501/ab46fd. ResearchGate链接: https://www.researchgate.net/publication/335996439_Signal_content_index_SCI_A_measure_of_the_effectiveness_of_measurements_and_an_alternative_to_p_-value_for_comparing_two_means
Jaynes E T 1976 Confidence intervals vs Bayesian intervals in Foundations of Probability Theory, Statistical Inference and Statistical Theories of Science, eds. Harper and Hooker, Vol. II, 175-257, D. Reidel Publishing Company Dordrecht-Holland
Roberts N A 1964 Mathematical Methods in Reliability Engineering McGraw-Hill Book Co. Inc. New York
Trafimow D and Marks M 2015 Editorial Basic and Applied Social Psychology 37 1-2
Wasserstein R L and Lazar N A 2016 The ASA's statement on p-values: context, process, and purpose, The American Statistician 70 129-133 DOI:10.1080/00031305.2016.1154108
Wasserstein R L, Schirm A L, and Lazar N A 2019 Moving to a world beyond “p < 0.05” The American Statistician 73:sup1 1-19 DOI: 10.1080/00031305.2019.1583913
Ziliak S T and McCloskey D N 2007 The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and Lives University of Michigan Press
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 06:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社