||
由于近年来科学界对“可重复性危机”的日益关注,许多科学家和统计学家建议放弃统计显著性概念和显著性检验。例如,国际心理学期刊《Basic and Applied Social Psychology》自 2015 年起正式禁止显著性检验(p 值、t 值和 F 值)和置信区间 【1】。该期刊要求作者在论文中去除所有关于显著性检验的内容。Cumming 【2】主张放弃显著性检验, 提出了“新统计学”。
T-检验,尤其是双样本 t-检验,是最为著名和最常用的显著性检验。 如果要放弃显著性检验, 双样本 t-检验将是首当其冲。 在笔者看来,两样本 t-检验具有误导性;它并不能够对所考虑的实际问题提供有效的解决方案。让我们考虑 Roberts 【3】 的教科书中给出的一个示例。由 A 和 B 表示提供某商品的两个制造商。我们关心该商品的使用寿命,希望选择使用寿命较长的商品。制造商 A 提供 9 个样品用于使用寿命测试。制造商 B 提供 4 个样品。测试数据表明,制造商 A 和 B样品平均使用寿命分别为 42 和 50 小时,样本标准差分别为 7.48 和 6.87 小时。 Roberts 【3】 采用双尾 t-检验讨论了这个例子,得出的推论是,在 90% 的置信水平上,两个制造商的商品样本没有“显著差异”,即没有显著证据偏向选择任何一个制造商。 Jaynes 【4】 用贝叶斯方法讨论了这个例子。他认为,无需任何计算,常识就已经告诉我们测试数据提供了偏向选择制造商 B 商品的证据。
对于这个例子,为了在两个制造商之间进行选择,我们真正关心的问题是(1)制造商 B 商品的使用寿命有多大的可能性大于制造商 A 商品的使用寿命,(2)平均而言,制造商 B 商品的使用寿命比制造商 A 商品的使用寿命长多少。然而,在Roberts的双样本 t-检验中,两个制造商的商品之间的差异被标记为“不显著”。这个标签并没有回答我们真正关心的这两个问题。此外,与Roberts t 检验相关的 p-值的真正含义,即p-值所对应的物理意义, 不甚清楚。
笔者最近讨论了这个例子【5】,计算了超越概率(Exceedance probability (EP)),即制造商 B 商品的使用寿命大于制造商 A 商品的使用寿命的概率。计算结果是 EP(XB>XA)=77.8%。笔者还计算了相对平均效应量 (RMES)。计算结果是 RMES=17.79 %。也就是说,制造商 B 商品的平均使用寿命比制造商 A 商品的平均使用寿命长 17.79%。根据EP和RMES的数值,我们应该选择制造商 B 的商品。超越概率(EP)的含义(物理意义)很明确;即使没有受过统计学训练的人士也能理解。超越概率 (EP) 分析与相对平均效应量 (RMES) 相结合为这个例子提供了有效的解决方案。
值得提到的是,几乎所有的统计学教科书都包括 t-分布、t-检验、和t-区间的内容,但是加州大学戴威斯分校的Matloff教授在他的统计学专著《From Algorithms to Z-Scores: Probabilistic and Statistical Modeling in Computer Science》中有意排除了t-分布、t-检验、和t-区间 【6】。Matloff教授还发表了一篇题目为:“为什么我们还在教t-检验?”的博文 【7】。他在博文中指出:“t-检验是 [统计学]课程弊病的一个例子…….我提倡跳过t-分布,直接根据中心极限定理进行推断” 。
参考文献及相关链接:
【1】 Trafimow D and Marks M 2015 Editorial Basic and Applied Social Psychology 37 1-2
【2】 Cumming G 2014 The New Statistics Psychological Science 25(1) DOI: 10.1177/0956797613504966
【3】Roberts N A 1964 Mathematical Methods in Reliability Engineering McGraw-Hill Book Co. Inc. New York
【4】Jaynes E T 1976 Confidence intervals vs Bayesian intervals in Foundations of Probability Theory, Statistical Inference and Statistical Theories of Science, eds. Harper and Hooker, Vol. II, 175-257, D. Reidel Publishing Company Dordrecht-Holland
【5】Huang H 2021 Exceedance probability analysis: a practical and effective alternative to t-tests, preprint, ResearchGate, https://www.researchgate.net/publication/348692325_Exceedance_probability_analysis_a_practical_and_effective_alternative_to_t-tests
【6】Matloff N 2014a Open Textbook: From Algorithms to Z-Scores: Probabilistic and Statistical Modeling in Computer Science (University of California, Davis)
【7】Matloff N 2014b Why are we still teaching t-tests? On the blog: Mad (Data) Scientist—data science, R, statistic https://matloff.wordpress.com/2014/09/15/why-are-we-still-teaching-about-t-tests/
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-20 11:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社