heninghuang的个人博客分享 http://blog.sciencenet.cn/u/heninghuang

博文

对统计显著性检验和p值<0.05的大辩论会导致‘范式转换’吗?

已有 6367 次阅读 2021-5-28 11:46 |个人分类:统计推断与概率|系统分类:观点评述

最近几年,学术界对统计显著性检验和p值<0.05的辩论可以说是如火如荼,愈演愈烈。2016年,美国统计协会(ASA)发布了关于p的‘官方’声明, 警示滥用统计显著性和p值。 20193美国统计学家 (TAS)”期刊出版了一个讨论 统计显著性问题的专辑,其中包含43篇文章。TAS主编在这期专辑的社论中明确提出:“彻底抛弃‘统计显著性’概念”,“不要再说‘统计上是显著的’”【1】。2019年3月,800多位学者在《Nature》上联名呼吁‘摒弃整个统计显著性概念’。

根据笔者的观察,参与辩论的学者其本上分为大派:(1)保留派:比如李宏翰博主【2】认为:"统计显著性检验及对应的p值是无错又无罪的,至于一些研究者的批评与责难,不过是许多研究者对统计显著性检验的误解与误用而已。p值无非是个工具,被人误解、误用乃至滥用,是使用者的问题,而非p值本身的问题。"2)抛弃派:认为显著性检验和p值无效甚至有害,不惜采取行政措施来禁止。比如ZiliakMcCloskey (2008) 著作完全否定显著性检验。又比如心理学期刊《Basic and Applied Social Psychology》于2015正式禁止使用显著性检验置信区间 (Trafimow and Marks 2015)3)改良派:承认显著性检验和p值的局限性,提出改进方案。比如将流行的统计显著性阈值从0.05提高到0.005,作为一个不完美的短期解决方案

统计显著性检验p值之所以受到强烈质疑和批判的主要原因之一是所谓可重复性危机:即许多科研新发现被认为是假阳性,无法被重复试验所证实。将可重复性危机完全归罪于显著性检验和p显然是不适当的,但是可重复性危机反映了显著性检验在方法论上的局限性和缺陷,即统计显著性检验范式本身有问题。换句话说,可重复性危机作为在统计显著性检验范式下出现的‘反常’或‘反例’是统计显著性检验范式的危机之源。

笔者赞同彻底抛弃‘统计显著性’概念,即抛弃统计显著性检验这一统计推断工具。库恩指出:“危机的意义就在于:它指出更换工具的时机已经到来了【3】。” 在评估科研新发现或者新发明时,人们寻求的是‘科学显著性’。而所谓‘统计显著性’不等同于‘科学显著性’。因此,统计显著性检验非但不能够科研新发现或者新发明作出正确的评估,反而会造成误导。

如果抛弃统计显著性检验,相对应的p值也就没有保留的必要了。其实p值只是一个统计量,如同其它统计量比如样本均值一样,p值本身并没有‘对’或者‘错’的问题。但是p值本身的物理意义不是很明确,所以才容易被误解。作为对比,统计量样本均值的物理意义很明确,不会被误解。胡传鹏吕小康写道4】虽然P值被广泛使用,但真正理解 P值所代表的意义的人却很少。2002年,德国研究者对心理学的研究者和学生进行一项调查,给他们呈现了6个关于 P值的陈述。所有学生均无法正确理解P值的意义(Haller & Krauss, 2002);即便是教授方法学的教师,也有80%无法正确理解P值。说明研究者极容易对P值产生误解。他们的这一结果与更早前的一项调查基本上一致(Oakes, 1986)  如果一个统计量的意义非常容易被误解,甚至大部分教授方法学的教师也不能正确理解,其存在和应用的价值着实让人怀疑。

p值不但容易被误解,而且容易被用。 统计显著性检验范式下p值被用来作为研究成果(发明或发现)统计显著性的量度,p<0.05通常被认为是研究成果具有显著性的“金标准”。学术期刊通常更喜欢发表具有统计显著性果。因此,期以来p<0.05几乎成为发表论文的“通行证”。显然,p值<0.05对于科研人员的重要性不言而喻,这使得科研人员自觉与不自觉地产生追求p值<0.05的倾向,在进行数据采集和处理时采取一些措施使得p值<0.05。这种做法被称为‘p-hacking’。比如对于两个样本均值的t检验,只要增大样本量,总会满足p值<0.05,而两个样本均值之差(即效应量)几乎不会随着样本量的增大而变化。

那么,对统计显著性检验p<0.05的大辩论会导致‘范式转换’吗?按照库恩的范式转换理论,必须出现被学术共同体接受的新范式来取代旧范式才能实现范式转换。 然而到目前为止,还没有出现被普遍接受的能够取代统计显著性检验范式的新范式。因此,在今后的很长时间里,统计显著性检验范式仍然会作为主流范式存在。对统计显著性检验p<0.05的辩论还将继续。

参考文献(部分):

【1】谢钢,“对美国统计学会(ASA)提出的关于彻底抛弃“统计显著性”概念的倡议的简介及简评”

https://www.researchgate.net/publication/350055557_duimeiguotongjixuehuiASAtichudeguanyu_chedipaoqitongjixianzhexinggainiandechangyi_dejianjiejijianping

2】李宏翰,“合理使用效应量,保留p值又何妨?”科学网:http://blog.sciencenet.cn/blog-2619783-1285766.html

3】库恩,《科学革命的结构》,第四版,金吾伦、胡新和译,北京大学出版社,2003年。

4】胡传鹏吕小康,科学界争鸣:使用最广泛的统计指标 P < .05 还是 .005才显著?”知识分子网:

 https://mp.weixin.qq.com/s?__biz=MzIyNDA2NTI4Mg==&mid=2655417653&idx=3&sn=b3fd2a769076fecbca0d6ff404b34035&scene=21#wechat_redirect



https://blog.sciencenet.cn/blog-3427112-1288593.html

上一篇:当今统计学教科书中有哪些最被误解和最为误导的概念或理论?
下一篇:基于测量不确定度的统计质量控制准则被纳入走航式ADCP河流流量测验国际标准ISO:24578:2021(E)
收藏 IP: 104.63.253.*| 热度|

7 李宏翰 张学文 刘炜 辜英求 周忠浩 范振英 张鹰

发表评论 评论 (3 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 20:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部