heninghuang的个人博客分享 http://blog.sciencenet.cn/u/heninghuang

博文

对统计显著性检验和p值<0.05的大辩论会导致‘范式转换’吗？

已有 6676 次阅读 2021-5-28 11:46 |个人分类:统计推断与概率|系统分类:观点评述

最近几年，学术界对统计显著性检验和p值<0.05的辩论可以说是如火如荼，愈演愈烈。2016年，美国统计协会（ASA）发布了关于p值的‘官方’声明，警示滥用统计显著性和p值。 2019年3月“美国统计学家 (TAS)”期刊出版了一个讨论统计显著性问题的专辑，其中包含43篇文章。TAS主编在这期专辑的社论中明确提出：“彻底抛弃‘统计显著性’概念”，“不要再说‘统计上是显著的’”【1】。2019年3月，800多位学者在《Nature》上联名呼吁‘摒弃整个统计显著性概念’。

根据笔者的观察，参与辩论的学者其本上分为三大派：（1）保留派：比如李宏翰博主【2】认为："统计显著性检验及对应的p值是无错又无罪的，至于一些研究者的批评与责难，不过是许多研究者对统计显著性检验的误解与误用而已。p值无非是个工具，被人误解、误用乃至滥用，是使用者的问题，而非p值本身的问题。"（2）抛弃派：认为显著性检验和p值无效甚至有害，不惜采取行政措施来禁止。比如Ziliak和McCloskey (2008) 的著作完全否定显著性检验。又比如心理学期刊《Basic and Applied Social Psychology》于2015年正式禁止使用显著性检验和置信区间 (Trafimow and Marks 2015)。（3）改良派：承认显著性检验和p值的局限性，提出改进方案。比如将流行的统计显著性阈值从0.05提高到0.005，作为“一个不完美的短期解决方案”。

统计显著性检验和p值之所以受到强烈质疑和批判的主要原因之一是所谓“可重复性危机”：即许多科研新发现被认为是“假阳性”，无法被重复试验所证实。将“可重复性危机”完全归罪于显著性检验和p值显然是不适当的，但是“可重复性危机”反映了显著性检验在方法论上的局限性和缺陷，即统计显著性检验范式本身有问题。换句话说，“可重复性危机”作为在统计显著性检验范式下出现的‘反常’或‘反例’是统计显著性检验范式的危机之源。

笔者赞同彻底抛弃‘统计显著性’概念，即抛弃统计显著性检验这一统计推断工具。库恩指出：“危机的意义就在于：它指出更换工具的时机已经到来了【3】。” 在评估科研新发现或者新发明时，人们寻求的是‘科学显著性’。而所谓‘统计显著性’不等同于‘科学显著性’。因此，统计显著性检验非但不能够对科研新发现或者新发明作出正确的评估，反而会造成误导。

如果抛弃统计显著性检验，相对应的p值也就没有保留的必要了。其实p值只是一个统计量，如同其它统计量比如样本均值一样，p值本身并没有‘对’或者‘错’的问题。但是p值本身的物理意义不是很明确，所以才容易被误解。作为对比，统计量样本均值的物理意义很明确，不会被误解。胡传鹏、吕小康写道【4】：“虽然P值被广泛使用，但真正理解 P值所代表的意义的人却很少。2002年，德国研究者对心理学的研究者和学生进行一项调查，给他们呈现了6个关于 P值的陈述。所有学生均无法正确理解P值的意义(Haller & Krauss, 2002)；即便是教授方法学的教师，也有80%无法正确理解P值。说明研究者极容易对P值产生误解。他们的这一结果与更早前的一项调查基本上一致(Oakes, 1986)。” 如果一个统计量的意义非常容易被误解，甚至大部分教授方法学的教师也不能正确理解，其存在和应用的价值着实让人怀疑。

p值不但容易被误解，而且容易被滥用。在统计显著性检验范式下，p值被用来作为研究成果（发明或发现）统计显著性的量度，p值<0.05通常被认为是研究成果具有显著性的“金标准”。学术期刊通常更喜欢发表具有统计显著性的成果。因此，长期以来p值<0.05几乎成为发表论文的“通行证”。显然，p值<0.05对于科研人员的重要性不言而喻，这使得科研人员自觉与不自觉地产生追求p值<0.05的倾向，在进行数据采集和处理时采取一些措施使得p值<0.05。这种做法被称为‘p-hacking’。比如对于两个样本均值的t检验，只要增大样本量，总会满足p值<0.05，而两个样本均值之差（即效应量）几乎不会随着样本量的增大而变化。

那么，对统计显著性检验和p值<0.05的大辩论会导致‘范式转换’吗？按照库恩的范式转换理论，必须出现被学术共同体接受的新范式来取代旧范式才能实现范式转换。然而到目前为止，还没有出现被普遍接受的能够取代统计显著性检验范式的新范式。因此，在今后的很长时间里，统计显著性检验范式仍然会作为主流范式存在。对统计显著性检验和p值<0.05的辩论还将继续。

参考文献（部分）：

【1】谢钢，“对美国统计学会(ASA)提出的关于彻底抛弃“统计显著性”概念的倡议的简介及简评”

https://www.researchgate.net/publication/350055557_duimeiguotongjixuehuiASAtichudeguanyu_chedipaoqitongjixianzhexinggainiandechangyi_dejianjiejijianping

【2】李宏翰，“合理使用效应量，保留p值又何妨？”科学网：http://blog.sciencenet.cn/blog-2619783-1285766.html

【3】库恩，《科学革命的结构》，第四版，金吾伦、胡新和译，北京大学出版社，2003年。

【4】胡传鹏、吕小康，“科学界争鸣：使用最广泛的统计指标 P值 < .05 还是 .005才显著？”知识分子网：

https://mp.weixin.qq.com/s?__biz=MzIyNDA2NTI4Mg==&mid=2655417653&idx=3&sn=b3fd2a769076fecbca0d6ff404b34035&scene=21#wechat_redirect

转载本文请联系原作者获取授权，同时请注明本文来自黄河宁科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3427112-1288593.html

上一篇：当今统计学教科书中有哪些最被误解和最为误导的概念或理论？
下一篇：基于测量不确定度的统计质量控制准则被纳入走航式ADCP河流流量测验国际标准ISO:24578:2021(E)

收藏 IP: 104.63.253.*| 热度|

当前推荐数：7 推荐人：李宏翰 张学文 刘炜 辜英求 周忠浩 范振英 张鹰

发表评论评论 (3 个评论)

1/0 | 闂傚倸鍊搁崐宄懊归崶顒夋晪闁哄稁鍘肩粈鍫熸叏濮楀棗鍔﹂柨婵嗩槸缁犺櫕淇婇妶鍜冩敾闁哄拑缍佸铏规崉閵娿儲鐝㈤梺鐟板殩閹凤拷:0 | 婵犵數濮烽。钘壩ｉ崨鏉戠；闁规崘娉涚欢銈呂旈敐鍛殲闁稿顑夐弻锝呂熷▎鎯ф閺夆晜绻堝铏规崉閵娿儲鐝㈤梺鐟板殩閹凤拷 | 婵犵數濮烽弫鎼佸磻閻愬搫鍨傞柛顐ｆ礀缁犱即鏌熼梻瀵稿妽闁哄懏绻堥弻銊モ攽閸℃ê绐涢梺鍛婎殕瀹€鎼佸箖濡も偓閳藉鈻嶆潏銊х煁缂佸倸绉撮オ浼村醇閻斿搫寮抽梻浣虹帛濞叉牠宕愰崷顓涘亾濮樼偓瀚� | 闂傚倸鍊峰ù鍥х暦閸偅鍙忛柟缁㈠枛缁犺銇勯幇鍫曟闁稿浜弻娑㈠Ψ椤斿彞姹楅悷婊呭鐢寮查幖浣圭叆闁绘洖鍊圭€氾拷

返回顶部