heninghuang的个人博客分享 http://blog.sciencenet.cn/u/heninghuang

博文

关于统计显著性和p值的大辩论:保守派最新的反击与改革派的回应

已有 4914 次阅读 2021-9-19 07:32 |个人分类:统计推断与概率|系统分类:观点评述

笔者之前的博文“对统计显著性检验p<0.05的大辩论会导致‘范式转换’吗?”介绍了正在国际统计学界进行的关于统计显著性和p值的大辩论。博文中特别提到了美国统计协会(ASA)于2016年发布的关于统计显著性和p‘官方’声明,警示统计显著性和p ASA 旗下期刊美国统计学家2019年出版了讨论统计显著性问题的专辑。该期刊主编在这期专辑的社论中明确提出:“彻底抛弃‘统计显著性’概念”,“不要再说‘统计上是显著的’”。还有,2019年3月,800多位学者在《Nature》上名呼吁‘摒弃整个统计显著性概念’。另外,笔者参与这场大辩论的学者分为大派:保留派(现称为保守派),抛弃派(现称为改革派),和改良派(注:这种派别划分只是为了讨论方便,并无任何褒贬之意)。由于各种期刊上发表了大量批判统计显著性和p值的论文,特别是ASA 旗下期刊美国统计学家》的社论到目前为止,似乎抛弃统计显著性和p的呼声占上风。然而最近形势出现了变化。今年7月,美国统计协 (ASA) 主席关于统计显著性和可重复性专题组(task force) 发表了一份“声明”【1】。 该“声明”开篇写道:

“在去的十年中,科学界研究果的可重复性越来越关注。可重复性的一个重要方面是使用统计方法来结论 2019 年,美国统计协 (ASA) 主席成立了一个专题组,以解决有关《美国统计学家》(ASA 期刊)2019 可能被错误地解释为 ASA 官方政策的担 2019年的社统计分析中取消使用“p < 0.05”和“统计显著”。)本文件是专题组的声明,ASA们传播这个声明。这个声明有两个目的:明正确用的和解 P 显著检验是不放弃的重要工具,并要列出一些可能科学界有用的合理统计推断的一些原。”

这个专题组的“声明”由15位成员署名。这15位成员均为美国统计学界(大学和国家实验室)的资深统计学家。根据 Karen Kafdar NISS 2021 Affiliate "Luncheon" Program 【2】上的介绍,除了一位成员,其他14位成员均在2000年前获得博士学位。然而十分奇怪的是:这个“声明”曾寻求在包括美国统计协会( ASA 旗下期刊上发表,均遭到拒绝,最终在统计》上表【2】。

统计主编 Karen Kafdar 伴随“声明”发表了一篇社论【3】。Karen Kafdar 在社论中写道:

“作 2019 年度的 ASA 主席,我召集了一个专题组来准一份声明,以明假设检验p 的作用以及它与可重复性的关系。该专题组的声明将作本社之后的下一篇文章出该专题组旨在涵盖广泛的专业经验和理念,并取得了非凡的一致意。所有专题组的都被列为该声明的作者,因所有人都参与了它的写并批准了它的出版。专题组的声明很重要:与几乎所有方法一,在统计学和其它域,假设检验p 和可重复性的概念可能会被解和用,但它仍然是科学推理的核心.

然而,专题组的声明发表后立即遭到改革派学者的批评和批判。例如:Megan Higgs 4】在她的博客中写道:

我承对专题组终产生的任何广泛用途的期望很低 —— 不是因为专题组本身,但可能主要是因终产一声明的含价,以及成立专题组的原因。……

我很想成为讨论的一部分,甚至只是无意中听到他的声音 —— 但是是于分歧而不是共点。我需要更多地看到分歧和讨论,而不是看到一个非常一的声明,声明不承造成问题的固有混乱和微差。承缺乏共围绕 ASA 关于统计显著性和 p 声明(包括充材料)的讨论的最佳部分。专题组的声明没有那种感觉。……

我不是认为 p (以及相关的统计设检验)是邪的,但我践中的普遍使用持怀度,我不禁担心它们对科学的作用“帮助推了科学”很容易,但我真的知道?我真的可以衡利弊?当然,它在某些情况下是“有效的”和有用的,但我不能同意该陈述中的第一个实质性陈述:“P 是有效的统计量,它固有的不确定性提供了方便的定成俗的表达。”我可以就写一整篇文章 —— 如果我是专题组的成,我就不会成一致通过的一分子

再例如:Andrew Gelman 在他的博客中对“声明”提出了批评6】。他写道:

[“声明”]中提供的最后一条一般原是:“而言之,P 显著检验,如果正确用和解,会增加从数据中得出结论严谨性。”很难得从哪里开始。它重复了我已经讨论过的危。它很容易被用作继续不良践的理由,因为问题对于什么是“适当”和什么是“严谨”缺乏共或理解。因此,我不同意“增加结论严谨性”这样笼统的说法。法太泛,太大,没有什么道理。再一次,我不确定一个践科学家会从中得到如同 Kafadar 在随附的社中所的那样这将“帮助所有科学域的研究人”。科学家不需要含糊的、容易引用的和看似ASA 支持的声明来捍使用可能有问题行方法 —— 或者至少科学不需要科学家有它们。”

笔者的疑问是:专题组是由2019 年度的美国统计协 (ASA) 主席 Karen Kafdar 召集组成的,那么这份专题组的“声明”是否代表美国统计协 (ASA)关于统计显著性和p的官方立场?如果是,为什么该“声明”不能够在美国统计协会(ASA旗下期刊上发表?而是在 Karen Kafdar 担任主编的统计》上如果不是,为什么该“声明”要以美国统计协 (ASA) 主席关于统计显著性和可重复性专题组的名义发表?无论如何,看来关于统计显著性和p值的大辩论将进入新的一轮。

参考文献及相关链接:

1】The ASA President’s Task Force Statement on Statistical Significence and Replicability https://errorstatistics.files.wordpress.com/2021/06/presidents-task-force-statement.pdf

2】NISS 2021 Affiliate "Luncheon" Program https://www.niss.org/news/niss-2021-affiliate-luncheon-program-focuses-statistical-significance

【3Deborah G. Mayo 2021 At long last! The ASA President’s Task Force Statement on Statistical Significance and Replicability  https://errorstatistics.com/2021/06/20/at-long-last-the-asa-presidents-task-force-statement-on-statistical-significance-and-replicability/

【4Karen Kafdar 2021 Statistical significance, p-values, and replicability https://errorstatistics.files.wordpress.com/2021/06/kafadar-editorial-2021.pdf

 【5Megan Higgs 2021 Thoughts on the Task Force Statement https://critical-inference.com/thoughts-on-the-task-force-statement/

 【6Andrew Gelman 2021 Thoughts on “The American Statistical Association President’s Task Force Statement on Statistical Significance and Replicability” https://statmodeling.stat.columbia.edu/2021/07/12/thoughts-on-the-american-statistical-association-presidents-task-force-statement-on-statistical-significance-and-replicability/



https://blog.sciencenet.cn/blog-3427112-1304808.html

上一篇:基于测量不确定度的统计质量控制准则被纳入走航式ADCP河流流量测验国际标准ISO:24578:2021(E)
下一篇:科学家真的需要‘统计显著性’和p值吗?
收藏 IP: 104.63.253.*| 热度|

7 李宏翰 尤明庆 钟定胜 宁利中 杨正瓴 李毅伟 张鹰

发表评论 评论 (6 个评论)

IP: 223.68.87.*   回复 | 赞 +1 [3]钟定胜   2021-9-24 09:48
这种讨论非常有价值,一方面该讨论的具体内容本身非常重要,很有价值;另一方面,这种理性的学术讨论本身很有案例价值甚至示范价值,是有关该如何进行科学、理性、礼貌的学术讨论的很好的案例甚至示范。就前者来说,我认为这个问题不能走极端,既不能要求必须不能使用统计显著性检验,也不能仅仅以统计显著性检验作为最终判断的唯一依据,而应将机理分析、机理辨析、逻辑论证、逻辑辨析与统计性检验结合起来进行使用,最终的评价依据应该是:既要有统计性的证据,也要有逻辑上的自洽严谨,在逻辑与实证两方面双重检验、互相验证了,才能去下最终的结论。或者说,这个问题应该反过来进行思考:难道连统计性检验、显著性检验都可以完全不考虑或是完全通过不了的实验分析和实验结论反倒可以被堂而皇之地接受为正确的科学成果么?对这个问题的思辨结果,应该就是前面笔者所提到的,应该要辩证地、全面系统地去看待实验分析结果和统计性显著性检验方法,要逻辑和实证双重严谨和互相验证才行。
回复  谢谢钟老师的评论。基本赞同钟老师的如下观点:“应该要辩证地、全面系统地去看待实验分析结果和统计性显著性检验方法,要逻辑和实证双重严谨和互相验证才行。“未能完全赞同是因为我认为”统计性显著性检验方法“本身还是有方法论的问题。统计分析是必要的,但是”显著性检验“太容易误导了。对于解决实际问题,机理分析应该结合数据的统计分析;机理分析是第一位的,数据统计分析是第二位的。显著性检验很容易造成本末倒置。
2021-9-24 11:511 楼(回复楼主) 赞 +1 | 回复
回复  “机理分析是第一位的,数据统计分析是第二位的。显著性检验很容易造成本末倒置”黄老师的这个观点我完全同意。但是,并不能因‘很容易造成本末倒置’而彻底否定和彻底废止这个方法,只是要非常慎重地去运用这个方法而已。这个方法本身并没有根本性的问题,出现根本性的错误的原因在于使用这个方法的人自己,是使用者自己乱用了这个方法,或是过度地将这个方法当成了金标准甚至唯一的金标准。从实证检验的角度来说,显著性检验仅仅是实证检验的一种方法而已,不是实证检验的全部,不能简单地把显著性检验当成了实证检验的全部。任何统计分析和统计检验(不仅包括显著性检验)都必须首先要有机理分析和逻辑严密,要在使用方法上有充分的自我反思和总体大局观和系统观,否则很容易陷入唯数据却没头脑,只见树木不见森林的思维陷阱之中。
2021-9-24 13:242 楼(回复 1 楼) 赞 +1 | 回复
回复  问题是没有一个使用者会承认乱用了这个方法。而且为了文章能够发表,追求p-值小于0.05成为一种普遍现象。所以改革派才会主张彻底抛弃“显著性检验”。
2021-9-25 07:163 楼(回复 2 楼) 赞 +1 | 回复
IP: 113.13.44.*   回复 | 赞 +1 [2]李宏翰   2021-9-19 11:23
“专题组的声明很重要:与几乎所有方法一样,在统计学和其它领域,假设检验、p 值和可重复性的概念可能会被误解和误用,但它们仍然是科学推理的核心。” “我们需要更多地看到分歧和讨论。”
IP: 110.152.209.*   回复 | 赞 +1 [1]张学文   2021-9-19 10:33
旁观者:关注

1/1 | 总计:3 | 首页 | 上一页 | 下一页 | 末页 | 跳转

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-3-18 04:17

Powered by ScienceNet.cn

Copyright © 2007-2025 中国科学报社

返回顶部