heninghuang的个人博客分享 http://blog.sciencenet.cn/u/heninghuang

博文

科学家真的需要‘统计显著性’和p值吗?

已有 4608 次阅读 2021-10-3 12:08 |个人分类:统计推断与概率|系统分类:观点评述

2019年3月,800多位来自世界各地的科学家和统计学家在《Nature》上发布一项宣言,呼吁‘摒弃整个统计显著性概念’【1】也是2019年3月,美国统计学家出版了一个讨论统计显著性的专辑。该期刊主编在这期专辑的社论中建议在统计分析中消除‘p值<0.05’和统计显著性的使用”;“不要、不要用‘统计显著性’”【2】。然而,今年7月,统计了由15位资深美国统计学家署名的‘美国统计协 (ASA) 主席关于统计显著性和可重复性专题组的声明’【3】。 该‘声明’的目的之一是“明正确用的和解 P 显著检验是不放弃的重要工具”。专题组的声明发表后立即遭到改革派学者的批评。Megan Higgs 4】在她的博客中写道:“…需要更多地看到分歧和讨论,而不是看到一个非常一的声明,声明不承造成问题的固有混乱和微差。”

显然,对于是否摒弃或保留‘统计显著性’和 p 值这个问题,顶级统计学家持相反的立场。 保守派、改革派、和改良派唯一能够达成的共识是:统计显著性检验和p 值容易被误解和滥用。然而,在实际应用中,没有一个使用者会承认误解或滥用了‘统计显著性’和 p 值。并且,为了论文能够发表,追求‘p值<0.05’成为一种普遍现象。无法辨别和防止误解或滥用可能是改革派主张“在统计分析中消除‘p值<0.05’和统计显著性的使用”的原因之一。

如同其它统计学方法一样,统计显著性检验和p 值应该是科学家进行科学研究的‘工具’。但是,科学家真的需要‘统计显著性’和 p 值吗?

需要强调的是,统计显著性’不等于‘科学显著性’。对于某项研究成果,科学家需要评估的是其‘科学显著性’,而非‘统计显著性’。p 值本身的物理意义不甚明确,它的大小不能够表示‘科学显著性’。下面给出一个实例来说明。

《概率论及数理统计》第二版(下)【5】给出了一个t检验的范例。设有甲、乙两种安眠药,考虑比较它们的治疗效果。现独立观察20个病者,其中10人服甲药,另10人服乙药。下表显示睡眠延长时数。

1

2

3

4

5

6

7

8

9

10

甲(X

1.9

0.8

1.1

0.1

0.1

4.4

5.5

1.6

4.6

3.4

乙(Y

0.7

-1.6

-0.2

-1.2

-0.1

3.4

3.7

0.8

0

2

假定 和 分别服从均值分别为a1 和a2,方差相同的正态分布。试问这两种药物的疗效有无显著性的差异?设H0:a1=a2。t检验计算结果是:t18=1.90t18(0.05)=2.10。由于1.90<2.10(对应于p值=0.07>0.05),不能否定H0因而认为这两种药物的疗效没有显著性的差异【5】。

然而,以上t检验给出的结果是‘统计显著性’,不是‘科学显著性’。根据这个t检验结果认为这两种药物的疗效没有显著性差异的结论是有问题的。

对于甲、乙两种药物的疗效:即‘科学显著性’,可以根据两个统计量评估:(1)平均睡眠延长时数差,即‘效应量’(2)甲药比乙药更有效的概率,即 P(X>Y)6】。这两个统计量具有明确的物理意义。甲药平均睡眠延长时数为2.35小时,而乙药平均睡眠延长时数为0.75小时,两者相差1.6小时。甲药比乙药更有效的概率为72.6%。根据这两个统计量,我们可以得出‘科学推断’(不是统计推断):甲药比乙药疗效好。

对这个教科书范例的分析表明:t检验和p值并不能够有助于科学家进行正确的‘科学推断’。

参考文献及相关链接:

1】Scientists rise up against statistical significance, https://www.nature.com/articles/d41586-019-00857-9

2 Wasserstein R L, Schirm A L, and Lazar N A, 2019. Editorial: Moving to a World Beyond “p < 0.05”, The American Statistician, Vol. 79. https://www.tandfonline.com/doi/full/10.1080/00031305.2019.1583913

3】The ASA President’s Task Force Statement on Statistical Significence and Replicability https://errorstatistics.files.wordpress.com/2021/06/presidents-task-force-statement.pdf

4】Megan Higgs 2021 Thoughts on the Task Force Statement https://critical-inference.com/thoughts-on-the-task-force-statement/

5】梁之舜、邓集贤、杨维权、司徒荣、邓永录编著,1988《概率论及数理统计》第二版(下),中山大学数学系,高等教育出版社。

【6】Huang H 2021 Exceedance probability analysis: a practical and effective alternative to t-tests, preprint, ResearchGate, https://www.researchgate.net/publication/348692325_Exceedance_probability_analysis_a_practical_and_effective_alternative_to_t-tests



https://blog.sciencenet.cn/blog-3427112-1306617.html

上一篇:关于统计显著性和p值的大辩论:保守派最新的反击与改革派的回应
下一篇:统计学改革:挑战与机遇
收藏 IP: 104.63.253.*| 热度|

12 檀成龙 李宏翰 宁利中 范振英 李毅伟 张鹰 赵凤光 陈蕴真 李侠 王从彦 许培扬 谢钢

发表评论 评论 (8 个评论)

IP: 104.63.253.*   回复 | 赞 +1 [3]黄河宁   2022-1-12 12:18
在ResearchGate上的相关讨论:“Do scientists really need statistical significance and p-values?” https://www.researchgate.net/post/Do_scientists_really_need_statistical_significance_and_p-values
IP: 113.76.171.*   回复 | 赞 +1 [2]檀成龙   2021-10-17 10:21
哪些相关关系是因果关系?哪些相关关系不是因果关系?好像很难把握。请关注《请教一个可能很简单、也可能很复杂的问题》,网址是http://blog.sciencenet.cn/home.php?mod=space&uid=1458267&do=blog&id=1308196,请您指教。
回复  相关分析不能够用来确定因果关系。因果关系只能通过机理分析来确定。机理分析(方法)取决于具体问题或学科。例如在水力学中,量纲分析是常用的机理分析方法。
2021-12-2 08:481 楼(回复楼主) 赞 +1 | 回复
IP: 220.173.127.*   回复 | 赞 1 +1 [1]李宏翰   2021-10-3 16:11
对于文中所举例子,可以有两种处理方式:其一,把对应的显著性检验结果视为边缘显著(0.05 < p < 0.10),描述为“这两种药物的疗效倾向于存在差异”或”这两种药物的疗效趋于存在差异“;其二,也是现在更好的表述,”这两种药物的疗效存在显著差异,t(18) = 1.90,p = 0.07,d = 0.90。”
回复  李老师,谢谢评论。这里d = 0.90指的是什么?
2021-10-4 13:051 楼(回复楼主) 赞 +1 | 回复
回复  黄老师好:这里的d是效应量(effect size),计算公式是d=2t/√df。根据Cohen的标准,d值为0.2、0.5、0.8分别是小效应量、中效应量、大效应量的标准。例中,d = 0.90,已经是大效应量了,即说明两种药物的疗效是不同的。
2021-10-5 17:322 楼(回复 1 楼) 赞 +1 | 回复
回复  谢谢回复。是的,如果用Cohen‘s d来评估,两种药物的疗效是不同的。原文范例仅仅进行了t检验,没有采用效用量进行评估,也许是这个教材太老了吧,似乎是最近几年才比较注重效用量。
2021-10-6 08:103 楼(回复 2 楼) 赞 +1 | 回复
回复  效应量在心理学中用得较多,Cohen就是一名心理学家。
2021-10-6 08:504 楼(回复 3 楼) 赞 +1 | 回复

1/1 | 总计:3 | 首页 | 上一页 | 下一页 | 末页 | 跳转

扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-3-18 11:57

Powered by ScienceNet.cn

Copyright © 2007-2025 中国科学报社

返回顶部