moralscience的个人博客分享 http://blog.sciencenet.cn/u/moralscience

博文

合理使用效应量,保留p值又何妨? 精选

已有 14944 次阅读 2021-5-9 23:57 |系统分类:科研笔记

关于统计显著性检验,西方心理学界存在争议Cohen, 1994)。近些年来,其他领域也有研究者主张放弃统计显著性检验,不要使用pAmrhein, Greenland, & McShane, 2019。其实,p值早就声名狼藉,甚至被认为是决策失误、可重复性危机的罪魁祸首(Ziliak & McCloskey, 2008)。与国外的激烈争论相比,国内显得非常平静。这并不是说国内没有注意到相关问题,可能的情况是,国内的研究者对此没有更多的真知卓见,也不好参与讨论

统计显著性检验究竟是怎么一回事?尤其是那个饱受非议的p值又是怎么一回事?如果不把这些问题搞清楚,简单地说保留或放弃统计显著性检验、不要使用p值,可能都是虚妄的。

通俗地说,统计显著性检验(Statistical Significance testing),就是用统计技术说明得到一个研究结果的罕见程度。英文的significance被译成“显著性”,其实,我们在学习英文时,对significance的注释是“重要性”。西方早有文献指出,significance这个词容易误导人,它在这里是rareness的意思,即“罕见性”(Kiess & Blooomquist, 1985)。同时,又要清楚,统计显著性检验实际检验的是零假设,而非研究假设。以参数检验为例,统计显著性检验时,需要对照相应检验统计量(比如,tF)的理论抽样分布,查看实际得到的统计量(比如,t值和F值)对应的理论抽样分布的概率。如果这个概率(p)很小(比如,0.05),就表示在零假设前提下,得到这样结果的概率很小,从而认为不太可能出现这一结果,因此拒绝零假设,接受零假设的对立面——备择假设。许多时候,备择假设与研究假设可以对应起来,所以,研究者认为研究结果支持自己的研究假设。

由上可知,统计显著性检验的参照标准是检验统计量的理论抽样分布,而这样的分布与自由度有关,体现在实际研究中,就是能否得到一个显著的检验结果,与样本量和研究分组有关——例如,F检验有分子自由度与分母自由度,其中,分子自由度是由组数决定的,分母自由度是由样本量决定的。总体而言,自由度越大,越容易得到一个显著的检验结果。于是,可能出现一种现象,即,研究者为了得到统计显著的结果而随意扩大样本量。与此相关的直接后果是,一项研究的统计检验结果是显著的,然而,这样的结果没有多大的理论意义和/或现实意义。

在此背景下,西方心理学家提出了效应量和效力的概念Cohen, 1994。简单而言,效应量就是自变量对因变量的效应大小,效力就是一个统计显著性检验得到显著结果的概率。如果要求研究者在论文中不仅报告统计显著性检验结果,而且报告效力和效应量,那么,就能知道相应研究考察的自变量对因变量究竟有多大的影响,而不是只知道有无影响。至于一个自变量对因变量的影响达到什么程度是必须要考虑的,这取决于研究者的研究问题,特别是研究目的。不可否认,许多时候,微小的因素也值得甚至必须考察和确定。

显然,有了效应量和效力的信息,就可以知道得到统计检验显著的结果,是自变量对因变量确有重要影响,还是样本量大在起作用。同时,对于统计检验得到不显著的结果,也照样可以分析,这是自变量对因变量确实没有重要影响,还是由于样本量不足所致。无论如何,根据效应量和效力信息,就可以避免一些研究者归因为统计显著性检验以及p的过错;有了效应量信息,一项研究的意义和价值其实已经很好地体现出来了。

因此,统计显著性检验及对应的p值是无错又无罪的,招致一些研究者的批评与责难,不过是由于存在许多研究者对统计显著性检验和p的误解与误用而已。p值无非是个工具,被人误解、误用乃至滥用,是使用者的问题,而非p值本身的问题。这正如眼下的手机,各色人等,特别是大中小学生深受其害者甚众,但是,谁也不能否定手机给人类生活带来的便利,估计也还没有人提出要禁绝手机。

所以,只要能够合理使用效应量这个统计量(目前的心理学研究,基本都会报告效应量),在研制出更好的判定指标之前,保留p值又何妨呢?特别地,即使再提出新的判定指标(比如q值——我杜撰的词语,免得用现实中已有的指标存在中伤之嫌),又怎么知道一定会比p好呢?何况,谁能保证不会形成类似的q值崇拜呢?

致谢:感谢余国志先生提供的参考资料线索。在准备本文过程中,也阅读了黄河宁先生的有关博文,一并致谢!

参考文献

Amrhein, V., Greenland, S., & McShane, B. (2019). Retire statistical significance. Nature, 567, 305-307.

Cohen, J. (1994). The earth is round (p < 0.05). American Psychologist, 49997–1003.

Hardwicke, T. E., & Ioannidis, J. P. A. (2019). Petitions in scientific argumentation: Dissecting the request to retire statistical significance. European Journal of Clinical Investigation, 49, e13162. 

Kiess, H., & Bloomquist, D. W. (1985). Psychological Research Methods: A Conceptual Approach. Boston, MA: Allyn and Bacon, Inc.

Ziliak, S. T., & McCloskey, D. N. (2008). The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and Lives. Ann Arbor, MI: The University of Michigan Press.



https://blog.sciencenet.cn/blog-2619783-1285766.html

上一篇:心理学家应当知道的十位统计学家
下一篇:状态变量与特质变量:心理学变量的一种新分法
收藏 IP: 116.9.46.*| 热度|

13 宁利中 余国志 黄河宁 郑永军 王凌峰 王兴 钟定胜 孟佳 杨正瓴 孙颉 范会勇 张鹰 陆仲绩

该博文允许注册用户评论 请点击登录 评论 (6 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 01:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部