|
关于统计显著性检验,西方心理学界存在争议(Cohen, 1994)。近些年来,其他领域也有研究者主张放弃统计显著性检验,不要使用p值(Amrhein, Greenland, & McShane, 2019)。其实,p值早就声名狼藉,甚至被认为是决策失误、可重复性危机的罪魁祸首(Ziliak & McCloskey, 2008)。与国外的激烈争论相比,国内显得非常平静。这并不是说国内没有注意到相关问题,可能的情况是,国内的研究者对此还没有更多的真知卓见,也不好参与讨论。
统计显著性检验究竟是怎么一回事?尤其是那个饱受非议的p值又是怎么一回事?如果不把这些问题搞清楚,简单地说保留或放弃统计显著性检验、不要使用p值,可能都是虚妄的。
通俗地说,统计显著性检验(Statistical Significance testing),就是用统计技术说明得到一个研究结果的罕见程度。英文的significance被译成“显著性”,其实,我们在学习英文时,对significance的注释是“重要性”。西方早有文献指出,significance这个词容易误导人,它在这里是rareness的意思,即“罕见性”(Kiess & Blooomquist, 1985)。同时,又要清楚,统计显著性检验实际检验的是零假设,而非研究假设。以参数检验为例,统计显著性检验时,需要对照相应检验统计量(比如,t和F)的理论抽样分布,查看实际得到的统计量(比如,t值和F值)对应的理论抽样分布的概率。如果这个概率(p值)很小(比如,0.05),就表示在零假设前提下,得到这样结果的概率很小,从而认为不太可能出现这一结果,因此拒绝零假设,接受零假设的对立面——备择假设。许多时候,备择假设与研究假设可以对应起来,所以,研究者认为研究结果支持自己的研究假设。
由上可知,统计显著性检验的参照标准是检验统计量的理论抽样分布,而这样的分布与自由度有关,体现在实际研究中,就是能否得到一个显著的检验结果,与样本量和研究分组有关——例如,F检验有分子自由度与分母自由度,其中,分子自由度是由组数决定的,分母自由度是由样本量决定的。总体而言,自由度越大,越容易得到一个显著的检验结果。于是,可能出现一种现象,即,研究者为了得到统计显著的结果而随意扩大样本量。与此相关的直接后果是,一项研究的统计检验结果是显著的,然而,这样的结果没有多大的理论意义和/或现实意义。
在此背景下,西方心理学家提出了效应量和效力的概念(Cohen, 1994)。简单而言,效应量就是自变量对因变量的效应大小,效力就是一个统计显著性检验得到显著结果的概率。如果要求研究者在论文中不仅报告统计显著性检验结果,而且报告效力和效应量,那么,就能知道相应研究考察的自变量对因变量究竟有多大的影响,而不是只知道有无影响。至于一个自变量对因变量的影响达到什么程度是必须要考虑的,这取决于研究者的研究问题,特别是研究目的。不可否认,许多时候,微小的因素也值得甚至必须考察和确定。
显然,有了效应量和效力的信息,就可以知道得到统计检验显著的结果,是自变量对因变量确有重要影响,还是样本量大在起作用。同时,对于统计检验得到不显著的结果,也照样可以分析,这是自变量对因变量确实没有重要影响,还是由于样本量不足所致。无论如何,根据效应量和效力信息,就可以避免一些研究者归因为统计显著性检验以及p值的过错;有了效应量信息,一项研究的意义和价值其实已经很好地体现出来了。
因此,统计显著性检验及对应的p值是无错又无罪的,招致一些研究者的批评与责难,不过是由于存在许多研究者对统计显著性检验和p值的误解与误用而已。p值无非是个工具,被人误解、误用乃至滥用,是使用者的问题,而非p值本身的问题。这正如眼下的手机,各色人等,特别是大中小学生深受其害者甚众,但是,谁也不能否定手机给人类生活带来的便利,估计也还没有人提出要禁绝手机。
所以,只要能够合理使用效应量这个统计量(目前的心理学研究,基本都会报告效应量),在研制出更好的判定指标之前,保留p值又何妨呢?特别地,即使再提出新的判定指标(比如q值——我杜撰的词语,免得用现实中已有的指标存在中伤之嫌),又怎么知道一定会比p值好呢?何况,谁能保证不会形成类似的q值崇拜呢?
致谢:感谢余国志先生提供的参考资料线索。在准备本文过程中,也阅读了黄河宁先生的有关博文,一并致谢!
参考文献
Amrhein, V., Greenland, S., & McShane, B. (2019). Retire statistical significance. Nature, 567, 305-307.
Cohen, J. (1994). The earth is round (p < 0.05). American Psychologist, 49, 997–1003.
Hardwicke, T. E., & Ioannidis, J. P. A. (2019). Petitions in scientific argumentation: Dissecting the request to retire statistical significance. European Journal of Clinical Investigation, 49, e13162.
Kiess, H., & Bloomquist, D. W. (1985). Psychological Research Methods: A Conceptual Approach. Boston, MA: Allyn and Bacon, Inc.
Ziliak, S. T., & McCloskey, D. N. (2008). The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and Lives. Ann Arbor, MI: The University of Michigan Press.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 00:30
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社