|
从有关材料来看,关于推断统计,具体地说,就是据以得出统计结论的统计显著性检验,更进一步地,就是p值问题,近些年来引起了激烈争论。正如有关专家指出的,这种争论在国内反响不大。我此前在博文中涉及过相关问题,也推测了可能的原因。
相对而言,我对这个问题还算比较关注——这缘于我1998年为讲授“心理学研究方法”而学习的一本英文教材,以及2007年为讲授“心理学高级研究方法”而学习的另一本英文教材。
由第一本英文教材,我懂得了科学研究的基础知识,主要包括科学研究的目的、科学研究的过程,当然,也包括科学研究的工作假设。相关的学习体会,我认为值得分享,就陆续在博文中介绍出来。
由第二本英文教材,我懂得了效应量和效力的概念,知道了统计显著性检验的争论,特别是一些专家认为,应当彻底抛弃统计显著性检验。我在给研究生上课的时候,也用例子验证并宣传有关专家的观点:研究结果中报告了效应量,那么,再呈现统计显著性检验的结果,往好了说,不过是冗余的内容,往坏了说,就是误导他人的信息。
此外,我1999年从American Psychologist上看到一篇文章,内容是美国心理学会科学事务委员会组织的统计推断专门小组的报告。该文的意图是,建议美国心理学会的期刊编辑,要求稿件的作者在统计方法方面遵循一些规则。特别地,该文指出,一个二分的接受或拒绝决断,不如报告实际的p值或更好的置信区间;永远不要使用“接受零假设”这种糟糕的表述;在报告p值时,提供效应量的估计量。
实际上,目前的心理学研究论文,大致按照该文的建议来组织材料,特别是研究结果,即,通常先报告统计显著性检验的情况,也就是χ2值、t值、F值(均含自由度)等,后面是相伴的实际概率(p值),以及效应量。同时,在方法部分,也需要报告确定样本量的依据。
当然,心理学也面临着研究的可重复性危机问题。其实,可重复性危机才是让统计显著性检验问题变得愈加突出的推手。显然,可重复性危机比统计显著性检验问题复杂多了,那些造成可重复性危机的研究者可能操纵了统计显著性检验。
我没有系统学习统计学的专业背景,仅仅学习过心理统计或心理统计学,基本上就是应用某些统计技术或方法,因此,对统计学问题的认识也是浅表的。首先,我承认当前流行的统计显著性检验存在问题,包括检验本身可能的问题和使用方面存在的问题,当然,主要是使用方面的问题。下面结合若干常见的抛弃统计显著性检验的论据,再浅谈几点个人看法。
其一,显著性检验的起点,是费舍做的女士品茶实验。有些专家可能认为被大家广泛使用的统计显著性检验,居然起于这样的生活小插曲,很不严肃,很不严谨,很不科学。然而,科学研究受到生活小事启发的事例较多,著名的有浮力理论的起点是洗澡、万有引力理论的起点是苹果砸头、苯酚结构理论的起点只是个梦。统计显著性检验的起点是女士品茶又何妨呢?科学研究中,起点是日常生活小事,由此获得灵感,通常不仅不会被低看,而且更会被当成美谈。
其二,现在的零假设显著性检验,是把费舍的显著性检验同奈曼与皮尔逊假设检验组合起来的,而费舍与奈曼、皮尔逊的统计检验思想并不相同,他们在个人关系和学术关系上均有矛盾。这样的事实,也不一定能够说明无法把他们的统计检验思想统合起来。表面上矛盾的事物、技术或方法,或许在更高层次上就能和谐地统一起来。众所周知,光的波动性与粒子性原来也是被认为矛盾的,后来就被组合在一起,成为光的波粒二相性。
其三,p值没有现实的物理对应。这是事实,也是理所当然的,因为p值表示概率值。概率值本身就是无单位的,也就是无量纲的,从而,这不是p值的缺点,而是优点,正如其他无量纲的值那样,例如,标准分数、效应量、效力。至于概率概念本身就存在争议,那是另外一个问题。数学研究,至少有一部分,是不需要有现实的物理对应。例如,在现实当中,只有两两垂直的三维空间,而在数学上,可以有两两垂直的N(N>3)维空间。
其四,研究者会根据显著性检验的p值小于某个阈值(比如,0.05或0.01),就认为得到了重要的科学发现。实际上,科学研究只能证伪,不能证实。这是研究者应当具备的科学素养,也说明科学研究既具有长期性,又具有阶段性。合格的科学研究者应当清楚,任何一项研究,甚至系列研究,都不可能肯定地得出终极结论。然而,每项研究,又都是可能得出阶段性结论的。尤其重要的,科学研究过程还需要规范性、易行性。因此,遵循统计显著性检验程序,进行科学研究,是不少领域研究者现在认可的规范而可行的研究路线。至于某些研究者操纵统计显著性检验,那是学术不端,不在这里的讨论范围。
其五,假定的经典例子有误。这个例子是(有删改,数据是照抄的):
给某种作物施3种不同的化肥(3种处理A、 B、 C,样本容量30,即每种化肥的产出有10个数据)。数据分析结果(95%置信区间)为:处理A(7.8,12.0),处理B(9.4,13.6),处理C(12.2,16.4)。按照零假设显著性检验的标准,可以得出处理C比处理A的平均产出高,无法判断处理B是否比处理A的平均产出高。假如这些数据是根据样本容量为15得出的(即每种化肥的产出有5个数据),数据分析结果(95%置信区间)则变成了:处理A(6.6,13.2),处理B(8.2,14.8),处理C(11.0,17.6),这下子仅仅因为样本容量变小了,所有的比较都成了统计上不显著的了,所以,不论是处理C比较处理A还是处理B比较处理A,都不能得出一个确定的结果。同样的,假如这些数据是根据样本容量为300得出的(即每种化肥的产出有100个数据),数据分析结果(95%置信区间)又变成了:处理A(9.2,10.6),处理B(10.8,12.2),处理C(13.6,15.0),这时不论是处理C比较处理A,还是处理B比较处理A,都有了统计显著性的差异结果。[1]
上述错误在于,把不同样本的统计效力看成是相同的了。显然,样本量不同,统计效力是不同的。粗浅地说,样本量不同,获得的数据质量也不同。也就是说,上述材料中的3组置信区间,应该是基于同样的一组均值而假设的。样本量不同,误差也不同,差异显著性检验的结果不同,这是自然的,不能由此否定统计显著性检验方法。
总之,关于统计显著性检验,现在存在争论,我认为这是好事,至少表示有责任的研究者在思考一些基本问题、重要问题。不过,我目前也不赞同简单地放弃统计显著性检验,毕竟,那些放弃理由并不能成为强有力的依据。
最后,本人愿意重复此前一篇博文题目中的后半句,“保留p值又何妨”?
注释
[1] 谢钢. (2022). 统计显著性问题的历史由来及最新进展. https://blog.sciencenet.cn/blog-3503579-1321101.html
致谢
在形成本文思想的过程中,本人由谢钢先生、黄河宁先生的相关博文获得较多教益,不少素材就是直接来自两位的博文。特此致谢!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 04:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社