|
通常,人们在科学研究中追求数据的精确,特别是指标的灵敏。如果有谁反对这种追求,估计大家都会起来反对他。孰料,当前处于统计显著性检验争议中心的p值,正是这样一个兼具精确与灵敏的指标。要舍弃或禁绝这样的一个指标,凭直觉判断,一般人都不会赞同。然而,p值被诟病的,也还真是它太精确、太灵敏了——特别是,它与样本量有关,可以被研究者通过扩大样本量而利用它得到显著的结果。
为了解决p值过于灵敏的问题,一种方案是用效应量来衡量一个变量对另一个变量的影响。针对不同的统计检验,有不同的效应量指标,常用的是Cohen’s d和η2(Cohen, 1988)。其中,d = 2t/√df(df 开平方),t是t检验的值,df是自由度;η2 =Fdfb / (Fdfb + dfw),F是F检验的值,dfb和dfw分别是组间自由度与组内自由度——通常,dfw也就是误差的自由度dfe(简单而言,dfb和dfw就是F检验的分子自由度与分母自由度)。
在一般的统计显著性检验报告中,都会给出各组(组别)的样本量、均值M与标准差SD、t值或F值、df和p值。据此,完全可以计算效应量的统计量d或η2。
那些认为没必要使用p值的人,所依据的正是上述事实,即由统计显著性检验结果,可以计算出效应量,因此,报告了效应量,还报告p值就显得多余。其实,由一些统计量能够计算出另外的统计量,也并没有足够的理由说明不能同时呈现这些统计量。例如,由组别、样本量,就可以计算出自由度;由均值、标准差、自由度,就可以计算出标准误,就可以计算出常见的统计检验的统计量(例如,t值或F值),但是,还没有人认为呈现了统计检验的统计量,就没必要呈现组别、样本量、均值、标准差的。
下面用一项研究实例来说明p值与效应量(以η2为例)之间的对应关系,以及二者之间的差异问题。
研究者考察黑白背景或灰色背景对道德判断的影响,实验材料是6个社会问题(色情作品、通奸、使用毒品、乱丢垃圾、吸烟、使用亵渎言语),要求被试用-5(=非常不道德)至+5(=非常道德)的量尺,评定它们的道德性。研究者预测,受黑白视觉对比启动将会比无此启动导致更为极端的道德判断(Zarkadi & Schnall, 2013)。
为了评估道德判断的极化情况,研究者计算出一个偏差分数的指标,即被试判断的结果距离量尺中点的情况。结果表明,黑白条件下的偏差分数均值(M = 2.50, SD = .96)大于灰色条件下的(M = 2.05, SD = .91),F(1,128) = 7.35, p = .008, η2 = .05。当研究者对6个题目分别分析时,它们显示了相同的一般模式,其中,吸烟(F(1,128) = 5.69, p = .02, η2 = .04)、使用毒品(F(1,128) = 4.31, p = .04, η2 = .03)、通奸(F(1,128) = 8.34, p = .005, η2 = .06)的启动条件的主效应显著。此外,两种条件的平均严厉性评定差异不显著(黑白条件:M = -1.79, SD = 1.57; 灰色条件:M = -1.05, SD = 1.32),F(1,128) = 1.05, p = .31。
如前所述,由文中报告的统计显著性检验结果,可以手工计算效应量(η2)。这里列出相应的情况:
(1)F(1,128) = 7.35, p = .008, 计算可得,η2 = .0543,保留两位小数,即η2 = .05,与文中报告的数据一样。
(2)F(1,128) = 5.69, p = .02,计算可得,η2 = .0426,即η2 = .04(与文中一样)。
(3)F(1,128) = 4.31, p = .04,计算可得,η2 = .0326,即η2 = .03(与文中一样)。
(4)F(1,128) = 8.34, p = .005,计算可得,η2 = .0612,即η2 = .06(与文中一样)。
(5)F(1,128) = 1.05, p = .31,计算可得,η2 = .0081,即η2 = .01(文中未呈现)。
比较上述p值和效应量η2,很容易发现,p值比效应量η2灵敏多了。对于同样的F检验(即dfb和dfw都相同),当p = .31、p = .04、p = .02、p = .008、p = .005时,对应的η2 = .01、η2 = .03、η2 = .04、η2 = .05、η2 = .06。特别地,当p值由不显著的.31变化到显著的.04时,有明显不同,而η2仅由.01变化到.03,不太明显;当p值由显著的.02变化到极显著的.005时,η2仅由.04变化到.06。
结合实验材料,亦可清楚,p值和效应量η2两个指标,能够起到相辅相成的作用。例如,黑白对比背景会极化道德判断,这种极化与具体社会问题有关,同时,对通奸判断的影响(p = .005, η2 = .06)比对吸烟判断的影响(p = .02, η2 = .04)更明显——此时,灵敏的p值让人印象深刻。尤其重要的是,黑白对比背景对道德判断严厉性的效应量极小(η2 = .0081),从而,可以让研究者明白,不要再用严厉性考察黑白对比对道德判断的影响了,即使扩大样本量,提高效力,也是没有多大意义的。
当用η2作为效应量的统计量时,Cohen(1988)把0.10、0.30、0.50分别作为小效应量、中效应量和大效应量的标准。因此,例文的研究显示,黑白对比对道德判断极化的影响,效应量均未达到小效应量的标准。这说明,黑白对比对道德判断的影响是颇为微妙的,很可能是让人难以察觉的——虽然影响不大,但是的确存在。那么,对于其他研究者来说,如果想重复这一研究,需要注意提高效力(比如,增大样本量),否则,可能得不到显著的结果。这进一步提示,心理学研究既报告p值又报告效应量,不是多此一举,而是相得益彰。
参考文献
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd Ed.). Hillsdale, NJ: Lawrence Earlbaum Associates.
Zarkadi, T., & Schnall, S. (2013). “Black and white” thinking: Visual contrast polarizes moral judgment. Journal of Experimental Social Psychology, 49, 355-359.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-20 00:39
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社