moralscience的个人博客分享 http://blog.sciencenet.cn/u/moralscience

博文

p值它太过灵敏,效应量长善救失 精选

已有 14629 次阅读 2021-5-11 23:57 |系统分类:科研笔记

通常,人们在科学研究中追求数据的精确,特别是指标的灵敏。如果有谁反对这种追求,估计大家都会起来反对他。孰料,当前处于统计显著性检验争议中心的p值,正是这样一个兼具精确与灵敏的指标。要舍弃或禁绝这样的一个指标,凭直觉判断,一般人都不会赞同。然而,p值被诟病的,也还真是它太精确、太灵敏了——特别是,它与样本量有关,可以被研究者通过扩大样本量而利用它得到显著的结果。

为了解决p值过于灵敏的问题,一种方案是用效应量来衡量一个变量对另一个变量的影响。针对不同的统计检验,有不同的效应量指标,常用的是Cohen’s dη2Cohen, 1988)。其中,d = 2t/dfdf 开平方tt检验的值,df是自由度;η2 =Fdfb / (Fdfb + dfw)FF检验的dfbdfw分别是组间自由度与组内自由度——通常,dfw也就是误差的自由度dfe(简单而言,dfbdfw就是F检验的分子自由度与分母自由度)。

在一般的统计显著性检验报告中,都会给出各组(组别)的样本量、均值M与标准差SDt值或F值、dfp值。据此,完全可以计算效应量的统计量dη2

那些认为没必要使用p值的人,所依据的正是上述事实,即由统计显著性检验结果,可以计算出效应量,因此,报告了效应量,还报告p值就显得多余。其实,由一些统计量能够计算出另外的统计量,也并没有足够的理由说明不能同时呈现这些统计量。例如,由组别、样本量,就可以计算出自由度;由均值、标准差、自由度,就可以计算出标准误,就可以计算出常见的统计检验的统计量(例如,t值或F),但是,还没有人认为呈现了统计检验的统计量,就没必要呈现组别、样本量、均值、标准差的。

下面用一项研究实例来说明p与效应量(以η2为例)之间的对应关系,以及二者之间的差异问题。

研究者考察黑白背景或灰色背景对道德判断的影响,实验材料是6个社会问题(色情作品、通奸、使用毒品、乱丢垃圾、吸烟、使用亵渎言语),要求被试用-5=非常不道德)至+5=非常道德)的量尺,评定它们的道德性。研究者预测,受黑白视觉对比启动将会比无此启动导致更为极端的道德判断Zarkadi & Schnall, 2013

为了评估道德判断的极化情况,研究者计算出一个偏差分数的指标,即被试判断的结果距离量尺中点的情况结果表明,黑白条件下的偏差分数均值M = 2.50, SD = .96)大于灰色条件下的(M = 2.05, SD = .91),F(1,128) = 7.35, p = .008, η2 = .05。当研究者6个题目分别分析时,它们显示了相同的一般模式,其中,吸烟(F(1,128) = 5.69, p = .02, η2 = .04)、使用毒品(F(1,128) = 4.31, p = .04, η2 = .03)、通奸(F(1,128) = 8.34, p = .005, η2 = .06)的启动条件的主效应显著。此外,两种条件的平均严厉性评定差异不显著(黑白条件:M = -1.79, SD = 1.57; 灰色条件:M = -1.05, SD = 1.32),F(1,128) = 1.05, p = .31

如前所述,由文中报告的统计显著性检验结果,可以手工计算效应量η2这里列出相应的情况:

1F(1,128) = 7.35, p = .008, 计算可得,η2 = .0543保留两位小数,η2 = .05,与文中报告的数据一样

2F(1,128) = 5.69, p = .02计算可得,η2 = .0426,即η2 = .04(与文中一样)

3F(1,128) = 4.31, p = .04计算可得,η2 = .0326,即η2 = .03(与文中一样)。

4F(1,128) = 8.34, p = .005计算可得,η2 = .0612,即η2 = .06(与文中一样)

5F(1,128) = 1.05, p = .31,计算可得,η2 = .0081,即η2 = .01(文中未呈现)。

比较上述p值和效应量η2很容易发现,p值比效应量η2灵敏多了。对于同样的F检验(即dfbdfw都相同),当p = .31p = .04p = .02p = .008p = .005时,对应的η2 = .01η2 = .03η2 = .04η2 = .05η2 = .06特别地,当p值由不显著的.31变化到显著的.04时,有明显不同,而η2仅由.01变化到.03,不太明显;当p值由显著的.02变化到极显著的.005时,η2仅由.04变化到.06

结合实验材料,亦可清楚,p值和效应量η2两个指标,能够起到相辅相成的作用。例如,黑白对比背景会极化道德判断,这种极化与具体社会问题有关,同时,对通奸判断的影响(p = .005, η2 = .06比对吸烟判断的影响(p = .02, η2 = .04更明显——此时,灵敏的p值让人印象深刻。尤其重要的是,黑白对比背景对道德判断严厉性的效应量极小(η2 = .0081),从而,可以让研究者明白,不要再用严厉性考察黑白对比对道德判断的影响了,即使扩大样本量,提高效力,也是没有多大意义的。

当用η2作为效应量的统计量时,Cohen(1988)0.10、0.30、0.50分别作为小效应量、中效应量和大效应量的标准。因此,例文的研究显示,黑白对比对道德判断极化的影响,效应量均未达到小效应量的标准。这说明,黑白对比对道德判断的影响是颇为微妙的,很可能是让人难以察觉的——虽然影响不大,但是的确存在。那么,对于其他研究者来说,如果想重复这一研究,需要注意提高效力(比如,增大样本量),否则,可能得不到显著的结果。这进一步提示,心理学研究既报告p值又报告效应量,不是多此一举,而是相得益彰。

参考文献

Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd Ed.). Hillsdale, NJ: Lawrence Earlbaum Associates. 

Zarkadi, T., & Schnall, S. (2013). “Black and white” thinking: Visual contrast polarizes moral judgment. Journal of Experimental Social Psychology, 49, 355-359.



http://blog.sciencenet.cn/blog-2619783-1286084.html

上一篇:状态变量与特质变量:心理学变量的一种新分法
下一篇:不用实验,照样可以进行因果研究

15 李毅伟 张晓良 范会勇 郑永军 王兴 彭振华 陆仲绩 尤明庆 刘秀梅 胡大伟 杨正瓴 黄河宁 钟定胜 张鹰 帅凌鹰

该博文允许注册用户评论 请点击登录 评论 (6 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-9-27 12:11

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部