博文

p值它太过灵敏，效应量长善救失精选

已有 22573 次阅读 2021-5-11 23:57 |系统分类:科研笔记

通常，人们在科学研究中追求数据的精确，特别是指标的灵敏。如果有谁反对这种追求，估计大家都会起来反对他。孰料，当前处于统计显著性检验争议中心的p值，正是这样一个兼具精确与灵敏的指标。要舍弃或禁绝这样的一个指标，凭直觉判断，一般人都不会赞同。然而，p值被诟病的，也还真是它太精确、太灵敏了——特别是，它与样本量有关，可以被研究者通过扩大样本量而利用它得到显著的结果。

为了解决p值过于灵敏的问题，一种方案是用效应量来衡量一个变量对另一个变量的影响。针对不同的统计检验，有不同的效应量指标，常用的是Cohen’s d和η²（Cohen, 1988）。其中，d = 2t/√df（df 开平方），t是t检验的值，df是自由度；η² =Fdf_b / (Fdf_b + df_w)，F是F检验的值，df_b和df_w分别是组间自由度与组内自由度——通常，df_w也就是误差的自由度df_e（简单而言，df_b和df_w就是F检验的分子自由度与分母自由度）。

在一般的统计显著性检验报告中，都会给出各组（组别）的样本量、均值M与标准差SD、t值或F值、df和p值。据此，完全可以计算效应量的统计量d或η²。

那些认为没必要使用p值的人，所依据的正是上述事实，即由统计显著性检验结果，可以计算出效应量，因此，报告了效应量，还报告p值就显得多余。其实，由一些统计量能够计算出另外的统计量，也并没有足够的理由说明不能同时呈现这些统计量。例如，由组别、样本量，就可以计算出自由度；由均值、标准差、自由度，就可以计算出标准误，就可以计算出常见的统计检验的统计量（例如，t值或F值），但是，还没有人认为呈现了统计检验的统计量，就没必要呈现组别、样本量、均值、标准差的。

下面用一项研究实例来说明p值与效应量（以η²为例）之间的对应关系，以及二者之间的差异问题。

研究者考察黑白背景或灰色背景对道德判断的影响，实验材料是6个社会问题（色情作品、通奸、使用毒品、乱丢垃圾、吸烟、使用亵渎言语），要求被试用-5（=非常不道德）至+5（=非常道德）的量尺，评定它们的道德性。研究者预测，受黑白视觉对比启动将会比无此启动导致更为极端的道德判断（Zarkadi & Schnall, 2013）。

为了评估道德判断的极化情况，研究者计算出一个偏差分数的指标，即被试判断的结果距离量尺中点的情况。结果表明，黑白条件下的偏差分数均值（M = 2.50, SD = .96）大于灰色条件下的（M = 2.05, SD = .91），F(1,128) = 7.35, p = .008, η² = .05。当研究者对6个题目分别分析时，它们显示了相同的一般模式，其中，吸烟（F(1,128) = 5.69, p = .02, η² = .04）、使用毒品（F(1,128) = 4.31, p = .04, η² = .03）、通奸（F(1,128) = 8.34, p = .005, η² = .06）的启动条件的主效应显著。此外，两种条件的平均严厉性评定差异不显著（黑白条件：M = -1.79, SD = 1.57; 灰色条件：M = -1.05, SD = 1.32），F(1,128) = 1.05, p = .31。

如前所述，由文中报告的统计显著性检验结果，可以手工计算效应量（η²）。这里列出相应的情况：

（1）F(1,128) = 7.35, p = .008, 计算可得，η² = .0543，保留两位小数，即η² = .05，与文中报告的数据一样。

（2）F(1,128) = 5.69, p = .02，计算可得，η² = .0426，即η² = .04（与文中一样）。

（3）F(1,128) = 4.31, p = .04，计算可得，η² = .0326，即η² = .03（与文中一样）。

（4）F(1,128) = 8.34, p = .005，计算可得，η² = .0612，即η² = .06（与文中一样）。

（5）F(1,128) = 1.05, p = .31，计算可得，η² = .0081，即η² = .01（文中未呈现）。

比较上述p值和效应量η²，很容易发现，p值比效应量η²灵敏多了。对于同样的F检验（即df_b和df_w都相同），当p = .31、p = .04、p = .02、p = .008、p = .005时，对应的η² = .01、η² = .03、η² = .04、η² = .05、η² = .06。特别地，当p值由不显著的.31变化到显著的.04时，有明显不同，而η²仅由.01变化到.03，不太明显；当p值由显著的.02变化到极显著的.005时，η²仅由.04变化到.06。

结合实验材料，亦可清楚，p值和效应量η²两个指标，能够起到相辅相成的作用。例如，黑白对比背景会极化道德判断，这种极化与具体社会问题有关，同时，对通奸判断的影响（p = .005, η² = .06）比对吸烟判断的影响（p = .02, η² = .04）更明显——此时，灵敏的p值让人印象深刻。尤其重要的是，黑白对比背景对道德判断严厉性的效应量极小（η² = .0081），从而，可以让研究者明白，不要再用严厉性考察黑白对比对道德判断的影响了，即使扩大样本量，提高效力，也是没有多大意义的。

当用η²作为效应量的统计量时，Cohen（1988）把0.10、0.30、0.50分别作为小效应量、中效应量和大效应量的标准。因此，例文的研究显示，黑白对比对道德判断极化的影响，效应量均未达到小效应量的标准。这说明，黑白对比对道德判断的影响是颇为微妙的，很可能是让人难以察觉的——虽然影响不大，但是的确存在。那么，对于其他研究者来说，如果想重复这一研究，需要注意提高效力（比如，增大样本量），否则，可能得不到显著的结果。这进一步提示，心理学研究既报告p值又报告效应量，不是多此一举，而是相得益彰。

参考文献

Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd Ed.). Hillsdale, NJ: Lawrence Earlbaum Associates.

Zarkadi, T., & Schnall, S. (2013). “Black and white” thinking: Visual contrast polarizes moral judgment. Journal of Experimental Social Psychology, 49, 355-359.

转载本文请联系原作者获取授权，同时请注明本文来自李宏翰科学网博客。
链接地址：https://blog.sciencenet.cn/blog-2619783-1286084.html

上一篇：状态变量与特质变量：心理学变量的一种新分法
下一篇：不用实验，照样可以进行因果研究

收藏 IP: 116.1.49.*| 热度|

moralscience的个人博客分享 http://blog.sciencenet.cn/u/moralscience

博文

p值它太过灵敏，效应量长善救失精选

当前推荐数：15 推荐人：李毅伟 张晓良 范会勇 郑永军 王兴 彭振华 陆仲绩 尤明庆 刘秀梅 胡大伟 杨正瓴 黄河宁 钟定胜 张鹰 帅凌鹰

该博文允许注册用户评论请点击登录评论 (6 个评论)

李宏翰

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

moralscience的个人博客分享 http://blog.sciencenet.cn/u/moralscience

博文

p值它太过灵敏，效应量长善救失 精选

当前推荐数：15 推荐人： 李毅伟 张晓良 范会勇 郑永军 王兴 彭振华 陆仲绩 尤明庆 刘秀梅 胡大伟 杨正瓴 黄河宁 钟定胜 张鹰 帅凌鹰

该博文允许注册用户评论 请点击登录 评论 (6 个评论)

李宏翰

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

p值它太过灵敏，效应量长善救失精选

当前推荐数：15 推荐人：李毅伟张晓良范会勇郑永军王兴彭振华陆仲绩尤明庆刘秀梅胡大伟杨正瓴黄河宁钟定胜张鹰帅凌鹰

该博文允许注册用户评论请点击登录评论 (6 个评论)