moralscience的个人博客分享 http://blog.sciencenet.cn/u/moralscience

博文

统计效度:一类容易被忽视的效度 精选

已有 11673 次阅读 2021-6-25 23:57 |系统分类:科研笔记

博文《两类基本效度:内部效度与结构效度》提到,CookCampbell1979把研究效度分为四类,并介绍了内部效度结构效度,博文《外部效度:其他群体、其他情境、其他时间》介绍了外部效度,本文介绍剩下的统计效度。这是一类容易被忽视或者虽然受到重视,却往往不从效度视角来考虑的效度

一、统计效度的概念

统计效度,又称统计结论效度,是指统计结果的真实程度,它涉及的是研究中统计分析的适当性、准确性问题。数据分析,往往有特定的统计前提(statistical assumption),违背这些前提,所做的统计分析就可能是不适当的。因此,统计效度更多地与统计分析适当性有关。同时,统计效度还包括统计分析的准确性,例如,经常看到一些期刊论文刊登勘误,更正的错误主要是统计结果方面的。学位论文中也往往会有一些明显的统计错误,比如,t值的绝对值、F值小于1,对应检验的p值却小于.05(可能是作者转抄数据时出错所致,也可能是其他莫名其妙的错误所致)。这样的结果,让人质疑其统计效度。

除了与统计前提相关联的具体问题,任何研究都需要考虑与统计效度有关的一般问题——它们涉及影响统计效度的常见因素。

二、影响统计效度的因素

1、测量指标的信度和效度

心理学研究要对数据进行统计分析,而数据来自具体的测量指标。统计分析有效的根本条件是,这些测量指标得具有符合心理测量学要求的信度和效度。如果分析的数据不可靠、不可信,那么,相应研究的统计效度就是根本无法得到保障的。

2、第一类错误与统计显著性

研究者认为存在一种效应而实际上不存在时,就产生了第一类错误(即“假阳性”)。这是研究者有内在动机会犯的一类错误。如果研究者由于p < .05拒绝零假设,得到存在一种效应的结论,那么需要考虑如下几个问题:

1)数据来源

心理学研究的数据,应当是来自样本的,但是,有时研究者会由于各种原因而积累一些数据,例如,留意并记录媒体报道的自杀事件,经过一定的量化处理,可以进行统计分析。但是,这样的数据是来自枚举,而非样本,从而就不适于进行显著性检测。当然,此类数据可以进行基本情况描述。

2)样本性质

如果数据是来自样本的,那么,是来自随机样本还是非随机样本?如果来自非随机样本,显著结果的误差则是不能确定的。虽然现在可以用bootstrap进行显著性检验,但是,这种显著性的解释与从总体中随机取样是不同的——它是从已有的数据中不断抽取样本,再怎么抽样,也不会出现不在已有样本中的个体。

3)随机性质

心理学研究中有两种性质(或者说两种情形)的随机,一种是随机取样,一种是随机分配。通常,研究者很难进行随机取样,却可以做到随机分配被试,即做随机实验。这样可以近似控制额外变量,但是不能控制取样偏差。例如,如果被试全是男性,那么,对女性来说就可能是无效的——即使这样的统计分析是显著的。

4)研究性质

心理学研究可以分为验证性研究和探索性研究。从而,即使数据来自随机样本,也要视研究性质而确定统计检验的显著性水平。在社会科学中,验证性分析的显著性水平通常是.05,而探索性分析的显著性水平通常是.10Garson, 2013),心理学研究也可以采用这个标准

5)检验性质

心理学研究者在做统计显著性检验时,具体情况存在差异,有些是基于事前假设进行的,有些则是数据钓鱼,即对于可能存在效应的情况都进行检验,根据检验结果,描述显著的内容。如果是数据钓鱼,采用.05的显著性水平,就是单凭几率,20种效应中就可能有一种是显著的。对于心理学研究中更常见的事后多重比较,则需要调整显著性水平,通常进行Bonferroni校正,即把原来确定的显著性水平除以进行比较的个数,例如,显著性水平是.05,进行3个两两比较,那么,显著性要调整为.05/3 = .017

3、第二类错误与统计效力

如果研究者认为没有效应而其实存在这种效应时,就发生了第二类错误(“假阴性”)。除非有其他目的,否则,这是研究者不太愿意犯的一类错误。如果研究者是由于p > .05而得出没有效应的结论,那么只要问一个问题就行了——研究具有足够的统计效力吗?如果效力大于等于.80,那么,不存在这种效应的结论,有令人满意的统计效度。一般而言,研究的统计效力与样本量有关,因此,研究者能够通过增大样本量而提高统计效力。这里的核心问题是,研究者如果得到一个不显著的统计检验结果,那么就需要核查效应量与统计效力,如果效应量是中等及以上,显然,此时的统计效力过低,统计效度是有问题的。

4、交互作用与非线性

心理学研究中的许多变量之间均可能存在复杂的关系,最常见的是交互作用。在研究时,有无考察某个或某些变量,决定着能否检验相应的效应,特别是交互作用。同样地,一个变量的效应检验,与研究时这个变量的取值及水平数量有关,如果取值范围有限、如果只取两个水平,那么,也难以考察出它的非线性效应。虽然,往往从研究设计的角度分析这类问题,但是,它们涉及的内容包括了统计效度,即,相应效应的检验,是通过统计分析而进行的。

5、因果关系模棱两可

总体而言,心理学研究是考察变量之间的因果关系的,然而,有些变量之间的关系非常微妙,特别是在相关研究而非实验研究中,研究者在看待与解释因果关系时可能会出现方向性困惑,论及的因果关系显得模棱两可。例如,学生的幸福感与学习行为——这两个变量之间的因果关系如何确定呢?提高学生的幸福感,是为了让学生有更好的学习行为?培养学生更好的学习行为,是为了提高学生的幸福感?统计分析可以为相应的问题提供数据支持,但是,如果理论建构存在问题,这样的统计分析也无法起到应有的作用。

三、统计效度与内部效度的比较

显然,在心理学研究中,统计效度和内部效度比较类似,都涉及自变量与因变量之间的因果关系。但是,统计效度和内部效度强调的是不同角度的问题。内部效度要保证的是,自变量和因变量之间的因果关系是真实的、而非虚假的;统计效度要保证的是统计数据的结果是真实的、而非偶然的。内部效度需要统计效度提供支持,统计效度是为内部效度服务的。从现实性讲,失去统计效度的基础,内部效度也无以言说。

由于内部效度广为人知,无须多讲,这里再就统计效度总括性地提示一个问题,即,研究者应当形成一种意识,不能以为研究结果是以统计分析为基础的,就是可靠的、有效的。特别地,在数据分析时需要考虑一些基本层面,例如,数据本身的质量,包括测量水平、研究设计、研究程序、作答情况;统计分析的条件,亦即参数检验的数据甄别,比如,正态分布检验、方差齐性检验、多元共线检验、回归齐性检验;统计方法的选择,涉及需要做多元方差分析时,不宜做多个一元方差分析,需要做因素方差分析时,不宜做多个单因素方差分析,需要做事前比较的,不宜做事后比较,需要做单尾检验的,不宜做双尾检验——常用的统计软件包SPSS只呈现双尾检验的结果,研究者需要根据情况,自行调整成单尾检验;统计结果的解读,涉及对统计方法的解读、对测量工具的解读——例如,许多测量工具是通过因素分析技术编制的,但是,确定的因素能够解释的方差往往相当有限(比如,达不到总方差的60%),在分析及讨论时无视这样的事实,显然是不当的

总之,心理学研究者有了研究效度的观念,包括统计效度的观念,对心理学研究也就有了洞若观火的视野,从而,心理学研究素养也就可能得到突飞猛进的提升。

参考文献

Cook, T. D., & Campbell, D. T. (1979). Quasi-experimentation: Design and Analysis Issues for Field Settings. Chicago, IL: Rand McNally.

Garson, G. D. (2013). Validity and Reliability. Asheboro, NC: Statistical Associates Publishing.



https://blog.sciencenet.cn/blog-2619783-1292778.html

上一篇:认识行为的方式:权威、逻辑、直觉、完形、科学
下一篇:生态效度:一个充满争议的效度术语
收藏 IP: 116.9.46.*| 热度|

19 郑永军 武夷山 黄永义 孙小银 范会勇 李东风 姚伟 张晓良 杨正瓴 陈新平 范振英 周忠浩 李毅伟 钟定胜 杜占池 任国鹏 陆仲绩 张鹰 农绍庄

该博文允许注册用户评论 请点击登录 评论 (7 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-20 04:29

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部