moralscience的个人博客分享 http://blog.sciencenet.cn/u/moralscience

博文

信度是前提,检验却简单 精选

已有 11644 次阅读 2022-3-1 23:58 |系统分类:科研笔记

编制量表的第五步是质量检验,主要工作是考察所编量表的信度和效度。显然,信度和效度是代表量表质量的两个指标,不过,为了表达简洁,通常把它们合称为信效度。同时,质量检验也是在预试的基础上进行的,但是,它的主要工作是检验量表的整体效果,而非分析单个题项,因此,往往把质量检验看作单独的一步。许多量表编制类论文,为了突出质量检验,甚至把“检验信效度”与“编制量表”并列起来,将题目写为《XXXX量表编制及其信效度检验》。

检验和评价一个量表的质量,就是查看它的信度与效度指标是否达到心理测量学的要求。简而言之,一个量表的信度,就是它的可靠性。如果用一个量表测试一个样本,今天测得的结果与昨天测得的结果很不一样,例如,昨天测试表明,样本在自我概念上的得分均值很高,今天测试表明,样本在自我概念上的得分均值很低,研究者就难以相信这个量表,认为它的测试结果不可靠。一个量表的效度,就是它的有效性。通俗地说,有效性是指,量表要测什么,就得测什么,而不能测其他的。例如,假设状态焦虑与特质焦虑没有关系,那么,一个状态焦虑量表就只能测状态焦虑,不能测特质焦虑。

从量表质量的角度来讲,一个量表的信度是基础,是前提,信度达不到要求,效度就无从谈起。比较而言,信度是容易理解和便于考察的,特别地,有具体的统计量可以作为量表信度的指标;效度则更为关键、更为重要,检验和考察起来要复杂得多。这里,先介绍量表的信度,量表的效度,后文再述及。

为了表述方便或符合习惯,下面把测验与量表当成可以替换使用的术语。一个量表的信度,可分为内部信度和外部信度两类(Giles, 2002)。

量表的内部信度,是就量表本身而言的,涉及量表的题项是否可靠、一致的问题,通常用一个统计量来度量,即α系数,它是测验方差的一个度量指标,有时称为测验的内部一致性。如果测验的方差不是特定题项所特有的,那么,一个测验就是可信的。区分度指标、题项-总分相关,显示的是单个题项的质量,而α系数显示的是一个量表的信度指标。

常用的α系数有两个,一个是分半信度α系数,一个是Cronbach α系数。通过把测验分半,例如,按照奇偶题号的题项分半,可以计算每一半的α统计量及整个测验的α统计量。最常用的内部信度统计量是Cronbach α,它实际上是所有可能分半信度的均值,也就是,用题项的各种可能的组合把测验分半并计算分半信度,再计算它们的均值。因此,当使用α系数作为内部信度指标时,报告了Cronbach α系数,就没有必要再报告分半信度α系数。

对于内部信度来说,达到心理测量学要求的标准是什么?许多材料提示,一个量表的信度指标α=0.8,表示它是可靠的。不过,较低的α值通常也是可以接受的。同时,α像心理学中的许多统计量一样,它与量表中的题项数有密切关系。例如,一个题项较多的量表,其α可能超过了0.7,然而,它的题项之间的相关却可能很低,暗示测得的内容并不是很一致。

量表的因素结构也是很重要的,α对于单因素测验来说是最有用的,此时,所有题项都是同一维度的测量指标。如果测验包括若干个维度,研究者应当预期有较低的内部一致性。如果每个题项都与测量同一维度的其他题项密切相关,也就是说,被试会以同样或类似的方式回答,那么,能够归因于特定题项的方差就会很少,从而α还会很高。因此,在解释α值之前,研究者需要考虑一个量表测量的是什么,以及它有多少题项。

一些统计软件输出的Cronbach α系数是非常有用的。例如,SPSS会为每个题项计算“如果删除它,得到的α系数”,表示如果删除特定的题项重新计算,得到的整个测验的α值。这是查找量表不良题项的一种方法。

量表的外部信度,是就量表之外的因素而言的,涉及量表的跨时间可靠、一致的问题,通常也用一个统计量来度量,即相关系数,有时称为测验的时间一致性。

研究者确定了一个量表的可靠结构,接下来,需要考察它跨时间的可靠性。可以用重测信度来考查外部信度,即,查看被试是否在每一时段都对有关问题给出相同或相近的答案。例如,态度量表的假设是,人们对一个主题的态度是不随时间而有多大改变的。如果态度在几天或几个月内发生了实质性改变,那么,可以认为这个测量工具是不可靠的。

要进行重测信度检验,研究者应当确保在测验被试一段时间之后还能联系到他们。重测可以在几天之后进行,不过,最好是几周之后进行再测,否则,被试可能回忆他们原来的反应,重测时只是重复这些反应。当然,不必对全部被试进行重测,上下四分位的被试或许就足够了。然后,计算两次反应之间的相关系数,即Pearson积矩相关或点二列相关,就得到了外部信度的一个指数。

如果一个测验的外部信度较低,即,相关系数不显著,那么,整个研究过程就需要重新考虑。有时,可能是考察的概念太不稳定,从而无法测量。通常,心理测量学要求的重测信度是较高的,例如,0.9左右——这取决于量表的题项数和样本量。

不言而喻,经过题项分析和质量检验,会删除量表的一些题项。Rust & Golombok1989)建议,一个量表通常需要保留原始题项的70%~80%。显然,最后保留多少题项,取决于原来编制的题项数、测试的被试、参照原初测验说明进行的题项平衡,等。例如,研究者可能发现一个内容领域在题项分析时全军覆没,从而决定把它从测验说明中删除。不过,研究者往往不会只是因为统计分析而改变原初的研究问题。如果一个题项对相应的研究是关键的,但是,它又降低整个量表的信度,那么,在把它删除之前,需要认真思考它对量表到底有多重要。

参考文献

Giles, D. C. (2002). Advanced Research Methods in Psychology. New York: Routledge.

Rust, J., & Golombok, S. (1989). Modern Psychometrics: The Science of Psychological Assessment (2nd ed.). Florence, KY: Taylor & Frances.



https://blog.sciencenet.cn/blog-2619783-1327636.html

上一篇:预试分析啥?重在区分度
下一篇:效度很复杂,检验也微妙
收藏 IP: 103.228.209.*| 热度|

28 徐长庆 李东风 尤明庆 钱家骏 孙颉 彭真明 杨正瓴 黄永义 王安良 李毅伟 晏成和 马鸣 鲍海飞 郑永军 李世斌 汪运山 王平平 宁利中 杨韩 罗娜 姚伟 何应林 张晓良 杜占池 张俊鹏 罗春元 王启云 张鹰

该博文允许注册用户评论 请点击登录 评论 (6 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-25 04:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部