|
编制量表的第四步是预试分析。研究者设计好量表之后,需要找被试进行预试。预试的被试应当与研究者打算测试的被试相似,但不能是相同的样本。如果研究者打算测试的样本是学生,那么,应当找学生来做预试。如果打算测试的是特定群体,例如,孩子在1岁以下的母亲,那么,预试时就找与这个群体尽可能接近的样本,比如,有年幼孩子的母亲。
预试时,尽力使用较大的样本。究竟多大的样本算是较大的,这得具体问题具体分析,比如,打算测试的群体、设计好的量表题项数。如果研究者打算测试的群体是学生,那么,预试时就很容易找到较大的样本。倘若设计的量表有40个题项,样本量是题项数5倍(即200人)的预试样本,就属于较大的样本。如果打算测试的是特定群体,那么,预试时最小的样本量应当是题项数+1(Giles, 2002)。
研究者通过纸笔或网络收集了预试数据后,需要把数据录入或导入电脑,用统计软件对量表中的题项进行系统分析。这个工作,称为题项分析或项目分析。毕竟,在研究者正式实施测试之前,通常需要对设计好的量表进行改进和确认,而改进和确认的基础,就是题项分析。
题项分析有两个有用的测量指标,即难度和区分度。难度,适用于对知识、能力等方面的量表;区分度适用于所有的量表,也是题项分析的重点。
一般来说,难度仅用于知识性、能力性量表的题项分析。对于这样的量表,研究者需要确保题目既不要太容易,也不要太难了。每个题项都有自己的难度指数,其计算方法是,把一个题项答对的人数加起来,再除以被试的人数。因此,难度指数是一个0~1之间的数字。难度指数为0表示一个题目太难了,无法使用;难度指数为1表示一个题目太容易了。题项的理想难度指数是0.25~0.75。
大多数测验或量表都设计成可以把被试在有意义的连续体上分出等级,例如,积极-消极态度、内倾-外倾。出于统计目的,研究者预期这些品质在总体中是正态分布的,至少,在设计问卷时希望是这样的。研究者要寻找和确定,正是能够在连续体的两端把人们区分开来的题项。例如,对于一个人格问卷而言,研究者要找的题项,应当能够区分出外向者与内向者的反应。所有被试都作出同样回答的题项,一般来说是没有什么用的。
研究者可以计算每一个题项的区分度指标。把被试的总分排序,选取上四分位与下四分位,即总分的前25%和后25%。对每个题项而言,把各组的反应相加,再除以四分位内的人数。然后,计算这两个数字的差,即可得到区分度指数。
表1是用来分析区分度指数的两个量表题项的例子。其中,反应栏里每个乘式的第一个数字表示反应量尺上的等级,第二个数字表示选择这个等级的人数。例如,5×3表示选择5级的人数是3。
它们是对40名被试的研究结果,前后25%均包括10名被试。因此,题项1的区分度指数=48/10-31/10= 1.7,题项2的区分度指数=60/10-59/10=0.1。显然,题项1具有好的区分度,因为上四分位组的得分聚集在量尺的右端(5、6),下四分位组的得分聚集在量尺的左端(1、2、3)。这个题项应当保留。
题项2的区分度很差,几乎所有的反应都落到右边的3个选项了(5、6、7),上下两组之间没有什么差异。这个题项的区分度指数差不多是0,说明它应当被删除。
那么,一个令人满意的区分度指数是多大呢?这取决于研究者所用的量表。如果是二分量表(例如,是/否反应),应当把区分度指数看成是相关指数。如果是7点量表,区分度指数=1.7的题项可能是具有良好区分度的,正像上述题项1那样。
此外,还可以考查每个题项与整个量表总分的相关,据此了解题项的品质。这个度量指标的逻辑与区分度指数的相同,即,每个题项应当能够区分量表得分的高分组与低分组。题项-总分相关可以通过Pearson积矩相关或点二列相关来计算,这取决于反应选项的性质。相关系数较低的题项(<0.2)可能没有反映出被试的多少信息,应当删除。
参考文献
Giles, D. C. (2002). Advanced Research Methods in Psychology. New York: Routledge.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 06:28
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社