|
为什么假设检验者要少花时间检验假设?
Scheel, A. M., Tiokhin, L., Isager, P. M., & Lakens, D. (2021). Why hypothesis testers should spend less time testing hypotheses. Perspect Psychol Sci, 16(4), 744-755. doi:10.1177/1745691620966795
bilibili: https://b23.tv/8j8FMdZ
目前,心理学领域通常遵循的研究流程是:(基于理论)提出假设à设计实验验证假设à收集并分析数据à评估实验结果证实/证伪假设。如果实验设计、数据收集和分析过程中不严谨,那很有可能导致错误的实验结论。上述方法属于“假设推演”主义(Hypothetico-deductivism, HD),这也是近年来可复制性危机(Derksen, 2019)重点抨击的对象。心理学研究者在采集数据、分析、报道数据时不够严谨,导致产生假阳性的数据,从而产生信任危机(crisis of confidence)(Pashler & Wagenmakers, 2012),即虽然做了假设检验,但检验薄弱,解释数据也牵强,对结论盲目自信,导致错误的推断。
因此,心理学领域开始“拧紧螺丝”(tightening the screws),鼓励验证性研究(confirmatory research),而非探索性研究(exploratory research)。具体来说,心理学领域强调研究者要确定好:自变量和因变量的操作性定义、被试量、被试的筛选标准、统计方法的选择、如何决定研究假设是否证实或证伪等。其中,注册报告(registered reports)成为开展验证性研究的解决方案(Wagenmakers et al., 2012)。但预注册并不能消除假设检验的灵活性,比如研究者往往在使用零假设检验(null-hypothesis significance testing, NHST)时,研究假设并没有在零假设的基础上更加明确。其次,积极性非常高的研究者也无法真正确定效应量和测量指标的变异程度,而往往是参照研究惯例、经验或默认的设定,例如采用中等效应量(d=0.5)(van de Schoot et al., 2017)。再次,可重复研究项目(reproducibility project)认为心理学家对于实验结果是否真的得到复制了,还很难达成一致(Maxwell et al., 2015)。在复制研究中,一些隐藏的调节变量(hidden moderators)往往被忽视(Simons et al., 2017)。理论模型还不够清晰,以至于提供可以重复的研究假设。
心理学理论非常不成熟,往往遭到批评,这已经让心理学家十分厌倦,而本文作者认为,在“拧紧螺丝”的过程中,心理学研究者根本没有为验证研究假设做好准备。从理论框架到统计检验这一系列过程,在Meehl(1990)看来,是一个派生链条(derivation chain),而统计检验是该链条的最后一环。目前心理学研究者大多在开展验证性研究,而忽视了派生链条的前端,即提出研究假设这一输入元素(input)本身可能出现了问题,因此在本文作者看来,心理学研究者并没有为假设检验做好准备。
Dubin(1969)在《理论建构》(Theory Building)一书中提到了:1) 概念形成(concept formation);2)测量工具的研发(developing measures);3)建立概念之间的关系(establising relationships between concepts);4)明确边界条件和附带假设(specifying boundary conditions and auxiliary assumptions);5)统计预测(statistical predictions)。为了更好地巩固派生链条,本文作者借鉴了上述要素进行探讨。
关于概念形成:本文作者强调,当我们提到一些概念的时候,要明确我们到底指的是什么?比如注视屏幕时间(screen time)、内在动机(intrinsic motivation)、抑郁(depression)。不同学者提到这些概念时的范畴是否一致?好的概念需要满足两个标准:1)逻辑自洽性(coherence)和区分性(Gerring, 1999)。如果概念不自洽,可能会出现概念延伸的现象(conceptual stretching)。例如,社会心理学中的启动效应(priming effects)借鉴自认知心理学,但前者的效应可能持续数月,而后者可能仅持续几秒。两者的内涵或机制可能是不一样的。
关于测量工具:本文作者认为,自我报告(self-report)/陈述偏好(stated preferences)和行为观测数据往往反映的是不同构念(construct),不能轻易等同。已经有一些研究表明,行为观测数据和自我报告数据之间的相关性是很低的。一些量表没有经过效度验证,就轻易使用(Flake et al., 2017)。量表的信度很低,会成为混淆变量,影响自变量和因变量的因果关系(Shadish et al., 2001)。开发量具和概念形成往往是相辅相成的,即如果量具的构念效度存在问题,那么就需要对概念进行进一步优化。
关于概念之间的关系:心理学研究者通常使用“箱体-箭头”模型(box-and-arrow model)来描写变量之间的关系(Pearl, 2009),但忽视了因果关系。本文作者认为,如果我们没有充分地定义概念,并明确概念之间的因果关系,那么我们对理论的内容(content)就不是很清楚,即理论的适用范围、假设前提和预测力是非常模糊的。因此,不同人对理论的解读会不一样,对理论的预测力也会莫衷一是,或在不同情况下检验理论。
关于理论的边界条件:不同研究者基于某一理论框架,在特定条件/被试群体中开展实验,验证理论假设,得出的结论不一致,这背后的原因可能就是取决于理论的边界条件(boundary conditions)。本文作者认为,如果理论的边界条件不精确、不透明,那么就很难解释实证数据的不一致性(empirical discrepancies),比如,为什么某一个效应无法成功复制(Simons et al., 2017),也就很难证实或证伪理论假设。
关于附带假设:本文作者认为,心理学研究应避免其他干扰因素对因变量的影响(比如被试的心理因素、环境因素),这就是研究者需要满足的附带假设。例如,本文作者强调被试按照主试设定的要求完成了任务。研究者要结合质性访谈、行为观测等指标,来确保被试确实是按照主试设想的流程去完成任务(比如,在反应时实验中,我们经常会剔除正确率低于60%的数据[1])。因为有时候阴性的结果(p>0.05)并非由于理论的缺陷导致,而是由于附带假设没有满足所致(Meehl, 1990)。
关于统计预测:本文作者认为,统计预测要取决于理论预测的具体特征和检验的效度,即在预注册验证性研究时,需要明确哪些发现可以支持、证伪理论研究假设,并提供统计效力等信息。如果研究者本身缺乏理据、原则,那就会以来默认的设置,做出的决策也会非常随意。
在本文作者看来,非验证性研究(nonconfirmatory research)可以巩固派生链条,此类研究获得可以是构建理论(theory development)(如将口头理论转变成正式理论模型),也可以是心理测量工作(psychometric work),例如量表的验证。然而,探索理论边界条件、建立附带假设前提等工作往往较少关注。以下是具体的非验证性研究活动类型:
描述性和自然观测(descriptive and naturalistic observation):虽然纯描写研究价值偏低,但开展描述性和自然观察研究对概念形成、开发测量工具、建立需要解释的现象(establishing phenomena that need explaining)或因果关系(causal relationships)至关重要(如Dubin, 1969)。描述性研究回答的是“什么”的问题(what questions),而不是“为什么”的问题(why questions)。只有把“什么”的问题回答好,才能回答因果关系。
先验理论合理性评估(a priori evaluation of theory plausibility):在验证基于理论的研究假设前,需要对理论的逻辑连贯性(logical coherence)、理论范围(scope)和合理性(plausibility)进行评估。其中一个方式是通过数学或计算建模(Lewandowsky & Farrell, 2010; Smaldino, 2017);另一种方式是考察某一理论与现有的、已经得到广泛证实理论(highly corroborated)的原则是否一致。因为后者可以给新理论的构建提供一些参考。
参数范围的探索(parameter-range exploration):一个成熟的理论有明确的边界条件(boundary condition)。探索边界条件其中的一个方式是由内向外探索(inside-out exploration),即摆脱已有的理论条件,考察某一现象或理论是否可以推广到极值条件下(edges of that dimension)(Busse et al., 2016)或超乎寻常的刺激物(supernormal stimuli)(Tinbergen, 1951)。还有一种方式是由外向内探索(outside-in exploration),即先考察研究认为理论可能不适用的参数空间(Busse et al., 2016),这种方式往往运用于跨文化研究。探索参数范围的另一个目标,是建立概念之间关系的函数形式(functional form of relationships bewteen concepts)。操纵在一个范围内的变量,比操纵一个变量的两个水平,能提供更多的信息(Meehl, 1990)。建立函数形式,可以引发学者对变量之间关系更加深入的思考,比如为什么是双曲线关系(hyperbolic),而非线性关系(linear)。
探索性实验(exploratory experimentation):虽然在科学家看来,实验都是验证性的,但科学领域的哲学家往往强调探索性实验对理论构建的重要性(Franklin, 2005; Steinle, 1997)。探索性实验在心理物理学(Jack & Schyns, 2017)、生物医药科学(Mennen et al., 2019)都得到了广泛的应用。
可行性/先导研究(feasibility and pilot studies):在医学领域,可行性研究通常考察被试的招募率、保留率(retention rate)、被试是否按照实验流程进行(adherence to procedures)、无效反应率、测量工具的信效度和因变量的标准差估计。同时,通过先导研究也可以发现、考察附带假设,比如被试是否习惯从左往右程度依次递增的Likert量表(Hruschka et al., 2018)。
本文作者在文末特地指出,为了更好的进行假设推演(HD),促进严格的验证性研究,心理学改革运动往往把非验证性研究视为“低人一等”(Klahr & Simon, 1999),许多研究者似乎认为,探索性研究是一个“有风险性”且“神秘”的过程(Kerr, 1998),而本文作者则使用非验证性(nonconfirmatory)来取代探索性(exploratory),避免验证性(confirmatory)和探索性(exploratory)之间错误的二元对立。为了避免发表偏见(publication bias),本文作者认为,非验证性研究需要与验证性研究的过程一样透明,具有可再现性(reproducible)。当然,本文作者并没有否定假设推演的价值,只是想强调如果不重视非验证性研究,那么验证性研究的基础就会相对薄弱,无法提供好的“原材料”,也就无法很好地证实或证伪研究假设。
文献分享 | 尹彬(福建师范大学)
文献整理 | 钱家骏(上海海事大学)
[1] 此处为钱家骏结合自己的研究和文献阅读经历所加。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-7 09:10
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社