||
译者前言:有关p-值和统计显著性检验的争论涉及到统计推断分析在科学研究中的性质与作用这个根本问题。德国马丁.路德大学诺伯特.赫肖威尔教授(Professor Norbert Hirschauer)关于‘对21世纪的统计推断的一些思考’的评论文章(英文原文链接: https://doi.org/10.31235/osf.io/exdfg )从p-值的定义与应用以及统计推断分析要求随机抽样作为基本前提条件这两个方面入手对这个根本问题作了一个精彩的简要综述评价。这篇文章的内容不仅对统计推断在科学研究中的性质与作用这个问题的历史演变过程作了非常精要的评述,还报告了国际统计学界在此重大问题争议上的最新发展动态。在文章的最后部分,作者提出了如何应对从这些争论中提出的挑战的具体建议措施。我因此决定把这篇文章翻译成中文供广大以中文为基本工作语言、从事科研工作的专家学者们参考引用。赫肖威尔教授授权并鼓励我将此文在科学网我的博客里发表,特此鸣谢!
译者注1:对于null hypothesis及Null Hypothesis Significance Test (NHST)在这篇文章中的两个最为关键的词组的中文翻译有必要做一个说明。虽然,在统计学教科书及杂志文章里提到的null hypothesis在大部分的情况下都是假定零效应或没有效果,但上世纪二十年代中Fisher 最初提出null hypothesis这个概念指的是 an hypothesis that is nullifiable,也就是‘ 一个可以被否决的假设’。因此,null hypothesis完全可能不是零效应或没有效果的假设。比如,一个最简单的单样本t检验,null hypothesis为Ho:抽样总体的均值等于5。在紧随Fisher之后的上世纪三十年代Neyman-Pearson提出的hypothesis test里则明确定义了null hypothesis及alternative hypothesis的概念,与之对应的中文为‘原假设’与‘备择假设’。从上个世纪四十年代开始统计学教科书的作者们在没有严格的理论证明的情况下一厢情愿地把Fisher的test of significance与Neyman-Pearson的hypothesis test强行捏合到一块成为所谓的Null Hypothesis Significance Test 。对其中的null hypothesis最流行的中文翻译有‘零假设’,‘原假设’, 及‘无偏假设’。细细比较之下,我还是认为把Null Hypothesis Significance Test译作‘原假设显著性检验’最为贴切。
译者注2:为方便读者可以追溯英文原文参考文献的出处(作者、发表时间、期刊名称、出版社等等)或直接阅读参考文献的原文,也为了使读者可以将信息框1中的翻译了的引用文献与它们的原始出处对应上,我决定对原文的References(参考文献)部分的内容不作翻译,但仍作为这篇翻译文章的一个组成部分呈现给读者。
(中文翻译: 谢 钢)
作者:诺伯特·赫肖威尔Norbert Hirschauer
农业经营管理 / 马丁·路德大学哈勒维滕贝格分校农业与营养科学学院,德国哈勒(索尔)D-06120
norbert.hirschauer@landw.uni-halle.de
https://www.landw.uni-halle.de/prof/lu/?lang=en
致谢:在我于2022年春季在塞尔维亚诺维萨德大学做访问学者期间,因我在那里所做的统计推断方面的讲座,我被要求撰写本文。我要感谢德国研究基金会(DFG/German Research Foundation; 455601669)对我此次访问的财务支持。我也非常感激诺维萨德大学的同事们,既感谢对我所做的邀请,也对就相关话题所进行的启发性的讨论表示感谢,并且很高兴按照他们的要求,将我所做的演讲的内容写成文字。如同我在访问期间所做讲座一样,这篇因讨论而形成的文稿-现已发表在《农业经济学》杂志上,其中的许多内容均取自于于我们的著作《统计推断基础——随机误差的含义是什么?》(Hirschauer等著,2022年,斯普林格应用统计学与计量经济学简明教程之一)和发表在《显著性》杂志上的文章《p-值争论中未回答的问题》(Hirschauer,2022年),后者获得了该杂志的许可,准许重新使用其中已发表过的内容。
摘要:本文指出,有关p-值和统计显著性检验的争论涉及到以数据为依据的科学研究中最根本的问题之一:在给定的信息(数据)以及相关的不确定性程度的条件下,我们如何从数据中提取出有用的信息从而对现实世界里与研究目标有关的真实状态做出最合理的诠释(判断、结论)能够回答这个关于归纳推理的问题,以及弄清楚统计量(即一组给定数据的汇总统计量)在什么时候以及如何可以帮助我们评估从所拥有的样本数据中所能得到的新知识,这在任何科学领域中都是极其重要的。
关键词:估计值的不确定性、原假设显著性检验、p-值、随机误差、统计推断
1. 推断性统计分析应用的糟糕现状
2016年,鉴于与p-值和统计显著性检验相关的普遍误解,美国统计协会(ASA)采取了前所未有的做法,试图通过发布一个有关p-值的方法论警告声明(Wasserstein和Lazar, 2016年,https://www.tandfonline.com/doi/full/10.1080/00031305.2016.1154108)来帮助解答关于统计归纳推理分析的问题。这个警告声明阐明了p-值是什么,它能告诉我们什么,以及不能告诉我们什么。并且其中明确提到,尽管传统统计规范使用了迷惑人的“假设检验”这样的术语,但p-值既不能用来确定某个科学假设是否为真,也不能确定其相关的研究结果是否重要。在传统显著性检验与无法消除的推断分析缪误之间彼此关联的背景条件下,ASA感到有必要进一步探讨这个问题。于2017年10月,ASA组织了一次关于统计推断未来的研讨会。其主要成果是在《美国统计学家》杂志上发表了一个包含43篇论文的专题特辑,题为“21世纪的统计推断:超越p < 0.05的世界”(Statistical Inference in the 21st Century: A World Beyond p < 0.05)。以此来表达他们希望这一专题特辑能引发对统计推断的重大反思,特邀编辑们这样写道:“根据对本专题特辑文章以及更广泛文献的审阅理解,我们得出这样的结论,是时候完全停止使用‘统计上是显著的’这一术语了。‘显著地不同’、‘p < 0.05’以及‘非显著的’等变相的表达也不应继续存在,无论是用文字表达,还是在表格中用星号,或以其它什么方式”(Wasserstein等人,2019年: 第2页)。几乎同时,《自然》杂志发表了一篇得到广泛支持的,呼吁“让统计显著性彻底消失”的文章(Amrhein等人,2019年,https://www.nature.com/articles/d41586-019-00857-9)。同年,美国国家科学院(2019年)也在其“科学研究中的可重复性和可复制性共识报告”中包含了关于传统显著性检验规范会导致错误的推断分析的警告内容。
自然和社会科学家(包括农业经济学家)可能会对这场根本性问题的辩论感到困惑,因为他们通常不是经过专门训练的统计学家,而是统计分析的应用者。因此,虽然他们对自己研究领域的是非对错非常在意,但“对统计学仅限于应用”— 通常就是按照,给出p-值极其对应的统计显著性结果,这样看来是毫无争议的规范程式来进行的。这个规范程式被称为“原假设显著性检验”(NHST)。由于过去几十年中已经有成千上万篇相关的批评文章,并且其中许多的文章都非常有影响,即使对仅仅为统计分析的应用者们,他们中的很大一部分现在也会意识到如同自动化般地例行公事地遵循NHST规范程式做统计分析的做法遭到了严厉批评 – 而许多人过去正是习惯于这样做的。尽管如此,所有没有对统计方法有专门关注的人 - 大多数的科学应用研究者大概都属于此类 - 可能会感到困惑,并提出这样的问题:这里到底发生了什么,我现在应该怎么做呢?
虽然这场辩论现在已经受到了广泛的关注,但许多的科学应用研究者可能没有注意到,对NHST的根本性的批评已经被提出了几十年 - 基本上是自从1950年代显著性检验成为标准范式以来就一直不断。信息框1中列出的(无可否认带主观性的)有选择的文献清单显示了针对p-值和NHST相关联的推断分析缪误的科学研究著作不仅数目非常庞大及影响突出,而且时间历程也非常悠久。由于其内容涵盖面的广泛性,信息框 1中的列表不可避免地仅仅局限于这类文献中的很小一小部分。
2022年 - 为什么以及如何参与从显著性检验转向效应估计的转变:《进化生物学杂志》(Berner和Amrhein)
2021年 - 统计显著性、p-值和对分析结果不确定性的表述与报告:《经济学视角杂志》(Imbens)
2019年 - 拥抱不确定性:统计显著性的日子已经不多了:《儿科麻醉学》(Davidson)
2019年 – 关于废除统计显著性的呼吁:《自然》(Amrhein等)
2019年 - 专题特辑的编者的话:“是时候完全停止使用‘统计上是显著的’这一术语了。‘显著地不同’、‘p < 0.05’以及‘非显著的’等变相表达也不应继续存在,[...]。”:《美国统计学家杂志》(Wasserstein等)
2018年 - 统计分析的宗教仪式:可重复性的幻觉以及我们是如何落到这个地步的:《心理科学方法与实践进展》(Gigerenzer)
2017年 – ASA研讨会:“21世纪的统计推断:超越p < 0.05”
2016 年– ASA的警告声明:“p-值既不能用于确定某项科学假设是否正确,也不能确定其相关的研究结果是否重要。”《美国统计学家》(Wasserstein和Lazar)
2016 年– 统计检验、p-值、置信区间和统计功效:一份应用误解指南:《欧洲流行病学杂志》(Greenland等人)
2015年 – 关于禁止使用NHST的杂志编辑用稿决策规定:《基础和应用社会心理学》(Trafimow和Marks)
约2015年 – 某些顶级经济学期刊的统计推断分析结果报告标准的变化:“不要使用星号表示估计结果的显著性;要把标准误差结果标记在括号内。”《美国经济评论》(AER)
2014年 – 科学研究面临的统计分析危机:《美国科学家》(Gelman和Loken)
2011年 – 对统计显著性的崇拜 – 经济学家们在‘让数据说话’时应该做什么和不应该做什么《舒莫勒年鉴》(Krämer)
2008年 – 对统计显著性的崇拜:标准误差是如何危害就业、公正和生命的:《密歇根大学出版社》(Ziliak和McCloskey)
2007年 – 统计显著性和数据信息的二分化:《美国统计学会杂志》(McShane和Gal)
2004年 – 原假设统计检验的宗教仪式:关于显著性检验你一直想知道但又不敢问的问题:《社会科学定量分析方法的SAGE手册》(Gigerenzer等人)
2000 年– 原假设显著性检验:对一个存在已久而且持续引发争议的分析方法的回顾综述:《心理学方法》(Nickerson)
1996 年– 美国心理学协会关于统计推断问题的专责组讨论了禁用p-值的呼吁,但认为这个想法太极端而拒绝了它:《美国心理学家》(Wilkinson和统计推断问题专责小组)
1994 – 地球是圆的(p < 0.05):“[单单一个p-值]并没有提供那些我们所想知道的信息,但我们非常地渴望知道我们想知道的,以至于出于绝望,我们仍然相信它!”《美国心理学家》(Cohen)
...
1964年 – 我们应该如何改革统计学教育? “[显著性检验]受到非统计学家的欢迎,因为他们喜欢在不存在确定性答案的情况下仍然相信其为确定性答案的感觉。”《皇家统计学会杂志》(Yates和Healy)
1960年 – 原假设显著性检验的谬误:《心理学公报》(Rozeboom)
1959 年– 发表投稿文章的决策规定及其对从应用显著性检验而得出的推断分析结论的可能影响–或反之亦然:《美国统计学会杂志》(Sterling)
1951年 – 研究工作者的统计分析方法这本书对[…]统计学的发展影响:《美国统计学会杂志》(Yates)
(信息框1结束)
早在1950年代,科学家们就开始对NHST提出严厉批评,并呼吁进行改革,将分析结果的报告规范从误导性的显著性检验二分法转向对效应量大小和相关的不确定性的估计(例如,见参考文献Yates, 1951年;Sterling, 1959年;Rozeboom, 1960年;Yates和Healy, 1964年)。在此我们虽然不做进一步的详细展开论述,但可以肯定的是,这些批评和改革建议的核心内容在过去的七十年里基本上没有改变。这是因为 - 不幸的是 - 他们所针对的统计推断分析的谬误仍然保持依旧。有关简单的显著性结论永远不能成为推断分析的最终结论的警告大多被忽视。这就是为什么对统计显著性检验的误用和错误解释仍然是一个令人担忧的“常态”应用模式,直至今天也是如此。
然而,在过去的十年中,经过更加激烈的辩论和一些机构层面的努力,例如2016年的ASA警告声明,2019年《自然》杂志的呼吁,以及一些期刊如AER、计量经济学等的作者投稿指南的修订(参见Harrington等,2019年;Hayat等,2020年;Michel等,2020年),一些人认为从检验到估计的范式转变终于已经开始(例如,Halsey, 2019年;Davidson, 2019年;Berner和Amrhein, 2022年)。不幸的是,与许多其他领域相比,经济学对NHST相关问题以及改革的认识似乎滞后了一截(Hirschauer等2018)。
现在,那些仍然广泛流行的误导性的NHST应用以及它们相关的推断分析的谬误究竟是什么呢?简而言之,我们可以将NHST例行的基本应用程序描述如下:
· [研究者] “将与p ≤ 0.05相关的估计结果附上标签 ‘统计上是显著的’(或简称 ‘显著的’),并用星号(*)标记此类分析结果值。他们还会说 ‘可以在5%的显著性水平下拒绝原假设。’作为一种非常缩简的表达,他们可以称这样的样本数据的估计值为 ‘正面结果。’
· 类似地,他们将与p > 0.05相关的估计结果附上标签 ‘统计上是非显著的’(或简称 ‘非显著的’)。他们还可以说他们 ‘无法在5%的显著性水平下拒绝原假设’或者他们得到了 ‘负面结果’”(Hirschauer等人,2022年:第 68页)。
这样的 “[二元分类] 显著性判断声明不仅使普通人,而且使许多研究者得出非此即彼的效应的存在性或相关性的结论(是或否的结论),借用H.L. Mencken在1917年11月16日的《纽约晚报》上的一句话来说,这些结论是 ‘简洁的、似乎合理的,但却是错误的。’第一个简洁但错误的结论是,带有 ‘统计上是显著的’标签的效应值可以被认为是真实或具有高概率的可被复制性”(Hirschauer等人,2022年: 第72页)。而事实却是正好相反。正是那些来自抽样分布右尾部的 ‘异常’大的样本效应值,以及其所具有的低复制概率,导致了高信噪比和因此所导致的小的p-值(Trafimow等人,2018年)。
“第二个简洁但错误的结论是, ‘统计上是非显著的’ 标签表明,或者甚至证明了没有效应或其效应几乎可以忽略不计。许多研究者坚持用这种错误的二元分类法来解释分析结果。这种做法根深蒂固,它既是出于一厢情愿的思维(对 ‘简洁解释’的渴望),又源于 ‘显著性’这个词在日常语言中的含义被不可避免地错误地套用在了对统计分析结果的解释上”(Hirschauer等人2022年: 第72-73页)。 “一些批评者甚至将NHST的应用比作基于集体幻觉的 ‘统计分析宗教仪式’,这样的统计分析应用范式使得批判性思维在社会科学研究中被大大地削弱了(例如,见参考文献Gigerenzer,2004年/2018年;Ziliak&McCloskey,2008年)。这些统计分析宗教仪式的幻觉使得研究者们相信对统计显著性的确认有助于实现科学推断分析自动化”(同上:第70页)。
在2021年9月,应用统计学年鉴(The Annals of Applied Statistics)发表了一份由统计显著性和可重复性专责小组(Benjamini等人,2021年)准备并完成的声明,该专责小组是由Karen Kafadar在她于2019年担任ASA主席期间发起组织的。令人惊讶的是,与上面提到的早前的ASA相关活动的精神和总结结论截然相反,该专责小组表达了它原则上支持显著性检验和p-值的立场,而且在其令人惊讶的简短声明中,忽略掉了当前辩论中所提出的诸多的反对意见的立场观点。这份声明未能解决与p-值和确认统计显著性的有用性相关的两个最关键问题,这些问题涉及基于有限的样本数据对涉及更广范的科学内容的研究进行推断分析:
1. 为什么要将两个可理解且有意义的信息 – 效应大小的估计值(“信号”)和通过标准误差估算出的抽样分布所产生的不确定性的程度(“噪声”) – 转化为p-值,甚至是一个二元分类的显著性确认结论?
2. 在许多情况下,我们只有一个非随机的便利样本,尤其是在没有足够多的关于抽样总体的信息能使得我们可以按照一个可靠的抽样模型获取样本数据的研究环境中,我们应该如何进行对抽样总体的推断分析?
专责小组的声明只含糊而简短地提到了这些问题。它说:“统计科学的理论基础提供了处理不确定性的几种原则性的应对策略”,但然后只是列举了各种统计量,如p-值和置信区间,而没有做进一步的评估说明。鉴于当前的方法论问题的争论正是关于在哪些情况下有哪些统计量是对一组数据所含有的数据信息的 '好的汇总' 这个问题,专责小组需要就此提供更多的信息。专责小组还表示,“p-值和统计显著性应该被理解为是对观测数据的分析评估结果或者是相对于抽样分布所产生的不确定性的效应的评估”。但这个表述没有给出任何理由来说明为什么研究人员必须将分析结果以p-值的形式报告,甚至必须是以二元分类的形式确认分析结果是否是显著的,而不是直接给出统计分析的原始结果,即报告样本统计量的点估计值及其标准误差的估计值。此外,仅仅提到 “抽样分布所产生的不确定性”还不足以阐明在数据不是随机样本的情况下,统计推断分析如果有作用的话,它究竟可以起到什么作用。让我们更详细地查验一下这两个问题。
问题1 – 转化信息:从随机样本中我们最多能够得到的是一个未知的抽样总体的效应值的无偏点估计量的值(信号)以及由随机误差带来的这个点估计值的不确定性程度(噪音)的无偏估计值,也就是标准误差;标准误差不过是是抽样分布的标准差的另一种转化表达方式而已(Hirschauer等人,2021年)。当然,我们可以通过数学变换来将这两个信息量转化为信噪比(z-或t-比率)、p-值甚至是一个二分法的显著性/非显著性结果的确认声明。但为什么我们必须要这样做而因此承受信息丢失和推断分析结果被误解的风险呢?
诺贝尔经济学奖获得者吉多·伊本斯(Guido Imbens)持有类似的观点,他指出,二分法的显著性指标量几乎没有什么用处。他还得出结论,在常规情况下,研究人员应该报告点估计量的值以及与该点估计量值相关的不确定性,而不是p-值。这是因为p-值是对样本数据与零效应的原假设在其他模型假设条件(包括随机样本条件)都成立的情况下的不兼容性的一个评估(或“检验”)。然而,许多研究课题就其科学内容与问题而言,零效应的原假设往往没有或几乎没有研究价值。伊本斯(2021年: 第162页)提供了以下例子:
“尽管在经济学研究中常常应用假设检验,但我认为许多实质性问题主要是关于点估计值及其不确定性的评估,而不是要得出个假设检验的结果。然而,许多研究,本来它的主要关注点应该是估计问题的,却以假设检验的形式呈现其分析结果。[考虑一下] 受教育回报率的研究 - 在那里检验零效应的原假设是很常见的做法,但可以说几乎没有实质性的研究价值。因为实在是很难找到这样一个经济学家,他/她会相信教育回报为零的假设。”
换句话说,由于许多先前的研究已经提供了有力的证据支持受教育回报的正收益回报效应的结论,将所有的相关信息退化归结为一个p-值,并不是一种可以汇总表达这些数据中所承载的信息的有意义的方式;因为它只是一个用来评估所观测到的数据与几乎不可能为真的零回报假设的符合程度的统计量。相反,我们应该努力去获得多一个的无偏估计值,以有助于我们更多地掌握受教育回报的定量结果 – 即根据我们所知道的最佳的估计量在从同一总体中抽取的许多随机样本中正确地估算出平均回报水平。此外,放弃与牵强的零效应原假设的进行无意义的比较将有助于对重复验证性研究的认识理解-这些重复验证性研究与相关的原创研究具有实质性的类似的效应故而彼此应相互印证,而与它们p-值的大小无关。
然而,伊本斯认为,对某些研究案例而言,p-值仍然有用;这就是当对零效应原假设可以赋予具实际意义的先验概率,并且确实作出了这种先验概率分布的假定的情况下。换句话说,零效应原假设必须被明确定义为代表了已有的最佳已被确立的相关科学认知(“理论”)的概率分布假设。在这个条件下,虽然在实际情况中很少能够得到满足(事实上,在农业经济学研究中就是如此),p-值小的确是一个好的评价指标,表明手头的数据与已建立的理论之间存在高度不相容性。但伊本斯也警告说,仅仅是某一组样本数据与已经被很好确认的科学认知(理论)之间显示出了高度的不相容性,这个结果只能作为一种辅助性的验证手段,用来评估是否值得收集新的数据对这个问题做进一步的研究(一个“值得再看一眼”的问题)。甚至仅仅针对这个有限的目标而言,他警告也不要轻率地率下结论,原因是,他提醒人们,在分析大样本数据时,非常小的效应也与会与小的标准误差一起产生出小的p-值。也就是说,如果我们继续按照传统惯例通过假设检验的范式来取得分析结果,那么只要数据的样本容量足够大,我们将拒绝所有的零效应原假设。这个“太大而不会失败的论点”是一个已经被经济学家和统计学家爱德华·利默(Edward Leamer)(1987年:第 89页)强调过的数学事实:
“由于一个大样本更可能比一个小样本包含更多的信息量,而且显然只要样本足够大我们将拒绝零效应原假设,我们因此可能会从一开始就根本不进行抽样而直接拒绝掉这样的假设了。”
即使在实际上毫无实用意义的太小的效应值的条件下,用大样本数据做分析也会产生小的p-值,这使得p-值的应用价值受到了普遍性的质疑。为了要做出一个合理的决策以决定是否应该进一步收集新的数据来确认有关的效应,我们无论如何都必须对构成计算p-值所依据的基本统计量值进行一次重新解读认识,这两个基本统计值就是效应大小的估计值及其相关的标准误差值。
问题2 – 从非随机样本中做推断分析结论:统计推断分析的基础是概率论加上一个规范定义的随机变量模型;这个规范定义的随机变量模型将按随机抽样方法所产生的样本数据与推断分析的目标总体联系了起来。这是在有随机抽样误差引起的不确定性(噪音)的条件下对研究成果的知识贡献程度进行评估的手段(请注意,我这里不是在谈论类似可控随机对照试验(RCT)这样的因果推断分析的问题)。所以,统计推断分析的目的就是把分析结果推广到对目标总体的评估分析结论,这就要求研究中的样本数据是一个随机样本(Hirschauer等人,2020年)。更明确地说,统计分析的假设条件是未经理论证明的保证前提,而这些假设条件的作用就是让人们觉得它们的设定仿佛保证了由随机抽样产生的数据不再是一个随机样本了(Berk和Freedman,2003年)。
与持续进行的辩论中的许多言论一样,美国统计协会主席专责小组的声明没有关注假设条件不成立的问题。这是一个严重的缺失,因为这个问题至少在基于抽样调查的研究中是常见的。例如,在我作为农业经济学家的经历中,研究分析甚少是基于随机样本的。尽管如此,p-值和星号是例行公事般地作为分析结果报告出来(并且被审稿人要求提供) - 而不是首先质疑是否存在这么一个可以用来进行统计推断分析的概率模型。这个例行公事的分析规范包括了使用没有质量保证的非随机样本,比如由研究人员这样或那样的方式随意招募问卷调查的受访者。
从逻辑角度来看,对于方便样本应用推断统计分析的正当性取决于所获得的数据存在的可能的选择偏倚是否得到了纠正,比如通过应用样本选择模型来纠正选择偏倚。这些样本选择模型又取决于这样一个假设,即我们知道并能够校正所有对被抽样个体入选数据样本结果产生影响的混杂变量(例如,受访者对问卷调查的参与)。这要求我们必须对参与者以及非参与者(没有未被观测的混杂效应)都做这些变量的观察测量。否则的话,我们就必须假设这些样本的统计特性与相应的随机样本近似。由于许多研究人员都是不加思考地应用简单随机样本的标准误差公式,因此我们甚至还必须假设所有这些方便样本都近似为简单随机样本。对于方便样本,尤其是在某个特定地点或在线随意招募个体的问卷调查,这通常是一个相当冒险的可能会导致错误的推断分析结果的假设。这是因为其他概率抽样的设计,如整群随机抽样,可以导致标准误差比默认的简单随机抽样假设的标准误差大数倍(“设计效应”;参见 Kish, 1965年:第 161页)。因此,仅基于对随机抽样的大胆假设而不考虑数据实际收集方式所得出的标准误差和p-值几乎毫无价值。
我们可以做出这样的总结,除了对推断统计分析的错误解释和滥用(例如p-值操纵,参见Hirschauer等人,2018年)之外,忽视了与数据生成过程所必须的假设条件无法满足这个漏洞也是错误的主要来源。更直白地说,即使在明显违反了随机抽样假设的情况下继续采用显示p-值和统计显著性的传统分析规范,等于是假装拥有比实际更好的数据信息(即,一个随机样本),而实际上只有一个非随机样本。这是违反科研诚信的行为。这样等行为会导致仅仅根据某些方便获得的数据就总结出某种特征规律,然后进一步将其作过度的推广应用。这样的推广应用其实是超出了该组样本数据所特有的应用范围的限制的。
3. 有什么应对措施呢?
尽管有一些突出的改革统计分析应用规范的努力,原假设显著性检验(NHST)仍然“是最主流的统计分析规范程序,通常是像宗教仪式般盲目地应用,并且也不考虑特定的研究内容与数据等因素的影响。所造成的后果就是,我们只能面临着连续不断的误导性的关于显著性结果的确认报告,并由此过于自信地宣告有关的科学发现(肯定或否定的结论)。这种令人担忧的‘正常’做法主要归因于两个最重要的过失:首先,‘整洁’并且容易被接受的错误解释通过不当的教学,甚至是畅销的统计学教材,在数学计算的准确性的掩饰下几十年来一直被延续下来。其次,即使是被广泛视为最佳应用标志物的顶尖期刊也强制执行这个有缺陷机械式的规范程序,允许或实际上要求投稿人大胆宣告新颖和‘显著性的发现’。尽管显著性检验会导致严重的推断分析缪误并且阻碍了理性批判的思考”,但是不适当的教学和有问题的期刊用稿规定有效地将它普及成为了推断分析的不二标准规范”(Hirschauer等人,2022年:第 2页)。
“在当前的科研体系中,同行评审的期刊是,或应该成为维护科研诚信的看门人,因为它们是任何科学领域的知识体系向公众公布并且公开可被公众获取应用的关键。因此,最紧迫和决定性的统计专业改革就是修改期刊指南,并包括明确的推断分析结果报告标准。这些标准应该并且可以确保研究人员不仅要作‘正确的推断分析’,而且要恰当地表述其分析结果并且让人们能从所发表的期刊文章上看到他们是这么做的。
在出版物中看到好的推断分析应用非常重要,因为科学界的操守规范很大程度上是通过跟风效仿同一种规则而形成的。例如,当顶级期刊采用了新的编辑用稿规定来提高所发表科研成果的质量时,其他期刊很可能会跟进效仿,要求投稿作者遵守这些新的规范。为了对付误导性的确认显著性结果的做法,六家最负盛名的经济学期刊,包括《计量经济学》、《美国经济评论》以及四家《美国经济学期刊》,已经采纳了指南性的用稿规定,要求作者不要使用星号或其他符号来表示统计显著性。取而代之的是,作者们被要求报告统计量的点估计值及标准误差。例如,《美国经济评论》的报告标准如下:‘不要使用星号来表示估计结果的显著性。要报告标准误差并请将其放在括号里。’不幸的是,这样的规范尚未被其他经济学期刊作为最佳行业标准操作规范而广泛采纳实施。”(同上:第114页)
期刊用稿指南的修订是编辑的责任。基于几十年来已经提出的针对统计分析方法的批评意见,我认为许多学科领域的许多期刊有必要修正他们的用稿指南。这样的修正应该从这样一个认识开始,那就是报告点估计值及其标准误差是比p-值和确认统计显著性更好的对一组特定的样本数据所含有的信息的汇总统计量。特别是,要让投稿人和审稿人都知道在信息框2中所列出的什么该做及什么不该做的具体内容。
信息框 2: 改变推断分析的应用规范
不该做的事
1. 抛弃统计显著性概念,并且不要根据 p- 值阈值作出‘显著的’或‘不显著的’这样的二元分类结论(参见 Amrhein 等人,2019年)。
2. 一般来说,不要以 p -值的形式来呈现数据分析的汇总结果。把点估计值及其标准误差退化转换为一个比值, 从而得到这个 p- 值会导致大量的信息损失。所以,如果 p -值无论如何都应该使用的话,就必须给出相关的方法适用性的理由(参见 Imbens ,2021年)
3. 对于方便样本,除非使用了样本选择模型来合理地修复统计推断分析所要求的概率假设条件的缺失,不要去计算及给出“推断分析”的统计量值,例如标准误差或 p- 值(参见 Hirschauer 等人,2020年)。统计分析的假设条件是未经理论证明的保证前提:即使在随机抽样所要求的假设条件完全无法得到满足的情况下,仍按传统的规范程序进行分析然后给出p -值及确认统计显着性结果,这样的做法意味着你明明只有非随机样本却假装是依据更好的数据信息(即随机样本)在做推断分析。这是违背科学诚信的行为并会导致将从以方便程度为标准而取得的数据中总结出的规律性的结果不合理地当作了更普遍适用的结论的后果。
4. 一般来说,当你有完整的总体数据时,不要去计算及给出“推断分析”统计量值,像标准误差或 p- 值(参见 Hirschauer 等人,2020)。即使你并不打算做推断分析从而把样本数据的分析结果推广应用到一个数量更大的有限总体,上面这个建议同样适用。假如你仍然坚持计算并给出推断分析的结果,在逻辑上你就必须要想象一个无限大的“超级总体”。在这种情况下,请清楚地定义你想要基于已有的全部数据来进行推断分析的虚构的研究总体。如果这样的虚构没有正当的依据并且你的样本容量达到了总体的5%以上,采用有限总体校正因子(fpc)来校正平方标准误差。这个校正因子, fpc = 1 − 𝑛/𝑁,代表了采样误差会随着样本大小 𝑛 的增大而减小;也会随着样本容量占总体总量的比例的增大而减小这两种因素所带来的影响(参见 Knaub, 2008年)。当样本就是总体时 ,𝑛 = 𝑁,校正因子 fpc 为零,因此,逻辑的一致性导致了校正后的标准误差也为零。
应该做的事(在随机抽样的条件下)
1. 首先描述基于你的特定的样本数据所观察到的效应值的大小(例如,样本均值、样本均值的差或样本回归线的斜率)并讨论这些效应值是否有实际的重要性及相关性。
2. 在另一个单独的步骤 中作推断分析并且明确表示你分析的目的是否在于要把分析的结果作为普遍性的结论推广到对应的研究总体或者是把针对某个给定的群体得出的处理效应作为因果推断分析的结论 – 或两者兼而有之。
3. 如果你分析的目的是要作普遍性的结论的推广应用,
- 你就要定义抽样总体,也就是推断分析结果所适用的目标总体;
- 并且确定具体的抽样设计(例如,简单随机抽样、整群抽样)以保证总体中的每一个数据值都能按照抽样设计的概率分布有机会被抽中成为样本数据;
- 向读者说明你是用所观察到的样本效应值(或某种加权调整的效应值)作为对未知总体效应大小的一个点估计值。并且
- 计算相应的标准误差 – 对应所采用的抽样设计 – 以此来评估随机抽样误差引起的点估计值的不确定性。
4. 根据点估计值及其由随机误差引起的不确定性来评估你的研究成果对你所在专业领域知识积累的贡献程度。这样做的时候,要意识到每一个所获得的分析结果总是存在着因统计量的样本分布所带来的波动变化。并且,要得到关于总体效应大小的最合理的推论结果, 就要把所有相关的、合理实施完成了的研究所得到的估计值结果统统纳入汇总评估的范围。这就甚至包括了那些相反符号的估计量值,或者更一般地说,所有同类研究得到的效应估计值,无论它们位于抽样分布的哪个位置,都要包括在汇总评估总体效应值的分析当中。这样做的原因在于我们的最佳估计量的值只是从平均值的角度来衡量为最佳。最后,要认识到还存在其他类型的误差/错误(例如测量误差或模型选择错误);这些类型的误差给推断结果带来的错误可能比随机抽样误差造成的影响更甚。
(信息框 2结束)
“采纳类似于信息框 2 中的推断分析报告标准作为期刊投稿作者指南的一部分,将带来有益效果的和谐互动:首先,它将有效地向研究人员/作者们传达必要的用稿标准的规定信息。其次,它将帮助审稿人评估文稿中所主张的推断分析结论的可信度。第三,针对审稿人提出的不正当的要求,它将成为对研究人员/作者们的有效保护。免受审稿人不正当要求的诘难,这项保护功能甚至可能是将推断分析报告标准纳入期刊指南所带来的最重要的好处。由于许多审稿人似乎仍然更偏爱统计上是显著的分析结果并且经常施压,要求研究者们报告p-值及‘显著性的新发现’而根本不考虑所分析的数据是否为随机样本,这些标准的实施有可能大幅度地减少系统性出版偏误的现象”(Hirschauer 等人, 2022年:第115页)。
尽管本文的重点是关注随机抽样的问题,还是有必要对可控随机对照试验(RCT)条件下得到的处理效应的估计值的不确定性问题作一个简要的评述:对于因果关系的效应估计也应该制定出类似于信息框2中的推断分析报告标准。此外,研究人员应该明确地告知读者,在RCT的条件下,标准误差针对的是由于随机化变化配置(的变化)所产生的不确定性。因此,当在被随机配置的实验对象并不是从某个更大的总体中随机抽取的,这样得出的标准误差只是一个样本数据平均处理效应值的不确定性的量化指标;所谓‘样本数据平均处理效应值’指的是在对给定的一组实验对象施加处理后得到的效应估计值。只有在该组实验对象是从研究总体中随机抽取获得的前提条件下,统计推断才能作为一种辅助分析手段把样本数据分析结果推广应用到总体的相关研究对象上。在这种情况下,也只有在这种情况下,充分估计的标准误差才能用来评估总体数据平均处理效应值(普适性推广的因果推断分析结果)的不确定性的程度。
我们可以作这样一个简要总结:“为了改善统计推断分析的现状,研究人员必须考虑三个基本要素:首先,统计分析的假设条件是未经理论证明的保证前提,即统计推断分析的逻辑严谨性是以数据是随机产生得到为前提条件的。第二,只有在这种情况下,如从总体中随机抽取的一组样本数据或者对给定实验对象组的一个随机处理配置, 统计推断才能帮助我们根据一组样本数据的分析结果对抽样总体的某些特征作出符合逻辑的推论。第三,即使是比所谓的统计显著性检验更客观有效且不易误导使用者的统计推断工具,也只是辅助性的分析推理工具。推断分析本质上是不确定的,无论如何仅仅依据统计数据导出的统计量是不会自动产生出确定的推论结果的。”(同上:第114页)。
参考文献(按英文原文及顺序列出):
Amrhein, V., Greenland, S., McShane, B. (2019): Retire statistical significance. Nature 567: 305–307. https://doi.org/10.1038/d41586-019-00857-9
Benjamini, Y., De Veaux, R.D., Efron, B. et al. (2021): The ASA president’s task force statement on statistical significance and replicability. The Annals of Applied Statistics, 15(3): 1084–1085. https://doi.org/10.1214/21-AOAS1501
Berk, R.A., Freedman, D.A. (2003): Statistical Assumptions as Empirical Commitments. In: T.G. Blomberg, Cohen, S. (eds.): Law, Punishment, and Social Control: Essays in Honor of Sheldon
Messinger (2nd ed.). New York, de Gruyter: 235–254. https://doi.org/10.4324/9781315127828
Berner D., Amrhein, V. (2022): Why and how we should join the shift from significance testing to estimation. Journal of Evolutionary Biology 35(6): 777–787. https://doi.org/10.1111/jeb.14009
Cohen, J. (1994): The earth is round (p < 0.05). American Psychologist 49(12): 997–1003. https://doi.org/10.1037/0003-066X.49.12.997
Davidson, A. (2019): Embracing uncertainty: The days of statistical significance are numbered. Pediatric Anesthesia 29: 978–980. https://doi.org/10.1111/pan.13721
Gelman, A., Loken, E. (2014): The Statistical Crisis in Science. American Scientist 102: 460–465. https://doi.org/10.1511/2014.111.460
Gigerenzer, G. (2018): Statistical Rituals: The Replication Delusion and How We Got There. Advances in Methods and Practices in Psychological Science 1(2): 198–218. https://doi.org/10.1177/2515245918771329
Gigerenzer, G., Krauss, S., Vitouch, O. (2004): The null ritual: what you always wanted to know about significance testing but were afraid to ask. SAGE handbook of quantitative methodology for the social sciences. http://dx.doi.org/10.4135/9781412986311.n21
Greenland, S., Senn, S.J., Rothman, K.J., Carlin, J.B., Poole, C., Goodman, S.N., Altman, D.G. (2016): Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. European Journal of Epidemiology 31(4): 337–350. https://doi.org/10.1007/s10654-016-0149-3
Halsey, L.G. (2019): The reign of the p-value is over: what alternative analyses could we employ to fill the power vacuum? Biology Letters 15: 20190174. https://doi.org/10.1098/rsbl.2019.0174
Harrington, D., D’Agostino, R.B., Gatsonis, C. et al. (2019): New Guidelines for Statistical Reporting in the Journal. New England Journal of Medicine, 381, 285–286. https://doi.org/10.1056/NEJMe1906559
Hayat, M.J., Chandrasekhar, R., Dietrich, M.S. et al. (2020): Moving Otology Beyond p < 0.05. Otology & Neurotology 41(5): 578–579. https://doi.org/10.1097/MAO.0000000000002662
Hirschauer, N., Grüner, S., Mußhoff, O. (2022): Fundamentals of Statistical Inference. What is the Meaning of Random Error? Springer Briefs in Applied Statistics and Econometrics. Cham, Springer Nature. https://link.springer.com/book/10.1007/978-3-030-99091-6
Hirschauer, N. (2022): Unanswered questions in the p-value debate. Significance (June 2022): 42–44. https://doi.org/10.1111/1740-9713.01655
Hirschauer, N., Grüner, S., Mußhoff, O., Becker, C., Jantsch, A. (2021): Inference using non-random samples? Stop right there! Significance (October 2021): 20–24. https://doi.org/10.1111/1740-9713.01568
Hirschauer, N., Grüner, S., Mußhoff, O., Becker, C., Jantsch, A. (2020): Can p-values be meaningfully interpreted without random sampling? Statistics Surveys 14: 71–91. https://doi.org/10.1214/20-SS129
Hirschauer, N., Grüner, S., Mußhoff, O., Becker, C. (2018): Pitfalls of significance testing and pvalue variability: An econometrics perspective. Statistics Surveys 12: 136–172. https://doi.org/10.1214/18-SS122
Imbens, G.W. (2021): Statistical significance, p-values, and the reporting of uncertainty. Journal of Economic Perspectives 35(3): 157–174. https://doi.org/10.1257/jep.35.3.157
Kish, L. (1965): Survey Sampling. New York, Wiley. https://doi.org/10.1002/bimj.19680100122
Knaub, J. (2008): Finite Population Correction (fcp) Factor. In: Lavrakas, P. (ed.): Encyclopedia of Survey Research Methods. Thousand Oaks, Sage Publications: 284–286. https://wisconsinuwlax.primo.exlibrisgroup.com/permalink/01UWI_LC/1i5kv17/alma991016794130802125
Krämer, W. (2011): The Cult of Statistical Significance – What Economists Should and Should Not Do to Make their Data Talk. Schmollers Jahrbuch 131(3): 455–468. https://doi.org/10.3790/schm.131.3.455
Leamer, E.E. (1978): Specification Searches: Ad Hoc Inference with Nonexperimental Data. New York, Wiley.
Lohr, S.L. (2019): Sampling: Design and Analysis (2nd ed.). Boca Raton, CRC Press. https://doi.org/10.1201/9780429296284
McShane, B., Gal, D. (2007): Statistical Significance and the Dichotomization of Evidence. Journal of the American Statistical Association 112(519): 885–895. https://doi.org/10.1080/01621459.2017.1289846
Michel, M.C., Murphy, T.J., Motulsky, H.J. (2020): New Author Guidelines for Displaying Data and Reporting Data Analysis and Statistical Methods in Experimental Biology. Molecular Pharmacology 97: 49–60. https://doi.org/10.1124/mol.119.118927
National Academies of Sciences, Engineering, and Medicine (2019): Reproducibility and Replicability in Science. Consensus Study Report. Washington, DC, The National Academies Press. https://doi.org/10.17226/25303
Nickerson, R.S. (2000): Null hypothesis significance testing: A review of an old and continuing controversy. Psychological Methods 5(2): 241–301. https://doi.org/10.1037/1082-989X.5.2.241
Rozeboom, W.W. (1960): The fallacy of the null-hypothesis significance test. Psychological Bulletin 57: 416–428. https://doi.org/10.1037/h0042040
Sterling, T.D. (1959): Publication Decisions and Their Possible Effects on Inferences Drawn from Tests of Significance–Or Vice Versa. Journal of the American Statistical Association 54(285): 30–34. https://doi.org/10.1080/01621459.1959.10501497
Trafimow, D., Amrhein, V., Areshenkoff, C.N. et al. (2018): Manipulating the Alpha Level Cannot Cure Significance Testing. Frontiers in Psychology 9: 699. https://doi.org/10.3389/fpsyg.2018.00699
Trafimow, D., Marks, M. (2015): Editorial. Basic and Applied Social Psychology 37(1): 1-2. https://doi.org/10.1080/01973533.2015.1012991
Wasserstein, R.L., Lazar, N.A. (2016): The ASA’s Statement on p-Values: Context, Process, and Purpose. The American Statistician 70(2): 129–133. https://doi.org/10.1080/00031305.2016.1154108
Wasserstein, R.L., Schirm, A.L., Lazar, N.A. (2019): Moving to a World Beyond “p < 0.05”. The American Statistician 73(sup1): 1–19. https://doi.org/10.1080/00031305.2019.1583913
Wilkinson, L. and Task Force on Statistical Inference, American Psychological Association, Science Directorate (1999): Statistical methods in psychology journals: Guidelines and explanations. American Psychologist 54(8): 594–604. https://doi.org/10.1037/0003-066X.54.8.594
Yates, F. (1951): The Influence of Statistical Methods for Research Workers on the Development of the Science of Statistics. Journal of the American Statistical Association 46: 19–34. https://doi.org/10.1080/01621459.1951.10500764
Yates, F., Healy, M.J.R. (1964): How Should We Reform the Teaching of Statistics? Journal of the Royal Statistical Society 127: 199–210. https://doi.org/10.2307/2344003
Ziliak, S.T., McCloskey, D.N. (2008): The Cult of Statistical Significance. How the Standard Error Costs Us Jobs, Justice, and Lives. Michigan, The University of Michigan Press. https://doi.org/10.3998/mpub.186351
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-28 02:27
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社