||
美国统计学会的p-值声明发表五年后的情况跟踪总结 (《显著性》杂志2021四月刊)(全文翻译)
Original source:
Robert Andrew Matthews, The ASA's p -value statement, five years on, April 2021, Significance. https://cdn.csu.edu.au/__data/assets/pdf_file/0008/3941189/The_p-value_5yrsOn_2021.pdf
2021年作者自我介绍: 作者罗伯特.马修斯 是位于英国伯明翰的阿斯顿大学(Aston University)数学系的一位客座教授。作为一个科学专题的作家,自1990代起他就一直关注报道有关NHST( 缩写 = Null Hypothesis Significance Test 直译为‘无效假设显著性检验’;更全面准确的翻译为: 统计假设检验范式 - the Null Hypothesis Significance Test paradigm)的应用所产生的危害研究成果的可靠性的问题。
(以下为文章正文部分)
美国统计学会2016年的p-值声明引发了各种的不同意见和争论,杂志期刊发表编者的话及专题讨论会的召开,以及大量的关于科学如何才能向健康方向改进发展的建议。现在,五年过去了,作者罗伯特.马修斯想知道,如果有的话,p-值声明究竟促成哪些改变?
五年前的2016年三月,美国统计学会(ASA)发表其地标式的声明,其针对的是这个被最广泛使用的,也是被滥用的从数据中获取答案的分析方法。它以‘统计假设检验(NHST)’为名广为人知,在将近一个世纪里已经成为了研究人员的必备的用于试图确认所探索到的新发现的方法/工具。【1】
统计假设检验,正如美国统计学会的声明所明确指出的,就是问题的症结所在。统计假设检验的关键要素 – 尤其是p-值 – 并不具备研究人员所期望它所应具备的功能。不论无数的研究论文、统计课程及教科书如何已经造成了这么一种印象,p-值低于0.05并不能“肯定”任何东西/效应的真实性;同样的,p-值高于0.05也不能否定任何东西/效应的真实性。正如美国统计学会的声明所指出的,在过去几十年的时间里统计学家们一直在努力阐明这一点,却无济于事。通过将此问题引起大众的关注,全球最大的统计专业人员协会组织(指ASA)的理事会希望能通过“吸引更新的和严谨的关注以达到改变统计推断在科学研究中现行的应用模式的目的”。
五年过去了,美国统计学会已经清楚地达到了这个目标。其p-值声明已被阅读了几乎50万次并且被引用了3600次,同时因此孵化了无数的文章在学术期刊甚至在热门媒体上发表。然而,当p-值声明刚刚发表的时候,许多人其中包括作者本人,【2】对该声明是否能不仅仅就“如何推动研究进入到‘后p<0.05时代’”这个议题引发更多的争论而且能走的更远,是持怀疑态度的(链接bit.ly/2aQdmln)。
那么,五年过去了,p-值声明的发表究竟取得了什么成效呢?答案既可以说是“成果巨大”, 同时也可以说是“成果十分有限”。
评论文章之间的论战
对2016年p-值声明的一个主要的批评意见是,它集中关注指出了研究学术圈在应用NHST时所必然带来的种种弊端,但却仅仅给出了粗浅的关于问题的解决方案的指导意见。如果美国统计学会秘书长Ron Wasserstein及其同仁没有下决心继续推动这项工作的话,情况的确如此。2017年十月他们组织召开了一个专题研讨会(链接bit.ly/3q4Io6i),随后在大众可免费获取的网上《美国统计学家》杂志上出了一期特辑,其中收集发表的文章专门围绕超越p<0.05的各种可行的办法这个主题。【3】 这两件事都引起了巨大的反响,专题研讨会的每个部分都是场场爆满 – 俨然成了“统计推断的伍得斯托克Woodstock音乐艺术节”,而《美国统计学家》的专题特辑则收集发表的文章超过40篇的文章。这期专题特辑还包括了一篇“编者的话”文章,其内容是比2016年的p-值声明更进了一步,它提出了“是时候完全停止使用‘统计意义上是显著的’这样的表述了”,这也包括那些同样含义的变种形式的表述,像“非显著的”及“p<0.05”。
以上提到的所有这些构成了所谓的美国统计学会p-值声明发表五年来的最大的成果:它对以各种方法从各个方面对NHST这个庞然大物发起攻击起到了积极促进作用。
第一个提出的建议试图通过逐步改进的方式而不是彻底改变的模式来解决问题。2017年9月,《自然人类行为》杂志刊登了一篇评论文章,该文倡议将宣告研究新发现的统计显著性的评判标准阈值从0.05收紧到0.005 。【4】 该文的作者们 – 其中不乏许多有影响的统计学家 – 认为这样一个“简单的改进措施”将有助于在根源上解决重燃了p-值辩论战火的问题:“所宣告、发表的研究新发现无法被重复验证的危机”, 这个危机集中表现在心理学、及从医学到经济学等的研究领域中,很多的研究项目存在着令人惊讶的高比例的无法被重复验证的“成果”。造成这些“成果”无法被重复验证的解释理由有很多, 从不正常地筛选数据以获得能达到“显著性”的p-值到不胜任统计分析工作及有意欺诈。这篇评论文章认为问题的关键之处在于确认统计显著性的标准阈值太过宽松了。作者们声称,把标准阈值收紧提高一个数量级将会“把假阳性率减低到我们认为是合理的水平。”
作者们为他们的主张提供了理论依据及经验证据 – 分析结果表明p<0.005对比p<0.05的阈值评判标准大致上可使得所声称的成果被成功重复验证的几率翻倍。作者们承认p<0.005的阈值标准不是一个包治百病的灵丹妙药,但他们同时强调实施p<0.005这个新标准至少是“可操作的一步而这一步将在改善重复验证结果成功率的问题上起到立竿见影的效果,”至于那些研究发现仅能满足常规的p<0.05条件的则将被称作“建议性/有可能的”(suggestive)研发结果。
人们对这个倡议的反应验证了著名的统计学家约翰.土奇(John Tukey)的说法,代表我们这个行业的集体性名词应被称为统计学家们的“争论不休”。甚至当这个评论文章还只是一个预印本(preprint)的时候就遭到了攻击。“这么一大群聪明人却给出了这么一个极端糟糕的建议太令人失望了”,英德霍芬理工大学的方法论专家Daniel Lakens在他的推文中这样说。
Lakens组织了一个众多共同作者署名的反驳文章,六个月之后发表在同一个杂志上。【5】 这篇文章的作者们指出,新提出的p=0.005这个阈值标准与p=0.05的标准同样是一个人为主观选择的结果,并且其所声称的在证据权重方面的提高是建立在有疑问的假设条件的基础上的。至于所提出的支持收紧阈值标准的经验证据,Lakens及其共同作者们说,按(原评论文章作者们)他们自己提出的标准来衡量就通不过 – 标准本身仅仅是“建议性/有可能的”(suggestive)。他们还警告,坚持使用p=0.005的标准会使得重复验证新分析的研究项目数量更少,因为样本容量及研究费用都将相应提高以保证在更严苛的标准下仍有合理的几率水平达到统计显著性。这样就会导致更多的研究项目选择更大的样本容量但可能是有系统偏差的样本数据,比如像网上样本调查的结果。
简单来说,Lakens和他的共同作者们想要的是一个对NHST更广更深的全方位的检讨批判,包括从验前证据和研究方案设计,到清楚地确定和论证目标效应值和精确度指标。针对“重新定义“统计显著性的倡议,正如《美国统计学家》的专题特辑的‘编者的话’文章所归纳总结的,Lakens及他的共同作者们倡议把统计显著性这个概念弃除掉。
阵地战
评论文章之间的论战让针对NHST的主题辩论一直热度不减地持续到2019年,甚至时尚媒体也对这些辩论进行了报道。“多么书呆子气的关于p-值的辩论 - 科学研究出了问题及如何纠正所出现的问题”,美国新闻网站Vox这样报道(链接bit.ly/2MzLWQ6)。然而回过头看2019年显然是从对NHST发动大规模进攻后转入到了持久阵地战的一年。
2019年春天人们看到了《美国统计学家》的专题特辑的发表,所包括的文章提出了很多如何超越p-值统计分析范式的建议。【3】 人们也看到《自然》- 或许可以算是世界的最权威的研究杂志 – 发表了一篇由三位有影响力的统计学家署名的倡议应该弃除统计显著性这个概念的文章。【6】 这次,然而,其焦点是针对分析结果无统计显著性时所带来的问题,它如何不断地误导研究人员将所得到实际可能有真实效应的结果判定为“无效结果”(null results)(详见“这里啥也看不见吗?”信息框内容,第18页)。
此文对文献引用的样本调查的研究发现超过一半的文章都把非显著性的分析结果错误地解释为意味着无效结果得到了确认,文章的作者声明:“我们要直截了当地对这种荒谬的“对无效结果的证明”表示厌恶(我们实在是受够了这种荒谬的“对无效结果的证明”) — 一种得到广泛认同的感受,有800多名来自超过50个国家学者的共同签名支持就是一个有力的证据。然而,任何对《自然》杂志会因此做出重大制度性调整的希望很快便破灭了。“各种观点都有各自合理的部份”,在同一期的《自然》上登载的编者的话这样轻描淡写地写道,“目前本杂志不打算改变如何评审投稿文章的统计分析的现行规定。”【7】
2019年12月更糟糕的事发生了,美国国家自然科学院(NAS = National Academy of Sciences) 出版了关于可重复性危机的共识研究报告。【8】 虽然指出了NHST的确存在某些问题,该报告只是和风细雨地建议学术机构“应该针对正确应用统计分析和推断的问题进行必要的培训”以及“研究人员在应用统计推断分析时要学习正确地使用这些方法。”讽刺性的是,该报告自身对p-值是这样定义的:“一个对已观察到的统计量值是随机产生出现的可能性的度量” – 这是一个典型常见的逻辑混肴的错误理解。虽然NAS后来更正了其措辞以给出一个正确的p-值定义(请参阅“这里啥也看不见吗?”信息框内容)那些对谁说了都是正确的建议保留依旧。
美国最高自然科学学术机构在她的报告中至少还承认了应用NHST会给研究人员所带来种种的问题。相比之下,英国皇家统计学会 – 这个世界上历史最长的国家科学机构 – 至今未对这个可以说是对科学事业有着重大且急迫威胁的问题做出任何实质性的声明。
权威的学术机构没有兴趣做出实质性的改变以及绝大部分的领头杂志只是对它们的投稿作者指南做了些调整,在这种情形下,在职的研究人员们没有向后p<0.05的世界迈进的动力。相反的,投稿作者们牢牢地被杂志的编辑及审稿人的要求所捆绑:请用显著性检验的结果来“证明”你的新发现。
为什么需要做出这样的改变
现实情况是,从改变现行的研究范式的角度看,ASA的p-值声明几乎什么作用也没有起到。然而,做出这样的改变的需求比以往任何一个时候都要迫切。这样应该发生而尚未能实行的改变的程度与重要性从以下这个例子中可以得到体现 – 这是一个发表在权威的《美国医学学会杂志(JAMA)》上的研究项目的发现结果,其发表的时间正是在NHST的论战白热化的时候。
仙女座休克随机化控制临床试验(RCT)研究项目是为了比较感染性休克病人的治疗方案 – 一种由于因感染引发的血压下降可能导致生命危险的疾病。【9】 研究人员想知道基于毛细血管再充盈时间(CRT=capillary refill time)的治疗方案是否比基于血液中的乳酸盐水平的方案更能降低病人的死亡风险。测试CRT相对简单、快捷且成本低,所以,一个答案是肯定的结果对患者将是个好消息,尤其是对那些处于低技术等级的卫生医疗系统中的患者。
有超过400名患者参与了这个试验,每个病人都被随机地分配到CRT方案组或基于乳酸盐水平的方案组,并跟踪观察28天。分析结果显示CRT确实疗效比较好:CRT组的病人的死亡率比乳酸盐组的病人要低8.5%,而其对应的所谓风险比值为0.75 – 即25%的改善率。在设计此试验时,研究人员却是假定了一个相对较大的15%死亡率减少百分比。那个乐观的假定条件使得这个试验的统计功效不够,即所得到相对更好的疗效结果无法达到p=0.05的阈值。这些分析结果当然就是“非显著的”,从而使得研究人员们的结论声称CRT治疗方案“没有能降低28天不分基础病因的死亡率”。
统计学家们在社交媒体上就他们所见发出悲叹,这是又一个例子 – 一个顶级杂志没有能指出这样的把非显著性结果解释为没有果效的无知大错。之后发现那些研究人员其实也相信CRT方案疗效更好并且打算作出“更肯定的结论” – 却被杂志的审稿人及编辑告知要以客观的统计分析结论为准而不要受因可能的好结果带来的主观情绪所左右(链接bit.ly/3r3dfvL)。
该杂志除了声明“JAMA的编辑已经给出了对随机化控制临床试验(RCT)分析结果解释的详细规定”之外拒绝对此案例作更多的回应。可是,对于许多的统计学家,不论JAMA的规定如何,仙女座休克随机化控制临床试验(RCT)研究项目文章所作出的结论是一个明白无误的错误。
争议引发了应用贝叶斯统计方法对此问题的重新分析,【10】这些重新分析的结果能够帮助从NHST的争议性的结论中吸取教训/得到启发。对于仙女座休克随机化控制临床试验,贝叶斯统计分析包括了对CRT方案的疗效作出了不同的验前估计值的假设。贝叶斯分析结果显示,尽管是“非显著的”,在所有假设的验前估计值的条件下,CRT治疗方案比乳酸盐治疗方案在减低28天死亡率上疗效更好的可能性/概率高于90%。
尽管是管用的,正如ASA 2016年的p-值声明所指出的,贝叶斯统计分析方法的应用在领头杂志发表的文章中依然并不多见。部分的原因在于贝叶斯方法的不平坦的历史发展过程以及其应用的复杂性。然而正如《美国统计学家》的专题特辑所展示的,要跨越显著的还是非显著的这个难题,正宗的贝叶斯分析并不是唯一可行之道。用一个计算器就可以有办法“解谜”标准的置信区间和p-值,揭示出更多的其中的秘密(详见“让p-值更加勤勉地工作”信息框内容)。
现在越来越多的医学专家们认同这个观点,仙女座休克随机化控制临床试验(RCT)研究项目文章所作出的结论是误导人的。即使如此,这个事件依然给如何能最佳地医治传染性休克病人的问题的答案投上了阴影 – 传染性休克目前已成为了全球性的卫生威胁的一部分:新冠病毒(Covid-19)。
一种统计推断病毒
2021年3月是世界卫生组织宣布新冠病毒传播已成为全球性的流行病一周年 – 截至三月一日为止,它已夺去了超过2百50万人的生命。这个日子也标志着我们因为无法应对NHST的更加暴露无遗的缺陷所带来的损失又过去了一年。
在找出如何能最好地应对这样的病毒全球大流行的事件的任何有用的信息的努力过程中,研究人员们把目光转向了已发表的学术成果上,所碰到的却是一堆研究计划设计不严谨的项目,通常这些研究项目的数据样本容量太小,就单个项目而言其结果无法给出更明确的结论。要把从各个不同项目所得出的研究结果综合起来进而能提高其结论的证据的可靠性。即使把单个结果综合,有些情况下得到的也是有效的但非显著性的结果 – 于是导致评审人陷入了要认定这样的结果为‘没有有益效用结果’这样的结论陷井。病毒全球大流行时间已长达一年之久,连简单到如可采取抗感染漱口这样的卫生保护措施的行动都被先前发表的研究项目报告中这样的含混不清的解释给搞得无所适从。
全球现在是寄希望于疫苗来结束新冠病毒的流行。由于各种病毒总是在我们生活当中存在着的,我们要找到一种与病毒共存的生活方式。ASA的p-值声明已发表了五年之久,如果说在这五年里我们看到了什么,那就是NHST这个统计推断分析病毒在相当长的一段时间也会与我们共存。然而,在过去五年里,一个可能的摆脱目前困境的出路已经显现,这是一个给研究人员们打“预防针”的解决方案以对抗NHST病毒所带来的最大的危害:即一种虚幻的信念认为统计显著性就等于科学证明。
美国统计学会和英国皇家统计学会都鼓励开发这种统计分析病毒疫苗(链接bit.ly/3uSIGRo),其形式就是以简单的分析方法来表达出p-值及置信区间所含有的真实信息,从而降低错误解释统计推断结果的风险(请再参阅“让p-值更加勤勉地工作”信息框内容)。现在需要积极地推广这些分析的方法以达到一个非常明确的目的,那就是向研究人员们展示,单单靠把研究发现结果对照这个已被证明为靠不住的p=0.05的评判标准就得出科学发现的结论,这样的做法既无必要也不可被接受。
促成这个变革的最大的障碍可能是来自统计界本身。过去的历史显明每一个新提出的统计推断分析方法都在“争吵”的过程中会被挑出有致命缺陷的毛病。然而,若想结束NHST带来的不可靠的科研成果的这种流行病,我们就要以实用的态度来接受这样的现实,即任何统计推断方法都可能误导研究结果,但有些方法比另一些方法更好。
除非研究人员们能很快地从统计学家们那里得到他们所需要的帮助,NHST对科学事业所造成的损害可能会是毁灭性。
信息框 1:这里啥也看不见吗?(非统计显著性的结果绝非是一个“什么东西都看不见”的结果)
针对p-值的担忧很多是关于对p-值的错误理解和应用。p-值所代表的是,假定它是一个碰巧得到的随机变化的结果,其被观察到的效应量及其比它更极端的情况这样的事件的发生概率。但是,太常见的是,这个有多重复杂含义的概念被曲解为一个简单化了的、更有用但却是非常不同的东西:某个效应值实际上是一个碰巧得到的结果的概率。并且这个被曲解了的p-值的理解与应用导致了这样一个被广泛地及错误地接受的数据分析行为,即p<0.05代表了某个效应值被‘证明’了其存在的真实性。“非统计显著性”的p-值 – 即当p>0.05时 – 同样地被广泛地及错误地认为是‘证明’了某个效应不存在。这样的错误理解及应用能产生解释不通的分析结果/结论,例如,那些被确认为彼此相矛盾的研究结果/结论实际上应当是彼此相一致的。
一个相关的例子就是关于他汀类药物的疗效证据问题 – 他汀类药物被广泛用于控制胆固醇水平 – 它或许能把脑内胶质瘤发病的风险减低25%。2016年的一个大规模的研究发现似乎支持这个风险降低25%的结论。【2】 然而,结论的不确定性水平的波动范围为减低52%的风险到增加17%的风险,对应的p-值为0.2 。这样此项研究的发现就成了“统计上非显著的”了,从而导致有关的研究人员得出了该项目的研究发现结果不支持之前报告的同样研究项目的结果的结论。其实,只需简单地画出其对应的概率密度分布曲线我们就可以得到一个明显不同的答案(见图)。
其最可能的数值为减低风险水平20% - 与之前报告的研究结论一致 – 概率密度函数曲线下对应“非显著” p-值(红色部份)的区域面积明显地大大小于支持他汀类药物有抑制保护效果的(绿色)区域面积。正如Valentin Amrhein 及其共同作者们在他们的《自然》杂志发表的文章中所悲叹道的:“统计分析怎么会如此地误导科学家们去否认研究发现所揭示出的差别,这些差别甚至是那些从没有学过统计分析的人都能一下子就看出来的?”【6】(信息框 1内容结束)
信息框 2:让p-值更加勤勉地工作
在2016年美国统计学会的p-值声明发表后,出现了对能帮助研究人员在报告他们的研究成果时不再依赖p<0.05的方法的需求的呼声。2019年3月在《美国统计学家》上的专题特辑里发表的文章中提出了各种各样的方法用来将p-值这个统计推断分析的陷阱变成为能恰当解释分析结果的有用的统计指标。【3】
统计学家们很久以来就提出了警告 – 反对使用p-值来决定某个效应是否真实存在。考虑到p-值及其理解应用所带来的混乱,许多统计学家呼吁禁止p-值的使用。然而,有其他统计学家争辩道,如果能正确地理解应用p-值,它是一个简洁但却含义丰富的有用的统计指标。美国加州大学洛杉矶分校的Sander Greenland就是他们当中的一个。他在《美国统计学家》上建议,p-值最好是被视作(在具体给定的假设条件下)相对各种统计假设的相符合性的衡量指标 – 不仅仅是针对无效结果的统计假设而言。具体应用到仙女座休克试验研究的案例中(见本文正文部份),Greenland的方法显示(在给定的随机化临床试验(RCT)的假设条件下),所谓的“非统计显著性”的结果实际上更符合存在有益效应的结论而不是有益效应不存在的结论。
p-值所带来的另一个麻烦是其正确的计算与解释是随着某个特定的研究试验的目的与设计的不同而改变的。在《美国统计学家》上的同一专题特辑里,纽约大学的生物统计学家Rebecca Betensky 提出了一个方法可使某个p-值对应一个特定的效应值与样本容量的组合。【14】Betensky的方法告诉我们在解释所得到的p-值时应如何把它与对应的效应值和样本容量联系起来。以仙女座休克试验研究为例,该方法也同样揭示出,尽管其结果是“统计上非显著的”也不能就此得出随机化控制的临床试验(RCT)的结果并不比乳酸盐方法更好的结论。在允许目标效应水平(即假定的疗效提高程度水平)次优的条件下,这个“统计上非显著的”研究发现结果甚至可以转变成为有实质疗效改善的证据。正如Betensky所说:“研究的具体内容才是统计分析根本”。
其他的专家们也提出了不同的能够更好地使用p-值的建议方法。其中有苏黎世大学的Leonhard Held,他提出了把p-值与研究发现的“固有可信度”及能成功重复某个试验的发现结果的概率联系起来的方法。【15】 应用Held的方法显示,尽管原分析发现的结果是“统计上非显著的”,重复仙女座休克试验研究有90%的可能是支持随机化临床试验(RCT)的结果更优的结论。(信息框 2内容结束)
参考文献:
【1】Wasserstein, R.L. and Lazar, N.A. (2016) The ASA’s statement on p-values: Context, process, and purpose. American Statistician, 70, 129-133.
【2】Matthews, R.A.J., Wasserstein, R. and Spiegelhalter D.J. (2017) The ASA’s p-value statement, one year on. Significance, 14(2), 38-41.
【3】Wasserstein, R.L., Schirm, A.L. and Lazar, N.A. (eds) (2019) Statistical inference in the 21st century: A world beyond p<0.05. American Statistician, 73(sup1).
【4】Benjamin, D.J., et al. (2018) Redefine statistical significance. Nature Human Behaviour, 2(1), 6-10.
【5】Lakens, D., et al. (2018) Justify your alpha. Nature Human Behaviour, 2(3), 168-171.
【6】Amrhein, V., Greenland, S. and McShane, B. (2019) Retire statistical significance. Nature, 567, 305-307.
【7】Editorial (2019) It’s time to talk about ditching statistical significance. Nature, 567, 283.
【8】National Academies of Sciences, Engineering, and Medicine (2019) Reproducibility and Replicability in Science. Washington, DC: National Academies Press.
【9】Hernández, G., et al. (2019) Effect of a resuscitation strategy targeting peripheral perfusion status vs serum lactate levels on 28-day mortality among patients with septic shock: The ANDROMEDA-ShOCK randomized clinical trial. Journal of the American Medical Association, 321(7), 654-664.
【10】Zampieri, F.G., et al. (2020) Effects of a resuscitation strategy targeting peripheral perfusion status vs serum lactate levels on 28-day mortality among patients with septic shock. A Bayesian reanalysis of the ANDROMEDA-ShOCK randomized clinical trial. American Journal of Respiratory and Critical Care Medicine, 201(4), 423-429.
【11】Matthews, R.A.J. (2020) A simple, low-cost potential means of protecting healthcare staff is being overlooked. British Medical Journal, 369, m1324.
【12】Seliger, C., et al. (2016) Statin use and risk of glioma: Population-based case-control analysis. European Journal of Epidemiology, 31, 947-952.
【13】Greenland, S.(2019) Valid P-values behave exactly as they should: Some misleading criticisms of P-values and their resolution with S-values. American Statistician, 73(sup1), 106-114.
【14】Betensky, R.A.(2019) The p-value requires context, not a threshold. American Statistician, 73(sup1), 115-117.
【15】Held, L. (2019) The assessment of intrinsic credibility and a new argument for p<0.005. Royal Society Open Science, 6(3), 181534.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 12:03
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社