||
上周六(2022年3月19日)我在‘可重复性与开放科学中文圈Chinese Open Science Network (COSN)’的公众号平台上作了一个短短的报告。该报告通过全面详细地介绍罗伯特.马修斯 (Robert Matthews)先生的两篇短文(第一篇摘译,第二篇全文翻译),以时间轴为线索向与会听众们就美国统计学会(ASA = American Statistical Association)关于p-值及统计显著性问题的2016年发表的正式官方声明(对 p-值的理解与应用的六项原则)的来龙去脉做一个总体情况概括与深入解读。作者罗伯特.马修斯是位于英国伯明翰的阿斯顿大学(Aston University)数学系的一位客座教授。作为一个职业科学专题的作家,自1990代起他就一直关注报道有关统计假设检验在科学研究过程中的应用与效果的新闻。罗伯特.马修斯先生的文章是他对p-值及统计显著性问题的多年的观察与思考的系统总结,可以作为每一位关心与使用统计数据分析的科研工作者的不可多得的参考资料。
这里我将3月19日的报告内容分为两个博客文章登出。
以时间轴为背景的总体情况概括:
· 作者罗伯特.马修斯 (Robert Matthews)从1990年代后期开始关注p-值及统计显著性问题
· 2015年美国统计学会(ASA)关于p-值及统计显著性问题的专题小组会议及2016年ASA的就此问题发表的正式官方声明(对 p-值的理解与应用的六项原则)
· ASA的p-值声明发表一年后的情况跟踪总结 (2017)
· 2017年10月ASA组织了一个历时两天的专题研讨会,2019年3月“美国统计学家 (TAS)”期刊卷73的专题特辑发表了43文章以及编者按文章‘迈向一个不再需要“p < 0.05”的世界’(Moving to a World Beyond “p < 0.05)。
· ASA的p-值声明发表五年后的情况跟踪总结 (2021)
美国统计学会的p-值声明发表一年后的情况跟踪总结 (2017)(摘译)
Robert Andrew Matthews; Ron WassersteinRon Wasserstein, David Spiegelhalter, The ASA's p -value statement, one year on, April 2017, Significance 14(2):38-41; DOI: 10.1111/j.1740-9713.2017.01021.x
2017年作者自我介绍:作者罗伯特.马修斯 (Robert Matthews)是位于英国伯明翰的阿斯顿大学(Aston University)数学系的一位客座教授。他也是‘意义/重要性/显著性(Significance)’杂志的编辑部成员之一。他的最新写作出版的书是‘寻找机遇:机遇定律与如何利用它服务于你(Chancing It: The Law of Chance and How They Can Work for You)。
其目的是要终止滥用统计显著性检验的状况。但是作者罗伯特.马修斯认为美国统计学会的p-值声明发表后至今12个月情况几乎没有改变。
(以下为摘译的正文部分)
个人的相关经历
从1990年代后期我以一个英国大报记者的身份第一次调查p-值问题至今,我已经与这个问题纠缠了20年之久。作为星期日电讯报的科学栏目通讯记者,对发表在经审稿人把关的学术杂志上的研究发现成果进行报道是我赖以谋生的基本工作。年复一年之后,我对究竟有多少“统计性显著”的研究发现会最终被证明与后来的研究成果相矛盾从而就销声匿迹了的情况产生了兴趣。
作为一个理科专业的毕业生,我对p-值多少有些认识,而感觉上是那些销声匿迹的研究成果的比例似乎要高于1:20这个上限 - 这个我认为的p<0.05应该保证的界限。尤其是在营养学与流行病学领域的研究发现,这样的从“统计显著性”到随后便销声匿迹的现象其程度令人吃惊。针对p-值问题的阅读使我认识到无法最终收敛到一个“正确答案”的因素有很多:比如样本容量不够大、混杂因素、偏差。但是,这种从“显著”到销声匿迹的现象同样出现在大规模的对救命药物的随机控制的临床试验(RCT)的研究项目中。
感觉到这或许能成为一个科学专栏的重大新闻,我开始阅读更多的专业文章,为的是找出这些现象背后的可能的原因。突破口是我读到的Berger和Sellke合著的1987年发表在美国统计学会杂志上经典文章【2】,该文对p-值作为一个证据权重的测定指标的影响进行了量化。他们的发现 – 至少对我来说 – 是令人震惊的。简单地说,他们揭示出,即使在宽泛的假设条件下,一个p-值=0.05的研究发现可以把真实的“显著性”夸大了一个数量级(即十倍,译者注)。
我的第一篇关于p-值与不可靠的科学成果之间联系的报道发表在1998年9月的星期日电讯报的回顾栏目里。细心的读者会发现,由于栏目编辑坚持要配上一个醒目的标题,这篇2700字的批评显著性的文章的标题有点玄乎“卫生健康领域的大骗局”。
在那个时候我已经有种预感,这样的报道即使发表在最流行的八卦小报的头条也不会掀起什么大的影响。在我对此问题的调查研究过程中,我联系了多家不同的学术机构,其中包括皇家统计学会(RSS),以了解他们对p-值问题的立场观点。他们的反应是出奇的类似:当然啦,我们都知道存在这个问题,是的,我们考虑过要采取行动 - 但是不是的,我们不打算这样去做,因为它会惹出太多的麻烦。一个我在皇家统计学会的联系人以不存留谈话记录的方式告诉我,其担心在于这个问题会重新引发二次大战后曾发生的在贝叶斯学派与频率主义学派之间十分激烈且不愉快的论战。
在得不到专业机构的支持的情况下,并且仅凭着传闻这样的证据,况且其涉及的问题甚至许多科学家也努力在弄明白是怎么一回事,其它的新闻媒体当然也就没有跟进报道。我决心对这个问题继续追踪下去,我试图引起国会对此问题的关注,并且与英国下议院一个有影响力的专门委员会的主席见了面。他专心地听了我的陈述并且迅速地抓住了问题的本质。然后就碰到了往下走的真正障碍,如果拿不到问题严重程度的真凭实据 – 比如说浪费了多少纳税人的钱或造成了多少人命损失,最好两样都有 – 他的委员会无法找到正当的理由来支持对这个问题的继续深入调查。
之后的几个月时间,我继续在某些专业的媒体渠道上发表了一些关于p-值问题的报道,没有产生任何大的影响。甚至《新科学家》杂志也很难不把p-值问题的报道看作仅仅是统计界的一个学究之争罢了。如此我只好放弃努力,只能写一些我曾经有过的想法在学术刊物上发表一下【3】,然后继续前行 – 却始终期望着有朝一日这个悬而未决的问题会重新燃亮而引起人们的关注。
信息框内容:P-值问题的概要
调查某人是否具有超感认知能力(ESP = extra-sensory perception)的一个简单办法是要他/她猜出所谓的齐纳卡片(Zener cards)上的五种可能的标识(形状/名称及颜色等)。如果是随机乱猜的
https://en.wikipedia.org/wiki/Zener_cards (齐纳卡片图片下载自互联网,为译者加注)
话其猜中的机会是20%;假定某人猜了100次其中正确猜中了32次,这就明显不同于20%的胡乱猜中水平的结果。但是这个结果能作为他/她真的具有超感认知能力有说服力的证据吗?
一个显而易见的评价方法是算一算它的概率,Prob(具有超感认知能力;以100次猜中了32次作为依据),当然这个概率值高意味着令人信服的证据。不幸的是,要依据概率论的定律来估算这个概率需要几个彼此矛盾的假设条件 – 尤其是具体到关于超感认知能力的内在合理性的考虑。但是统计教科书给出了一个看上去十分类同的统计量:一个被称作p-值的用来界定“统计显著性”的测量统计量,定义为Prob(100次至少猜中了32次;假定参与者随机乱猜/靠碰运气)。
运用合适的公式可得出在这样的猜中率的条件下p-值为0.003. 也就是说,如果仅靠随机乱猜的话,这是一个几乎为300分之一或比这更低的机会才能达到的非同寻常的结果。更好的是,这么小的p-值轻轻松松地达到了以久经考验的p<0.05为衡量标准的“统计显著性”。的确,所得到的p-值是如此的小,它清楚地意味着参与者具有超感认知能力的概率一定会相对应地大。但是这恰恰是p-值错误陷阱产生的原因。由于p-值的计算是基于假定参与者靠随机乱猜(即没有超感认知能力)这个先决条件,其结果当然不能简单地变相解释为它就代表了‘参与者是靠随机乱猜’这个假设为正确的概率。更糟糕的是,当我们正确地算出‘参与者是靠随机乱猜’这个假设为正确的概率的时候,p-值往往被证明是大大低估了在给定的样本观察结果的条件下‘参与者是靠随机乱猜’这个假设为正确的概率 – 即p-值所体现出的“显著性”的程度是被夸大了的。
简单一句话就是,对一个有非常特定含义的问题p-值给出了一个有多重复杂含义的答案 – 问题的定义是如此的特殊具体以至于它非常容易误导我们去认为p-值给出的答案一定代表了某种特定的含义而其显著性程度其实是被夸大了的。(信息框内容结束)
(以上为摘译的文章正文部分;以下为摘译的文章的回应评论意见)
“比赛仍在进行” 罗纳德.瓦萨斯坦发表的回应意见(Ronald L. Wasserstein,从2007年起就一直担任美国统计学会秘书长(Executive Director)的职务,译者注)。我们遗憾地承认,不存在一个单一、完美无缺的方法/方式可以将数据分析结果转变/转换成为科学结论。如果有谁这么认为的话那才令人吃惊了!科学是复杂的,相关的推断分析不是一件容易的工作。有一代又一代的科研人员普遍接受了这样的观点,认为p-值,或任何单一的指标就能够对“这组数据究竟告诉了我们什么?”这个问题提供一个简单明确及客观的答案,这实在让科学事业为此付出了极高的代价。
我们同意马修斯的看法,认为所公布的p-值声明着重于什么不要做而对要做什么阐述的不明确。该声明没有能够走的足够远,但它实在是推进到了它所能达到的最远距离。马修斯的观察是对的,统计学家们并未能在如何最好地推进到后p<0.05时代的问题上达成共识。形成这样一个结局并不奇怪因为影响因素众多,但特别要指出的是期望有一个根本性的方法能解决所有统计推断的问题是不合理的。然而,没能形成共识并不意味着没有各式各样的有效方法能够改进提高统计推断分析的现状。
为弥补p-值声明的不足,美国统计学会(2017年)10月份将组织举办一个关于统计推断的专题研讨会。这个专题研讨会的标题就是“21世纪的科学方法:一个超越p<0.05的世界”。
“(我们对p-值)因为太熟悉而无法离弃”大卫.斯皮格豪特(英国皇家统计学会前会长David Spiegelhalter, 2017-2018 President of the Royal Statistical Society (译者注),就p-值问题以私人名义发表的意见)美国统计学会的p-值声明所指出的问题非常值得称道,但这些问题是连半桶水的统计学家都很清楚的,关键是我们应该如何应对这些问题。
(以上为摘译的文章的回应评论意见)
参考文献:
【1】Wasserstein, R.L. and Lazar, N.A. (2016) The ASA’s statement on p-values: Context, process, and purpose. American Statistician, 70, 129-133.
【2】Berger, J.O. and Sellke, T. (1987) Testing a point null hypothesis: The irreconcilability of p values and evidence. Journal of the American Statistical Association, 82(397), 112-122.
【3】Matthews, R.A.J. (2001) Methods for assessing the credibility of clinical trial outcomes. Drug Information Journal, 35(4), 1469-1478.
【4】Fisher, R.A. (1925) Statistical Methods for Research Workers. Edinburgh: Oliver & Boyd.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 13:25
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社