博文

“统计上是显著的” – 在做统计数据分析时请不要再这样说，也不要这样用了！

已有 5824 次阅读 2022-2-10 01:38 |个人分类:对统计推断及统计显著性问题的评述与讨论|系统分类:观点评述

自Karl Pearson1900年左右提出‘卡方检验’开始算起，现代统计学已走过了120年的历程。遗憾的是统计学界却无法在统计学理论及数据分析实践的最基本的问题上，即‘概率在实际生活中的定义解释’与‘统计假设检验’，向所有学习和使用统计理论即数据分析的人们给出满意的答案（详情请参阅我的博文：统计学界至今无法在概率的定义这个基本问题上达成共识https://blog.sciencenet.cn/home.php?mod=space&uid=3503579&do=blog&id=1321302 ；统计显著性问题的历史由来及最新进展https://blog.sciencenet.cn/blog-3503579-1321101.html 。）

更令人不解与遗憾的是，长期以来各国的统计专业团体组织都不愿/不去对这两个最基本的问题做专题研讨并最终给出明确的结论。直到2015年，事情因美国统计学会/协会（ASA）出头组织了针对‘p-值与统计显著性’问题的专门/专责小组情况才出现了转机。到了2019年随着“美国统计学家”期刊卷73特辑(The American Statistician, Vol.73, No.S1)的出版，似乎情况开始朝着解决问题的方向发展。但2021年7月“ASA 主席关于统计显著性和可重复性的专责小组声明”的发表，让所有人再一次地在‘p-值与统计显著性’的问题上陷入无所适从的尴尬境地。这里我把2020年10月我在OpenTalk网上论坛的发言‘对美国统计学会/协会（ASA）提出的关于彻底抛弃“统计显著性”概念的倡议的简介及简评’的幻灯片内容做了一个编辑整理并发表如下。在本博文的结尾，我也把“ASA 主席关于统计显著性和可重复性的专责小组声明”全文转载。希望关注‘p-值与统计显著性’问题的博友/读者能够通过对以下这两篇东西的阅读/解读，做出你自己的判断与结论。

美国统计学会=American Statistical Association=ASA；“美国统计学家”杂志=The American Statistician=TAS

大致上p-值可以定义为，在一个给定的统计模型下的所关注的某个样本统计量（例如两个对比样本的样本均值的差）的极端值集合的概率。以公式表示：p-值 = Pr（D|H），其中D代表某个样本统计量的极端值集合、H代表一个给定的统计模型/统计假设。

“美国统计学家 (TAS)”期刊2016年卷70第二期的“ASA关于统计显著性与p值问题的六项原则声明”，这是ASA 2016年发表的官方声明(official statement)。

1）P-值可以衡量数据与一个给定的统计模型之间的不相符合的程度（P-value can indicate how incompatible the data are with a specified statistical model.）

2）P-值并不等于所研究的统计假设是否成立的概率，或者是所观察到的数据是否纯粹为随机变化的结果的概率（P-value do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.）

3）科学结论及商业或政策决策不应该单单依据某个p-值是否超过了某个设定的标准值（Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.）

4）有全面及透明的信息是获得合理恰当的推断结论/结果的必要条件（Proper inference requires full reporting and transparency.）

5）某个p-值，或者一个统计显著性的结果无法衡量一个相关的效应值的大小或代表某个分析结果的重要程度（A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.）

6）单纯就某个p-值自身而言，它不是一个衡量某个模型好坏程度或统计假设是否成立的好的指标（By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.）

“美国统计学家”期刊卷73特辑(The American Statistician, Vol.73, No.S1)的所有43篇文章及以下要介绍的开篇“编者的话（Editorial）”都可以从这个链接获取：Full article: Moving to a World Beyond “p < 0.05” (tandfonline.com)

开篇“编者的话（Editorial）”的题目是‘迈向一个不再需要“p < 0.05”的世界’（Moving to a World Beyond “p < 0.05”），长达19页，正文部分共分为七个部份。

1. （仅仅知道）“不应该做什么”是不够的

2. 不要再说“统计学意义上是显著的”（statistically significant）

3. 有很多应该做/可以做的东西

4. 编辑出版、教育和其它组织制度方面必须要有相应的改革/变化

5. 这一切都需要努力，需要时间

6. 为什么这样的变革最终是现在才出现/发生？

7. （所收录的43篇专稿文章的）作者们的建议

这篇“编者的话（Editorial）”的作者是 Ronald L. Wasserstein，Allen L. Schirm ，和 Nicole A. Liazar 。三人均为美国统计学会的当选院士会员(elected ASA fellow). Ronald L. Wasserstein从2007年起就一直担任ASA学会秘书长（Executive Director）的职务。https://hdsr.mitpress.mit.edu/pub/s8kgat35/release/1；Allen L. Schirm, Mathematica Policy Research (Retired), Washington, DC; has an A.B. in statistics from Princeton University and a Ph.D. in economics from the University of Pennsylvania. https://www.ncbi.nlm.nih.gov/books/NBK210101/；Nicole A. Liazar 是美国乔治亚大学的统计学教授。https://www.stat.uga.edu/directory/people/nicole-lazar 。

在第一部份，作者对“美国统计学家 (TAS)”期刊卷73的针对“统计显著性”问题的讨论及建议的专题特辑的发表与2016年的p-值的定义及六项原则声明之间的联系做了一个说明。“六项原则声明” 的一个特点是读者被告知了很多‘不应该做什么’（Don’ts）的原则却没有提出更多的‘应该做什么’（Do’s）的原则建议。原因在于参与讨论形成该“六项原则声明”的专家组成员无法在‘应该做什么’的的原则建议方面达成更多的共识，但在‘不应该做什么’的共识是比较一致的。破旧的同时也必须立新，否则旧永远无法被破除。从这个着眼点出发，2017年10月ASA组织了一个历时两天的关于统计推断的专题研讨会，其结果就构成了“美国统计学家 (TAS)”期刊卷73的专题特辑所发表的43文章的来由与基础。

这篇“编者的话（Editorial）”的第二部份，在我的理解，传达了ASA对“统计显著性”问题的根本立场：（在统计数据分析中请）“不要再说也不要再使用‘统计显著性’这个词/概念了”。ASA 2016年的六项原则声明更多的是针对p-值的误解与误用的问题，其根本原因则在于“统计显著性”这个支撑被广泛使用（滥用？）的统计假设检验的范式（Null Hypothesis Significance Test (NHST) paradigm）的核心概念。可以说，这次专题特辑所发表的43文章的主题就是“统计显著性”了。该部份的以下两段内容就是这篇“编者的话（Editorial）”最核心的信息。“…，任何p-值都无法揭示/代表某个效应值的可能性、存在性、真实性，或重要性。所以，赋予或具有了一个统计显著性的标签并不意味着有关的关联值或效应值就是高度可能、真实、确实，或重要。同样的，一个非统计显著性的标签也并不意味着有关的关联值或效应值就是不可能、不存在、不真实，或不重要。然而，正是这种划分为‘显著’的与‘非显著’的二分做法被当作了能够确认/决定这些（是否可能、真实、确实，或重要）特性的权威认证。”

“…, no p-value can reveal the plausibility, presence, truth, or importance of an association or effect. Therefore, a label of statistical significance does not mean or imply that an association or effect is highly probable, real, true, or important. Nor does a label of statistical nonsignificance lead to the association or effect being improbable, absent, false, or unimportant. Yet the dichotomization into ‘significant’ and ‘not significant’ is taken as an imprimatur of authority on these characteristics.”

“明确地说，这个问题不仅仅是关乎两个标签的问题。其（连续型统计量的）结果也不应该被三分化，或根本地说，不应该按照人为确定的p-值阀限值来划分为任何数量的组分/分类。类似地，我们也必须停止把置信区间作为另一个被二分处理的统计量的做法（根据无偏假设值是否落在置信区间内来判断）。并且，为防止同样的问题以其它的形式/面目再现，我们必须不去试图人为地按组分/分类来划分其它（连续型）统计量（比如贝叶斯因素）。”

“To be clear, the problem is not that of having only two labels. Results should not be trichotomized, or indeed categorized into any number of groups, based on arbitrary p-value thresholds. Similarly, we need to stop using confidence intervals as another means of dichotomizing (based, on whether a null value falls within the interval). And, to preclude a reappearance of this problem elsewhere, we must not begin arbitrarily categorizing other statistical measures (such as Bayes factors).”

这篇“编者的话（Editorial）”的第三部份讨论的主题是，彻底抛弃“统计显著性”这个概念之后我们应当如何做统计分析。该部份占了满满五页纸，是所有七个部份中第二长的。如果说2016年ASA的关于p-值的六项原则声明所传达的信息更多的是不应该做什么的话，这第三部份则是突出讲应该做什么。“编者的话（Editorial）”的三位作者为我们概括总结了一个由七个词两句话的原则：“接受不确定性。遵守不盲从（会思考），公开/开放，及不浮夸（中肯）的原则（或保持这样的态度）。”(Accept uncertainty. Be thoughtful, open, and modest. Remember “ATOM”)。要特别强调的是，不要试图去找一个能取代NHST的类似点金术、万应药式的统计分析范式，这样的东西是不存在的。

统计分析并不能去除数据自身固有的不确定性。NHST的统计分析范式的应用使得统计学常常被兜售成能去除数据自身固有的不确定性的点金术-带有不确定性的数据从这头进去，那头就出来了以统计显著性为衡量标准的试验处理方案是否成功（试验处理变量是否真正有效）的结果。遵守接受不确定性原则首先要求我们去寻求更好的测量变量、更佳的实验设计，及更大的样本量-所有这些都会使我们的研究更为严谨/严密。接受不确定性同时也促使我们更为实事求是（不浮夸，中肯）。接受不确定性的原则与以统计显著性为衡量标准的二分法（诱人的）确定性的结论原则是彼此不可并存的。要遵守接受不确定性原则自然促使我们重视研究结果的可重复性与寻求其它的同类独立进行的研究试验结果的综合形成的证据的验证。遵守接受不确定性原则使得我们不盲从，努力思考。

做一个会思考的科研工作者意味着 (1) 对手头具体的研究问题有一个综合全面的思考；（2）从具体问题的学科的科学内容与已知的成果去思考；（3）考虑使用包括p-值在内及其它各种统计量作为统计分析获取问题答案的工具/指标；（4）对所取得的分析结果的可信任/可靠程度的思考要求我们寻求和报告所估计的效应值的概率分布并提供足够详细的信息以确保所报告的分析结果可重复（或复制）。

公开/开放性原则包括（1）支持“开放科学”(open science) 的理念与实践，对研究的分析及结论的透明性及行业专家所拥有的专业评判的角色持公开/开放的态度。（2）在报告科学研究的统计分析结果时是透明客观的，不应该只选择性/倾向性地报告分析结果。请记住对科学研究来讲，一次试验就成功达到目的的情况是很罕见的。开放性原则意味着原作者要提供充分多的信息，使得其他的研究人员能够依据这些信息用其它的方法对你的问题进行研究。开放性原则是与不浮夸（中肯）原则相依相存的。

不浮夸/中肯(modest)原则包括了许多方面。比如，它要求我们了解并清楚地告诉大家自己研究成果的局限性；它要求我们认识到所研究的现实生活中的现象的复杂性与所建立的统计模型之间的差距，所谓唯一‘正确’的统计模型是不存在的。还要求我们对统计推断在科学推断/推理论证中所能起到的作用有一个正确的认识 -“科学推断/推理论证是一个比统计推断涵盖更为广泛的一个概念。“ 同时，不浮夸/中肯原则也是与接受不确定性、会思考、及公开/开放性原则紧密相关交织共存的。总之，我们应该承认科学推断/推理论证和统计推断都是艰难复杂的，认识到知识的发展是不能靠简单化、机械式的规则及程序来实现的。

这篇“编者的话（Editorial）”的第四部份关注讨论的是如何去实施/如何才能实现第三部份所提出的应该如何做的内容。在任何一个方面或层次上要实现彻底抛弃统计显著性概念的统计分析的改革，现有的与此相关的组织制度要首先进行改革(institutional reform)，比如专业杂志、统计学教育、学术激励机制，等等方面。具体来说，本特辑收录的文章作者提出了以下一些建议。要把ASA关于p-值及统计显著性的声明这篇“编者的话（Editorial）”的文章发送给所有的自然、行为和社会科学的专业杂志的主编及他们的编辑委员会及杂志的审稿人群体。这将是一个能迅速改善对统计分析的认识及实践的好办法。这场统计学界内的改革如果不能触动各个相关联的方面，如学术机构、杂志、科研经费资助及审批机构、有关政府管理部门一同行动是无法成功的。要有支持和肯定对原创的科研成果进行重复性确认试验研究的机制。专业杂志对投稿文章是否能被发表的评审标准应首先且更为注重其研究设计、数据及方法的质量及报告的完整透明度，之后才考虑其研究结果的正确性及重要性。最后，统计学教育需要有一个重大的改革变化以适应后 p < 0.05 时代的要求。

第五部份的标题是“这一切都需要努力，需要时间。“在这个部份作者其实想向读者说明的关注点是，为什么‘彻底抛弃统计显著性’这个改革这么难被接受，这么难以开展。正如被收录的文章作者们所指出的，其深层次的原因已超出了统计学理论或应用本身，甚至超出了学术争议的范畴，而是关乎到了社会学及我们人性中的行为固化、避难就易、趋同性、趋利性等的本能这样的因素。比如说，‘为什么NHST是从未被证明为正确有效的统计分析方法我们还要/还会不断地在科学研究中使用它呢？’答案可能是，因为人人都用所以我也用；或如果不用它，我出不了文章，论文难以通过，科研经费申请不到，等等。也有其它如涉及现行的统计分析教育及实践的原因，如‘为什么用NHST，因为学统计学时是这样教的；为什么这样教，因为大家做统计数据分析时都是/都在这么用；’现有的行政管理制度（如美国医药食品管理局）有关的分析方法方面的要求，等等。从根本上说，从科学的角度（如可重复性、普适性、事物现象背后的产生机制/机理）来应用统计分析比起只需遵循一个程式化机械式黑白分明的分析范式而得出分析结论要困难得多。因此，这个改革的进行必然在不同的领域、不同的人群（如，科研人员、统计学/统计分析教师、杂志编辑、审稿人、升职/项目评审人、统计分析结果的利益相关方，等等）中有不同的难度，所需的时间也会不同。最终，这项改革的进行会是一个需要多方努力及时间磨合的过程。当然，在具体所建议的改革的做法及应达到的程度上，被收录的文章作者们的建议并不总是相同、相容、或类似的，个别的差异之处甚至可以是根本性的分歧。

这篇“编者的话（Editorial）”的第六部份最短。它的标题是“为什么这样的变革最终是现在才出现/发生？“ 其内容可以用这几句话来概括。虽然这么多个10年过去了，即使一直不断地遭受尖锐而有充分依据的批评，NHST作为统计推断在数据分析的应用中的占统治地位的角色依然没有被改变。然而，ASA 2016年关于p-值的六项原则声明的发表目的就是要促成这个改变的发生。情况似乎在慢慢地朝着我们期望的方向发展。尽管因变化而产生的动荡和困扰不免会发生，让我们一起来努力，迈向一个不再需要p < 0.05的世界。这样的努力是有价值的。在一个不再需要p < 0.05的世界里，我们获得了没有‘统计显著性‘负担的自由，因此，统计分析在科学研究及政策制定的应用上会比之前任何时候变得更为突出(more significant)。

这篇“编者的话（Editorial）”的第七部份最长，编者把所收录的全部43文章分别按其不同的关注点进行了归类（共分为五组/类，按其类别顺序放在网页上）并逐一概略介绍。编者为第一组十篇文章所总结的关注主题是‘迈向一个后p < 0.05的时代’。第二组八篇文章所关注的是‘对 p-值的理解/解读与运用’。第三组七篇文章关注的是‘对 p-值的增补措施或取代方案’。第四组11篇文章关注讨论的是‘接受更全方位（改革/变革）的策略’(Adopting More Holistic Approaches)。该组文章的基本主张是目前统计假设检验(NHST)在统计推断框架内所承担的角色应做彻底/全方位的变革/改变。第五组七篇文章关注的是整个与NHST存在的组织制度的改革：要改变目前的出版政策方针与统计学教育的内容与实践。

这篇“编者的话（Editorial）”所引用的文献包括了本特辑所收录发表的43篇文章以及另外22篇文章。

结语：作为一个专业学术机构组织，美国统计学会（ASA）这个在一个具体的学术问题上（在2016及2019年）两次表明其官方立场的做法是不同寻常、意义重大的。代表了“p-值与统计显著性”问题的重要性及影响程度以及ASA对此问题的重视与责任的承担。

ASA 主席关于统计显著性和可重复性的专责小组声明

吴喜之译自: The ASA president’s task force statement on statistical significantce and replicability, The Annals of Applied Statistics https://doi.org/10.1214/21-AOAS1501 Reprinted with permission of the Institute of Mathematical Statistics

作者: YOAV BENJAMINI1 , RICHARD D. DE VEAUX2 , BRADLEY EFRON3 , SCOTT EVANS4 , MARK GLICKMAN 5 , BARRY I. GRAUBARD6 , XUMING HE7 , XIAO-LI MENG8 , NANCY REID9 , STEPHEN M. STIGLER10, STEPHEN B. VARDEMAN11, CHRISTOPHER K. WIKLE12, TOMMY WRIGHT13, LINDA J. YOUNG14 AND KAREN KAFADAR15

在过去的十年中, 科学界对研究结果的可重复性越来越关注. 可重复性的一个重要方面是使用统计方法来构造结论的框架. 2019 年，美国统计协会 (ASA) 主席成立了一个专责小组，以解决人们担心 The American Statistician (ASA 期刊) 2019 年的社论可能被错误地解释为 ASA 的官方政策. (2019 年的社论建议在统计分析中取消使用 ‘p < 0.05” 和 “统计显著性”) 本文件是 ASA 邀请我们公布的专责小组的声明. 其目的有两个: 首先, 经过恰当应用及解释后, P 值和显著性的使用是不应放弃的重要工具; 其次, 简要阐明一些可能对科学界有用的统计推断的一些健全原则.

P 值是有效的统计量度, 为传达定量结果中固有的不确定性提供了方便的惯例. 事实上，P 值和显著性检验是统计文献中研究最多和最深入理解的统计方法之一. 它们是通过适当的应用而推进科学的重要工具.

围绕统计显著性的很多争议可以通过更好地认识不确定性、多变性、多重性和可重复性来消除. 以下一般原则是适当使用 P 值和报告统计显著性并更广泛地用于良好统计实践的基础.

捕捉与统计结论相关的不确定性至关重要. 不同的不确定性度量可以相互补充, 没有任何一项度量能服务于所有目的. 统计结论所描述的变异来源应在科学文章和报告中加以描述. 在可能的情况下, 还应识别那些尚未描述的变异来源.

处理可重复性和不确定性是统计科学的核心. 如果研究结果能够用新数据在进一步的研究中得到验证, 则研究结果是可重复的. 撇开欺诈的可能性不谈, 可重复性出问题的重要来源包括研究设计和实施不佳、数据不足、缺乏对模型选择的关注而没有充分了解该选择的含义、对分析和计算程序的描述不充分、以及对报告结果的选择. 即使是在报道的部分中突出一些有说服力的结果, 选择性地报道都可能导致对证据的扭曲看法. 在某些情况下, 可以通过调整多重性来缓解此问题. 不确定性的控制和解释应开始于研究和测量过程的设计. 并持续到分析的每个阶段, 直至报告结果. 即使在精心设计、精心执行的研究中, 固有的不确定性依然存在, 统计分析也应适当解释这种不确定性.

统计学的理论基础为应对不确定性提供了若干一般策略. P 值、置信区间和预测区间通常与频率派方法相关. 贝叶斯因子、后验概率分布和可信区间通常用于贝叶斯方法. 这些是用于反映不确定性的许多统计方法中的一部分.

当需要做决策时, 阈值是有帮助的. 尽管 P 值本身提供了有价值的信息, 但将 P 值与显着性水平进行匹配可能很有用. P 值和统计显著性应理解为对与抽样变化相关的观测或影响的评估, 而不一定理解为具有实际显著性的度量指标. 如果认为有必要将阈值视为决策的一部分, 则应根据研究目标明确定义阈值, 并考虑错误决策的后果. 作为惯例的阈值 (显著性水平—译者) 标准应依照学科和分析目标的差异而变化.

总之，P 值和显着性检验在正确应用和解释时会增加从数据中得出的结论的严谨性. 分析数据和总结结果往往比通常人们认识的要复杂得多. 虽然所有科学方法都有局限性, 但正确应用统计方法对于解释数据分析的结果和提高科学结果的可重复性至关重要.

“那些自称让事实和数字为自己说话、同时又将他在对事实和数字做选择和分组时所扮演的角色 (也许是无意识地) 隐藏在幕后的人是所有理论家中最鲁莽和最奸诈的.”

(Alfred Marshall, 1885)

补充材料对“ASA 主席关于统计显著性和可重复性的专责小组声明” 的补充(DOI: 10.1214/21-AOAS1501SUPP; .pdf).

专责小组成员的简介.

1．Department of Statistics and Operations Research, Tel Aviv University, ybenja@tauex.tau.ac.il

2．Department of Mathematics and Statistics, Williams College, deveaux@williams.edu

3．Department of Statistics and Department of Biomedical Data Sciences, Stanford University, brad@stat.stanford.edu

4．Department of Biostatistics & Bioinformatics, George Washington University, sevans@bsc.gwu.edu

5．Department of Statistics, Harvard University, glickman@fas.harvard.edu

6．Biostatistics Branch, National Cancer Institite, barry.graubard@nih.gov

7． (Co-chair) Department of Statistics, University of Michigan, xmhe@umich.edu

8．Department of Statistics, Harvard University, meng@stat.harvard.edu

9．Department of Statistics, University of Toronto, reid@utstat.utoronto.ca

10．Department of Statistics, University of Chicago, stigler@uchicago.edu

11．Department of Statistics and Department of Industrial & Manufacturing Systems Engineering, Iowa State University, vardeman@iastate.edu

12．Department of Statistics, University of Missouri, wiklec@missouri.edu

13．Center for Statistical Research and Methodology, United States Bureau of the Census, tommy.wright@census.gov

14．(Co-chair), Research & Development, National Agricultural Statistics Service, linda.j.young@usda.gov 15(Ex-officio) Department of Statistics, University of Virginia, kkafadar@virginia.ed

转载本文请联系原作者获取授权，同时请注明本文来自谢钢科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3503579-1324675.html

上一篇：钢铁是这样练成的：我在新西兰获得数理统计专业硕博学位的经历分享
下一篇：一份针对统计假设检验问题所收集的的综合参考资料清单

收藏 IP: 49.187.152.*| 热度|

JohnXie的个人博客分享 http://blog.sciencenet.cn/u/JohnXie

博文

“统计上是显著的” – 在做统计数据分析时请不要再这样说，也不要这样用了！

当前推荐数：8 推荐人：黄河宁 宁利中 张志东 李宏翰 檀成龙 张鹰 杨正瓴 张利华

该博文允许注册用户评论请点击登录评论 (20 个评论)

谢钢

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

JohnXie的个人博客分享 http://blog.sciencenet.cn/u/JohnXie

博文

“统计上是显著的” – 在做统计数据分析时请不要再这样说，也不要这样用了！

当前推荐数：8 推荐人： 黄河宁 宁利中 张志东 李宏翰 檀成龙 张鹰 杨正瓴 张利华

该博文允许注册用户评论 请点击登录 评论 (20 个评论)

谢钢

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

当前推荐数：8 推荐人：黄河宁宁利中张志东李宏翰檀成龙张鹰杨正瓴张利华

该博文允许注册用户评论请点击登录评论 (20 个评论)