|
正题:三分钟说清楚为什么现行的统计假设检验范式是站不住脚的伪科学方法
谢钢;科学网链接地址:https://blog.sciencenet.cn/blog-3503579-1445909.html
2024-08-10
借用古德.吉仁泽(Gerd Gigerenzer)教授的定义,所谓现行的统计假设检验范式(Null Hypothesis Significance Testing = NHST 范式)指的是:“(1)设定一个无效假设,例如‘平均值无差别’或‘零相关’。不要规定你自己的研究假设的预测结果。(2)以5%作为一个惯例标准来拒绝无效假设。如果检验结果是显著的,接受你的研究假设。以p<0.05,p<0.01 或 p<0.001的形式表述检验结果,不论p-值达到了哪一级的显著性的指标值都可以。(3).每次都按这个步骤及过程得出分析结果/结论。”
这个统计假设检验范式的逻辑推理基础实质是反证法(proof by contradiction),但是,它是一种变相的反证法。在存在一一对应的关系的条件下,反证法逻辑上是成立/合法有效的。例如,若事件A的发生必然而且只能导致事件B的发生;则如果B事件没有发生,A事件就肯定没有发生。NHST范式在应用反证法时做了一点变通,即规定只有两种可能的结果会使得p-值很小,要么是无效假设不成立,要么是无效假设成立但非常罕见的事件发生了并且这两种可能发生的概率相同- 科研人员完全没有任何先验知识。在这些假设条件下,如果得到了一个小的p-值,就意味着无效假设成立概率也是很小的。
问题是在统计数据分析的实际应用中,得到一个小的 p 值结果的可能原因不止两个:除了上述的两个可能原因外,样本数据容量大(a large sample size),或某些必要的假设条件不符合(比如,非随机样本、数据是彼此相关的、或有缺失数据,等等)都可能是原因。因此,由于NHST范式所要求的逻辑推理前提条件不成立,它的变相的反证法的合法性也就不存在了。
其次,统计学理论要求的随机样本与抽样分布的假设条件在现实科研条件下是无法做到的。在大多数的情况下,统计数据都是来自于非随机配对实验设计的观察性研究,这样的统计数据不满足内部有效性(internal validity,即无法排除混杂因素的影响)的要求。而非随机样本无法满足外部有效性(external validity ,即数据分析结果无法做一般性的从样本到总体的推广应用)的要求。但是更值得强调的是,随机样本只是必要条件,只有多次重复随机抽样直到能获得可靠的抽样分布才是充分条件,这时统计推断的分析结果才能等效于科学推断结果。当然,取得抽样分布结果与多次重复同一科学研究问题的科学验证的精神是完全一致的。
以上的逻辑推理前提条件与统计学对有效的统计推断分析的所要求的技术性的假设条件NHST范式都无法满足,构成了证明现行的统计假设检验范式是站不住脚的伪科学方法不可辩驳的理由。
冯兆东在谢钢博文下的留言
2024-08-11
谢老师好。我问了黄河宁老师:为何有人热衷于NHST和p,而另一些人则主张抛弃NHST和p。黄老师并没有给我热衷的理由和抛弃的理由。您是不是在此文里算是提供了热衷和抛弃NHST和p的理由?例如,被抛弃的理由:问题是在统计数据分析的实际应用中,得到一个小的 p 值结果的可能原因不止两个:除了上述的两个可能原因外,样本数据容量大(a large sample size),或某些必要的假设条件不符合(比如,非随机样本、数据是彼此相关的、或有缺失数据,等等)都可能是原因。因此,由于NHST范式所要求的逻辑推理前提条件不成立,它的变相的反证法的合法性也就不存在了。
附件:没有了“统计显著性”,p-值能干什么呢?
谢钢;科学网链接地址:https://blog.sciencenet.cn/blog-3503579-1325287.html
2022-02-14
很多人都会有这个问题,你们统计学家们现在要我们在做统计数据分析的时候要彻底抛弃统计显著性这个概念,那 p-值还有用吗?答案其实可以很简单,(1)P-值可以衡量样本数据与一个给定的统计模型之间的不相符合的程度,它是一个连续型的统计量,所以我们只要不把它当成离散型统计量来使用就可以了。比如,若你做了一个t检验得到的P-值=0.06,你可得出结论:原假设与所观察到的样本数据不相符合的程度比较大,但你却无法肯定这个不相符合的原因是什么:可能是原假设不成立,也可能是原假设为真但你的样本不具代表性,也可能某个假设条件不符合要求(比如样本数据彼此不独立),你需要通过其它方面的分析进一步找出原因;若有两个不同的统计模型对同一组数据进行拟合,你可以肯定P-值较大的那个模型与数据的吻合程度较好。(2)P-值是对样本数据分析得出的效应估计量的一个补充证据。没有了‘统计显著性’辖制,我们的思维不会被“不是黑就是白”这样的僵硬模式所摆布,会更从学科内容,科学机理的角度来理解和运用数据分析结果。(3)如果你真正理解了费雪使用p-值的本意或耐曼-皮尔逊的假设检验的本意,按其中之一的方法在对应适用的应用问题上使用p-值是正当的;但按标准统计教科书的NHST的范式使用p-值是不正当的。
回到我在“统计显著性问题的历史由来及最新进展” https://blog.sciencenet.cn/blog-3503579-1321101.html所举的单因素方差分析的例子。其实这个例子来自“The R Book” (作者Michael J. Crawley,2013)。如下图所示,用仿真模拟方法我们很容易找到几组数值相近但实际是来自不同抽样总体的例子,仅仅依靠统计数据分析本身根本无法区分真正的抽样总体。
这就是为什么我一再强调,在只有单一一组样本数据的情况下,统计推断是完全不靠谱的。统计分析所应该/所能够做的就是描述性统计分析,加上从学科内容角度对数据分析结果进行解读。比如,对这组单因素方差分析的数据可做如下的分析(下图):
注意,不要去算什么标准误差standard error(这样做意味着统计推断),只是标准差standard deviation才是正确的衡量样本离散程度的统计量。这些描述性数据分析结果就是我们所能得到的关于实验处理效应的最佳信息估计值(点估计及区间估计)了,不但有数值结果也有图像结果(both numeric and graphical summary results)。这样的分析结果比一个干巴巴的统计假设检验结果内容要丰富多了,更重要的是标准统计教科书教了我们几十年的统计假设检验(NHST)只是一个逻辑上经不起推敲,技术上漏洞百出的分析范式。(不清楚统计假设检验及统计显著性问题的读者请先花点时间阅读我的博文“统计显著性问题的历史由来及最新进展” https://blog.sciencenet.cn/blog-3503579-1321101.html与“一篇值得一读的关于“统计显著性”的英译中文章”https://blog.sciencenet.cn/blog-3503579-1322100.html)仔细阅读文献来领会费雪的‘显著性检验’并对比耐曼-皮尔逊的‘假设检验’我们会发现,‘显著性检验’强调的是从特殊到一般的归纳推理,所以费雪才认为一个显著性的结果不过是‘值得再多看一眼’的结果;‘假设检验’标榜的是从一般到特殊的演绎推理,但它所能适用的情况只能是通过一系列的重复抽样检验的结果控制一类错误与二类错误-二者都强调统计假设检验对单一一组样本数据的分析是无法得出一个确定的结果的-这是与NHST范式的根本区别。关于‘显著性检验’、‘假设检验’和NHST三者之间更详细 的对比读者可参看这篇文章的表一:(Jose D. Perezgonzalez (2015). Fisher, Neyman-Pearson or NHST? A tutorial for teaching data testing. Frontiers in Psychology, Volume 6, Article 223.)
在2000年以前接受过正规统计学教育的人大概率地都会用到各种各样的的概率分布表及随机数值表从而知道统计学家耶茨(Frank Yates)的名字(如今大部分的统计软件都有能计算各种概率分布的数据表及产生随机数的功能)。小12岁的耶茨是费雪的剑桥大学校友,1931年耶茨来到了罗森姆斯特得农业实验站费雪的手下做他的统计分析助理,到了1933年费雪去伦敦学院大学任职时接替他成了实验站的统计主管并在这里工作了很多年。1951年在为纪念费雪教授里程碑式的著作“研究工作者的统计方法”发表25周年的文章中,耶茨是这样评价统计假设检验的作用的:“对显著性检验的强调,以及把每一个实验的结果分别考虑,这样的做法已经带来了不良的后果,它使得科研人员常常把对来自一个实验的数据进行显著性检验作为最终的目的。看看结果是显著的还是不显著的,这就完事了。
因此,科研工作者们一定要让自己认识到这样一个事实,那就是在许多的研究领域,某次实验是真正关键的一次实验的情形是很少有的,而更常见的是需要对同一个科研问题进行多次的实验并将这些实验结果汇总起来以获得一个满意的科学真像的综合结果。在农业大田试验的研究上情况尤其是如此,一般来说实验处理的效应会随土壤及气象条件的变化而变化。其后果就是,要想使研究结论具有普遍适用性,在不同的地区、不同的年份重复同一个科学实验变得绝对必要。在这种情形下,一系列的中等准确度的实验要远远比只有一个但准确度非常高的实验更有价值。”(英文原文登载在 page 33 of “The Influence of Statistical Methods for Research Workers on the Development of the Science of Statistics” by Yates published in Journal of the American Statistical Association, Mar., 1951, Vol. 46, No. 253.)
结论,确认科学发现研究结果的一般原则/规律是,最重要的是要在不同的条件下对同一个科研问题/假设反复多次地进行实验/试验验证,通过对多次重复试验的结果的综合才是逐步揭露科学真像的正确途径,这也是通过获取统计抽样分布来进行统计推断分析的实质内容。在单一一组样本数据的情况下统计分析所应该做的只是描述性统计分析。仅仅依据某次实验结果分析所得到的p-值是否达到了统计显著性就能得出科学发现的结论性的成果不过是过去几十年统计学教育最大的失误带给我们的一个海市蜃楼的幻影而已。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 05:49
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社