||
很多人都会有这个问题,你们统计学家们现在要我们在做统计数据分析的时候要彻底抛弃统计显著性这个概念,那p-值还有用吗?答案其实可以很简单,(1)P-值可以衡量样本数据与一个给定的统计模型之间的不相符合的程度,它是一个连续型的统计量,所以我们只要不把它当成离散型统计量来使用就可以了。比如,若你做了一个t检验得到的P-值=0.06,你可得出结论原假设与所观察到的样本数据不相符合的程度比较大,但你却无法肯定这个不相符合的原因是什么:可能是原假设不成立,也可能是原假设为真但你的样本不具代表性,也可能某个假设条件不符合要求(比如样本数据彼此不独立),你需要通过其它方面的分析进一步找出原因;若有两个不同的统计模型对同一组数据进行拟合,你可以肯定P-值较大的那个模型与数据的吻合程度较好。(2)P-值是对样本数据分析得出的效应估计量的一个补充证据。没有了‘统计显著性’辖制,我们的思维不会被“不是黑就是白”这样的僵硬模式所摆布,会更从学科内容,科学机理的角度来理解和运用数据分析结果。(3)如果你真正理解了费雪使用p-值的本意或耐曼-皮尔逊的假设检验的本意,按其中之一的方法在对应适用的应用问题上使用p-值是正当的;但按标准统计教科书的NHST的范式使用p-值是不正当的。
回到我在“统计显著性问题的历史由来及最新进展” https://blog.sciencenet.cn/blog-3503579-1321101.html所举的单因素方差分析的例子。其实这个例子来自“The R Book” (作者Michael J. Crawley,2013)。如下图所示,用仿真模拟方法我们很容易找到几组数值相近但实际是来自不同抽样总体的例子,仅仅依靠统计数据分析本身根本无法区分真正的抽样总体。
这就是为什么我一再强调,在只有单一一组样本数据的情况下,统计推断是完全不靠谱的。统计分析所应该/所能够做的就是描述性统计分析,加上从学科内容角度对数据分析结果进行解读。比如,对这组单因素方差分析的数据可做如下的分析:
注意,不要去算什么标准误差standard error(这样做意味着统计推断),只是标准差standard deviation才是正确的衡量样本离散程度的统计量。这些描述性数据分析结果就是我们所能得到的关于实验处理效应的最佳信息估计值(点估计及区间估计)了,不但有数值结果也有图像结果(both numeric and graphical summary results)。这样的分析结果比一个干巴巴的统计假设检验结果内容要丰富多了,更重要的是标准统计教科书教了我们几十年的统计假设检验(NHST)只是一个逻辑上经不起推敲,技术上漏洞百出的分析范式。(不清楚统计假设检验及统计显著性问题的读者请先花点时间阅读我的博文“统计显著性问题的历史由来及最新进展”https://blog.sciencenet.cn/blog-3503579-1321101.html与“一篇值得一读的关于“统计显著性”的英译中文章“https://blog.sciencenet.cn/blog-3503579-1322100.html 。)仔细阅读文献来领会费雪的‘显著性检验’并对比耐曼-皮尔逊的‘假设检验’我们会发现,‘显著性检验’强调的是从特殊到一般的归纳推理,所以费雪才认为一个显著性的结果不过是‘值得再多看一眼’的结果;‘假设检验’标榜的是从一般到特殊的演绎推理,但它所能适用的情况只能是通过一系列的重复抽样检验的结果控制一类错误与二类错误-二者都强调统计假设检验对单一一组样本数据的分析是无法得出一个确定的结果的-这是与NHST范式的根本区别。关于‘显著性检验’、‘假设检验’和NHST三者之间更详细 的对比读者可参看这篇文章的表一 :(Jose D. Perezgonzalez (2015). Fisher, Neyman-Pearson or NHST? A tutorial for teaching data testing. Frontiers in Psychology, Volume 6, Article 223.)
在2000年以前接受过正规统计学教育的人大概率地都会用到各种各样的的概率分布表及随机数值表从而知道统计学家耶茨(Frank Yates)的名字(如今大部分的统计软件都有能计算各种概率分布的数据表及产生随机数的功能)。小12岁的耶茨是费雪的剑桥大学校友,1931年耶茨来到了罗森姆斯特得农业实验站费雪的手下做他的统计分析助理,到了1933年费雪去伦敦学院大学任职时接替他成了实验站的统计主管并在这里工作了很多年。1951年在为纪念费雪教授里程碑式的著作“研究工作者的统计方法”发表25周年的文章中,耶茨是这样评价统计假设检验的作用的:“对显著性检验的强调,以及把每一个实验的结果分别考虑,这样的做法已经带来了不良的后果,它使得科研人员常常把对来自一个实验的数据进行显著性检验作为最终的目的。看看结果是显著的还是不显著的,这就完事了。
因此,科研工作者们一定要让自己认识到这样一个事实,那就是在许多的研究领域,某次实验是真正关键的一次实验的情形是很少有的,而更常见的是需要对同一个科研问题进行多次的实验并将这些实验结果汇总起来以获得一个满意的科学真像的综合结果。在农业大田试验的研究上情况尤其是如此,一般来说实验处理的效应会随土壤及气象条件的变化而变化。其后果就是,要想使研究结论具有普遍适用性,在不同的地区、不同的年份重复同一个科学实验变得绝对必要。在这种情形下,一系列的中等准确度的实验要远远比只有一个但准确度非常高的实验更有价值。”(英文原文登载在 page 33 of “The Influence of Statistical Methods for Research Workers on the Development of the Science of Statistics” by Yates published in Journal of the American Statistical Association, Mar., 1951, Vol. 46, No. 253.)
结论,确认科学发现研究结果的一般原则/规律是,最重要的是要在不同的条件下对同一个科研问题/假设反复多次地进行实验/试验验证,通过对多次重复试验的结果的综合才是逐步揭露科学真像的正确途径,这也是通过获取统计抽样分布来进行统计推断分析的实质内容。在单一一组样本数据的情况下统计分析所应该做的只是描述性统计分析。仅仅依据某次实验结果分析所得到的p-值是否达到了统计显著性就能得出科学发现的结论性的成果不过是过去几十年统计学教育最大的失误带给我们的一个海市蜃楼的幻影而已。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 19:14
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社