||
在皇帝穿上其实什么也没有的新装巡游时,一个小男孩说出了实话:“他什么也没有穿”。最近针对统计学理论与统计数据分析应用自相矛盾的问题我就做了一回这样的小男孩。
在2024年12月的美国统计学会新闻月刊上发表了我所投稿的一页纸的短文‘一个应用统计学家的呼吁’ (A Practicing Statistician’s Plea, 文章链接:https://magazine.amstat.org/blog/2024/12/02/a-practicing-statisticians-plea/ )。在这个700字左右的短文中,我指出统计学家们在统计数据分析的应用上往往不遵守自己所教授的统计学理论(如同一个牧师其生活实践上与自己的布道所宣讲主张的信念/信条自相矛盾一般)。我特别举例,2021年ASA 主席关于统计显著性和可重复性的专责小组声明认为‘P 值和显着性检验在正确应用和解释时会增加从数据中得出的结论的严谨性’,但是该声明的作者们并没有告诉读者P 值和显着性检验具体在什么条件下才是被‘正确应用’了。我非常具体的提出要确认统计推断的正确应用必须满足三个条件:(1)推断分析必须是基于随机样本数据;(2)被观察的对象必须与所研究的原因变量的限制条件值随机配对;(3)基于条件(1)与(2)的相同的实验研究要重复多次以至于可以获得一个可靠的抽样分布结果。当然,这样的推荐推断分析的结果是等同与经过反复验证的科学实验结果的。很显然,现实的统计推断分析应用几乎没有任何研究项目会这么做。因此,结论就是在现实的科学研究项目所得到的的统计推断分析结果要么是无法满足内部有效性要求(不是随机配对试验型的研究),或无法满足外部有效性要求(不是基于随机样本数据从而不具备做一般性的推广应用的有效性)。其实大部分的实际科学研究项目都是既不具备内部有效性,也不具备外部有效性 – 因为这些项目都是基于非随机样本数据的观察性的研究。当然,ASA 主席关于统计显著性和可重复性的专责小组声明关于‘P 值和显着性检验在正确应用和解释时会增加从数据中得出的结论的严谨性’的观点充其量就是一个镜中花、水中月式的一厢情愿的结论而已。接着,我更进一步强调,统计推断分析只有在满足可靠的抽样分布结果的条件下才能做到与科学推断分析的要求一致,随机样本不过是合法有效的统计推断分析的必要条件而已。在现实的科学研究的应用中往往连随机样本这个必要条件都无法满足。或者更一般的意义上,如同MD Higgs在她的2019年的博客文章中https://critical-inference.com/assumptions-are-not-met-period/ 所指出的‘符合科学推断分析要求的统计推断分析所必需的前提是无法在现实的科学研究应用中得到满足的!‘ 这也是为什么我强烈赞同 Raymond Hubbard 的观点:统计推断分析在科学推断分析中的作用是很有限的;以及Christopher Tong的观点:依据统计推断分析我们只能做出糟糕的科学研究,统计思维才能使我们做出好的科研。我因此明确主张,统计数据分析在科学研究中的根本作用是描述性统计分析以及探索性的统计模型分析(statistical modelling in the sense of what-if analysis)。我的呼吁就是:统计专业机构,像美国统计学会或英国皇家统计学会,应该承担起责任为应用统计数据分析的研究人员提供具体的、可操作性的、及与统计理论相一致的行业指南性的标准规范。
我的这些观点当然不是一时冲动的气话,而是许多年的对许多的资深统计学家们对统计推断分析的性质与作用的观点的学习理解,加上自己的观察与深入思考的结果。在最近(2021年)出版的The Myth of Statistical Inference (统计推断的神话). Springer Cham. DOI: https://doi.org/10.1007/978-3-030-73257-8 这本书里,作者Michael C. Acree 自述道,当年(30多年前)他作为刚刚数学专业的本科毕业生,立志要以心理学研究为自己的专业,认为作为有比其他学习心理学但不具备数学背景的研究生们自己太具有优势了,因为以统计分析模型为时尚的心理学分析模式太适合像他这样拥有强大数学背景有心把心理学发展成为与物理学类似的“硬科学”的新一代心理学家的成长了。可是当他成为研究生深入学习相关的统计学及其统计数据分析的课程后,他发现自己比其他没有数学背景的同学更难弄懂统计学,尤其是统计推断分析的内容与应用。这成为了他几十年如一日要搞清楚的问题。最终他把自己的理解与发现写成了《统计推断的神话》这本书。在他看来是统计学的理论与应用出了根本性的问题,这就是为什么你对数学原理与模型分析方法理解的越深你学统计推断就觉得越无法理解的根本原因。如果说Michael C. Acree不是什么权威的统计学大师,他的观点不能太当回事,我们同样可以很容易找到更加权威的统计学大师们的类似的观点。大名鼎鼎的John Tukey这样无奈地抱怨:“统计学家们总是问这个错误的问题-并且心甘情愿地以一个谎言作答,通常是一个明白无误的谎言。他们问‘A与B的效应值有不同吗?’然后他们心甘情愿地回答说‘是不同的‘。我们生活的这个世界已经使我们早就明白A与B的效应值当然总是不同的,区别只是在于精确到第几位小数点而已,任何一对的A与B都是如此。因此,‘它们的效应值是相同的吗’实在是一个愚蠢的问题。” (摘自John Tukey 1991年的文章“The philosophy of multiple comparisons”)。Jacob Cohen 在他的著名的文章”The earth is round (p<0.05)”这样说到“NHST究竟错在哪里呢?这样说吧,除了许多其它的问题之外,它并不能提供给我们想知道的答案,出于无奈,我们只好选择相信它给我们的就是我们想知道的。”最后,Cohen以这个句子作为文章的结束“基于统计归纳推断分析所带来的这么些问题,我们最终必须这样回应,答案就是回归到传统的科研方式,依靠不断重复性的验证研究。” 概率论的奠基者之一的William Feller也强烈批评,认为科研人员太过于依赖统计推断分析的结果来确认科学研究的成果(详见C. Tong 的2019年文章“Statistical Inference Enables Bad Science; Statistical Thinking Enables Good Science”)再一个例子就是Fisher在罗森姆斯特得农业实验站的继任者Frank Yates。1951年在为纪念Fisher教授里程碑式的著作“研究工作者的统计方法”发表25周年的文章中,Yates是这样评价统计假设检验的作用的:“对显著性检验的强调,以及把每一个实验的结果分别考虑,这样的做法已经带来了不良的后果,它使得科研人员常常把对来自一个实验的数据进行显著性检验作为最终的目的。看看结果是显著的还是不显著的,这就完事了。因此,科研工作者们一定要让自己认识到这样一个事实,那就是在许多的研究领域,某次实验是真正关键的一次实验的情形是很少有的,而更常见的是需要对同一个科研问题进行多次的实验并将这些实验结果汇总起来以获得一个满意的科学真像的综合结果。在农业大田试验的研究上情况尤其是如此,一般来说实验处理的效应会随土壤及气象条件的变化而变化。其后果就是,要想使研究结论具有普遍适用性,在不同的地区、不同的年份重复同一个科学实验变得绝对必要。在这种情形下,一系列的中等准确度的实验要远远比只有一个但准确度非常高的实验更有价值。”(英文原文登载在 page 33 of “The Influence of Statistical Methods for Research Workers on the Development of the Science of Statistics” by Yates published in Journal of the American Statistical Association, Mar., 1951, Vol. 46, No. 253.)
的确也有不少大牌的统计学家坚持维护统计推断分析的权威性,认为是科学研究过程中不可或缺的重要的一部分。比如,统计学界传奇人物David Cox 教授就是其中之一。但他一方面坚持Statistical significance tests是一个有用的统计推断分析工具的同时,他也警告说,在只有一组样本数据的情况下(现在绝大多数发表的文章不都是对一组样本数据进行假设检验分析然后就给出结论的吗?)统计假设检验的结果是有很大的局限性的。他的原文是这样说的:Statistical significance tests for a specific set of data take no account of other data or general background knowledge of the field. This is indeed one very major limitation of such tests. 另外一个例子是哈佛大学的Xiao-li Meng(孟晓梨)教授。他是2021年‘ASA 主席关于统计显著性和可重复性的专责小组声明’的十五名作者之一。去年(2023)底的澳大利亚两年一次的统计学会的年会上我有幸听了他的讲座并有机会直接向他讨教关于我对ASA 主席关于统计显著性和可重复性的专责小组声明的疑惑。他的反应是该声明什么实质性的东西都没有说呀。我说,你们这样的声明可给我们这些实际搞统计数据分析的人制造了个难题:统计推断的结果究竟在科学研究中的作用是什么?你们的立场与2016年ASA所发表的正式官方声明(对p-值的理解与应用的六项原则)以及2019年ASA的“美国统计学家 (TAS)”期刊卷73的专题特辑的那篇“编者的话”(Editorial:Moving to a World Beyond “p < 0.05”)所阐述的观点立场是有根本性分歧的。以上我举出的例子至少可以说明在统计推断分析在科学研究中的作用这个重要问题上在统计学家群体中也是没有达成一致的。在也是促使我要就此问题发表我的意见的动机之一。
美国统计学会/协会American Statistical Association (ASA)成立于1839年(只比英国皇家统计学会晚了几年而已),现有会员约18000人,是世界上最大最权威的统计专业机构。我连ASA的会员都不是,这次却能够在她的新闻月刊上发表我的看法,深感荣幸。但我却一点也高兴不起来,因为作为一个每天靠统计数据分析混饭吃的应用统计学家,我不得不承认统计推断分析在科学研究中所能起的作用的根本局限性,靠这个在ASA的新闻网页上占了一页纸的篇幅,实在是自己的无奈/实在不是什么值得自豪的事。我真心希望我的这些观点能被证实是完全错误的,我也就不再需要每天都在为什么是正确的统计分析规范与什么是最为流行的统计分析规范的矛盾而内心挣扎了。
(英文原文的图片附后,其中应有一个拼写错误的更正:第三段里的ethnic constraint 应为ethical constraint)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 20:12
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社