||
这是一篇网上发表的值得一读的关于“统计显著性”的文章。
文章出处链接:https://www.marugroup.net/insights/blog/danger-of-relying-on-statistical-significance (accessed on 20/11/2021) 题目:The Danger of Relying on “Statistical Significance”;作者: Andrew Grenville, Chief Research Officer | June 3, 2019。
在我的统计显著性问题的历史由来及最新进展的博文中我给出了该文的几小段的翻译。这里给出全文的翻译,供对统计显著性问题有兴趣的博友参考。
网上文章 依赖“统计显著性”的危险
作者:安德鲁.格兰威利 (Andrew Grenville),首席研究员,2019年6月3日
“它是统计上显著的吗?”
这个问题听上去很科学且含义明确,然而顶尖的统计学家们【1】却提醒我们这个问题更容易误导我们并且导致危险的后果。统计显著性的确认是确定真相的全部与终点,这个普遍性的错误观点带来很多意想不到的后果。最大的问题就是,有些看上去是科学事实的结果常常不过是统计噪音信号而已,同时有些确为事实的结果却又被可惜地忽略掉了。
问题其实并不是出在统计分析工具本身,而是在于这些工具是如何被运用的。你大概已经见到过那些数据表,表中的每一列与其它各列进行分析对比,通常按95%置信区间来进行比较。那些“显著性”的差别结果会用一个字母或数字来标识出来。每张表可能会包含100甚至更多的检验结果。研究人员常常检视这些分析结果的总结表格看看哪些是“显著性”的差别,然后就试图去解释这些结果。麻烦就此产生。
绝大部分人会对这个概念不陌生,即这些检验结果会有20分之一是假阳性结果 – 即当真实差别并不存在时检验结果却是阳性的。可是实际情况是这个假阳性的错误率其实远远高于二十分之一,特别是在多重比较的应用时尤其如此。并且这些统计分析工具的用法完全违背了其最初被提出时的本来目的。
“大部分科学家们在看到一个p-值等于0.01的结果时会说自己的结果只有1%的机率是假阳性结果。但是他们这个理解是错误的”,里吉娜.纽佐 (Regina Nuzzo) 在《自然》上的文章【2】这样写道。“p-值本身无法提供这个信息:p-值只是,在假定某个无效假设成立的条件下,关于数据的一个总结统计量的数值。它不能用来进行反向推断并得出有关假设是否真实成立的结论。进行这样的反向推断需要另一个信息:即某个真实效应事先存在的概率。”
她接着说道“依据一个广泛被使用的计算公式【3】,p-值=0.01对应于一个假阳性的概率至少为11%,具体数值取决于真实效应事先存在的概率;一个p-值=0.05的结果使得假阳性结果的概率提高到至少29%“。
学术界的研究成果无法被重复产生的危机
一个习惯性的标准就是以95%置信区间(p ≤ 0.05)作为一个事实判定的指标,这个做法不仅仅在市场研究领域如此,并且在科学研究的其它领域也普遍如此。专业杂志对发表非“显著性”的研究成果普遍持否定的立场/态度。而学者们又必须依靠发表文章来获取职位晋级甚至保住饭碗。其造成的后果对科学事业是灾难性的。【4】
大量的证据显示因为统计检验的错误应用,许多已发表的文章其研究成果无法被重复产生。《自然》与《科学》是两个最权威的专业杂志,学者们竭力想使自己的文章被这两个杂志接受并发表。但是,一篇发表在《自然》上标题为“对在2010至2015年期间发表在《自然》和《科学》杂志上发表的社会科学试验研究成果的可重复性的评估”的研究文章【5】指出,他们仅仅能够重复60%已经发表的文章的结果,并且“通过重复验证研究得到的效应值平均为原文章报告的效应值的50%左右。”
类似地,难看的可复制性及可重复性的分析数据结果同样在其它研究领域被曝光,其中包括心理学【6】、经济学【7】,和医学【8】。一个知名人物因为无原则地依赖“显著性发现”而“中枪”的案例是美国研究员及教授布莱恩.万辛克(Brian Wansink)【9】。
万辛克的研究专注于人们如何选择自己喜好的食物这个专题,他是“胡乱饮食(Mindless Eating)”【10】与“苗条是可以通过后天努力实现的(Slim by Design)”【11】这两本书的作者。他的著作使人们普遍接受了这样的观点,比如盛食物的盘子的大小和颜色会影响你的食量以及有100卡路里信息的食品包装方式会减少身体超重的人群的进食量。很多万辛克所发表的研究成果后来被发现是有很多问题的【12】,但是,那引起人们对他的研究成果进行关注的关键点是他无原则地滥用统计检验,或者说是“p-值的黑客用法(p-hacking)”【13】。在他公开地鼓励研究生们和他的合作伙伴以在数据中特意搜寻的方式来确认“统计显著性”的发现之后 – 这是不按科学的步骤来进行检验事先确定好的研究假设的做法 – 他被抓了出来。
按照提姆.范德志(Tim Vanderzee)(一个对万辛克的研究工作成果做了调查的研究人员【15】)的调查发现【14】,万辛克参与的52份出版物中都存在着上述所指出的问题 – 这些出版物包括了在25种不同杂志上发表的文章及8本书 – 被引用了超过4000次。当万辛克的这些不符合科学的研究成果的证据被曝光后,他的大学对他进行了停止其教学工作的处理,而最终解雇了他。错误地使用统计检验会造成极其严重的后果。作为研究人员我们致力于使决策过程是有科学依据和遵循原则的。无原则地滥用统计检验会误导我们并且提供错误的依据。这样的情形是谁都不愿意见到的。那么,一个研究人员应该做什么呢?幸运的是,美国统计学会(ASA)给出了一些建议。
关于显著性检验的正确应用及错误应用
美国统计学会就p-值的正确应用及错误应用的问题发表了一个正式声明【1】。这个声明提出了“正确使用和解释p-值所依据的基本原则。” 这个声明指出“以‘统计显著性’(普遍以“p ≤ 0.05”的形式)作为一个确认某个科学发现(或所代表的真相)的许可证这样的应用导致了对科学研究过程的严重歪曲。某个研究结果不会因为落在了一个两分划分区域的一边就变成了‘真实’而在另一边时 就成了‘虚假’。”
这个声明建议“研究人员必须认识到,没有相关的科学内涵为基础或其它方面的证据,仅仅一个p-值所能提供的信息是有限的。” 声明劝告研究人员们”需要把很多的与科学内容有关的因素都考虑进来以得出科学推断分析的结论。这些要考虑的因素包括研究方案的设计,测量数据的质量,研究过程中所观察到的现象的外部(研究项目之外所得到的)证据,以及数据分析所依据的假设条件的合理性。“ 这个声明主张,好的统计分析应用要强调”对研究所观察到的现象进行理解;对分析结果的有科学内涵的解释;完整的报告及合理的逻辑以及数据分析结果所代表的量化的解释。没有任何单一的统计指标能够取代科学推理分析。” 研究问题的内容才是真实有趣的内涵。
统计学家们也警告,不可太过狭义地来理解p-值究竟能为我们揭露出数据背后所代表的什么信息。有瓦伦丁.阿姆仁(Valentin Amrhein)、桑德.格林兰(Sander Greenland)、布雷克.麦克辛(Blake McShane)署名并得到超过800人签名支持的一篇发表在《自然》上的评论文章【16】指出,把p-值降格为区分显著/非显著的二分指标是问题产生的主要原因。他们写道,“我们不是在主张禁用p-值、置信区间,或其它什么统计量 – 我们仅仅主张不可以把它们(连续型统计量)进行离散分类化处理/解读。这其中包括统计显著性与否的二分化解读,也包括对其它统计量,如贝叶斯因素进行分类化解读。”
“要避免如此‘二分化癖好’的一个理由是,所有的统计量,包括p-值及置信区间,因着研究项目的不同而相应地变化着,并且其变化幅度常常是出人意料的大。事实上,仅仅是随机波动的因素就很容易造成相应的p-值的巨大变化,其变化范围远远超出0.05的这个阈值的左右邻近区域。即使研究人员能够丝毫不差地重复同一个研究试验项目并且该研究的确存在真实效应,进一步假定80%的统计功效(可达到p<0.05的概率),他们最终得到的p-值完全有可能是一个小于0.01而另一个却大于0.30。”
他们认为“其麻烦在于人类的认知感觉与统计分析结果的含义并不一致:把分析结果归类为‘统计显著的’及‘统计非显著的’让人们认为被分类的结果有定性的区别。”
这种定性区别结果的思维使得我们容易忽略掉了真实的差别结果并关注到了假的差别结果上。我们明显需要一种更精准的研究分析方法来判断何谓‘显著的’结果。
我们是如何陷入这样的麻烦的境地的呢?
如果说依赖于过分简单化了的“显著性”检验是一个问题,我们是如何落到这个地步的呢?无法相信的是,这是一个关于两个统计学家的故事,他们彼此讨厌对方但他们的统计分析理念却被强行捆绑在一起,而这样的做法并未得到其中如何一方的认可。而这一切都是从1920年代在英格兰发生的一件一杯下午茶的事件开始的。
几名学者在一起喝下午茶。其中一个是布兰卡.布里斯托(Blanche Bristol)博士,一位同事递上一杯泡好的奶茶给她,但她不要,原因是这位先生先把茶水倒到杯子里然后再加的牛奶。布里斯托博士喜欢先将牛奶倒进杯子里再掺茶水,所以她拒绝了。这位先倒茶再加牛奶的先生认为她肯定无法分辨出两者之间的差别。她坚持她能。这位先生,罗纳德.艾谟.费雪博士于是提议做一个检验,这整件事因他把它写进了他的“实验设计”【17】这本著作中而名扬天下。他会准备八个茶杯;其中四个先倒茶再加牛奶而另四个则先倒牛奶后倒茶。她必须根据自己的判断给出结论哪个杯子的奶茶是用哪种方法冲泡的。
他提出了一个无效假设来假定她无法作出正确的判断。费雪算出来,在假定上述无效假设成立的前提下,她能正确地猜中所有八杯奶茶的冲泡方式的概率为1/70。他愿意仅就这个试验而言有条件地承认她正确判断的能力(即拒绝无效假设)。 据称她的判断结果无一错误,无效假设被拒绝了。这就是显著性检验的开始。
在同一个时期,两位统计学家,杰茨.耐曼(Jerzy Neyman) 和爱根.皮尔逊(Ergon Pearson)则在研究假设检验 – 即在彼此竞争的假设结论中单单以实验设计条件作为依据来做出选择决定。耐曼认为假设检验是对显著性检验的一个改进。费雪不接受耐曼的观点。由于耐曼与皮尔逊的父亲共事的缘故费雪原本就不喜欢耐曼,因为费雪与老皮尔逊过往长期意见不合。耐曼与费雪为谁的检验方法更好而争持不休直至费雪去世。
而在此期间,某些可笑的事情发生了。古德.吉仁泽(Gerd Gigerenzer)在他的(嘲讽尖刻的)文章中(宗教仪式般的统计分析方法:可重复性的错觉以及我们如何落到这个地步【18】)将所发生的这些事很好地总结为:“早期统计教科书的作者们竭力想弄出一个看上去客观的统计推断分析方法,用这个方法就能机械式地把真正原因与随机变化的现象区分开来,无需使用者另加思考判断。其结果就是,费雪的方法与他的智力对手们(波兰统计学家杰茨.耐曼(1894-1981)和英国统计学家爱根.皮尔逊(1895-1980)的方法被强行地捏合到了一起(如同在散弹枪枪口威逼下成就的一场婚姻)。这个杂交的理论的核心就是无效宗教仪式。”
对他所称之为“无效宗教仪式”的理论他是这样描述的:
“1. 设定一个无效假设,例如‘平均值无差别’或‘零相关’。不要规定你自己的研究假设的预测结果。
2. 以5%作为一个惯例标准来拒绝无效假设。如果检验结果是显著的,接受你的研究假设。以p<0.05,p<0.01 或 p<0.001的形式表述检验结果,不论p-值达到了哪一级的显著性的指标值都可以。
3. 每次都按这个步骤及过程得出分析结果/结论。”
“正确的统计学理论里没有无效宗教仪式的一席之地”,吉仁泽继续写道。“这一点并不是总能被理解;甚至对它(无效宗教仪式)批评的意见中有些时候也把它与费雪的无效假设检验理论混为一谈并称之为‘无效假设显著性检验’。实际上,这个(统计分析的)宗教仪式是对费雪的方法和耐曼及皮尔逊的方法的一个不和谐的组合/混合,并凸显了一个新的特殊之点:去除了研究人员的专业判断的因素。”
前面当行的路
我们发现自己处在这样一个境地,无原则地滥用一个杂交的检验方法导致了科学界的“研究成果无法被复现的危机”以及统计统计显著性这个概念被误用和滥用。我们需要重新思考如何应用显著性检验这个分析方法。
首先,我们需要对一个“显著性的”发现结果持谨慎怀疑的态度。错检率实际是比通常所认为的更高。第二,我们需要远离钓鱼式的数据分析行为;拖网式地搜寻“显著性”差异。第三,我们需要认识到某些非显著性的统计检验结果可以是有科学意义的。第四,我们需要把研究的科学内涵考虑进来。如同美国统计学会所推荐的, 统计分析的基本要求应包括“对所研究的对象/现象的了解/理解; 从学科内容的角度对分析结果的解释;提供全部的相关信息及遵循科学逻辑和对总结统计量的定量的解释。没有一个单一的指标能够取代科学推理分析。”
因此,当下一次有人问:“那个结果是统计上显著的吗?”的时候,我们应该考虑一下这样的提问是否合适。一个更合适的提问可以是“这些差别有意义吗?”
这样提问会促使我们在解读关于一对数值的分析结果时避开二分法的思维陷进,并能引导我们从学科内容的角度对分析结果作出解释。从学科内容角度来解释/解读数据分析结果其信息内容要丰富得多了。
References:
[1] The ASA Statement on p-Values: Context, Process, and Purpose, https://doi.org/10.1080/00031305.2016.1154108
[2] Nuzzo, Regina (2014), Scientific method: Statistical errors, Nature, volume 506, 150–152.
[3] Goodman, S. N. (2001), Of P-Values and Bayes: A Modest Proposal, Epidemiology, volume 12, 295–297.
[4] Anti-“publication bias” efforts not panning out for science | Ars Technica
[5] Camerer, Colin F. et al. (2018), Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015, Nature Human Behaviour volume 2, pages637–644.
[6] Evaluating replicability of laboratory experiments in economics https://www.science.org/doi/10.1126/science.aac4716
[7] Evaluating replicability of laboratory experiments in economics https://www.science.org/doi/10.1126/science.aaf0918
[8] Believe it or not: how much can we rely on published data on potential drug targets? https://www.nature.com/articles/nrd3439-c1
[9] https://en.wikipedia.org/wiki/Brian_Wansink (accessed on 29/11/2021).
[10] https://www.amazon.ca/Mindless-Eating-More-Than-Think/dp/0345526880
[13] https://www.explainxkcd.com/wiki/index.php/882:_Significant
[14] https://scholar.google.nl/citations?user=vsuJSN0AAAAJ&hl=nl
[15] https://www.timvanderzee.com/the-wansink-dossier-an-overview/
[16] Amrhein, Valentin et al. (2019), Scientists rise up against statistical significance, https://www.nature.com/articles/d41586-019-00857-9
[17] Fisher, R.A. (1935), The Design of Experiments, Edinburg and London, Oliver and Boyd.
[18] Gigerenzer, Gerd (2018), Statistical Rituals: The Replication Delusion and How We Got There, https://doi.org/10.1177/2515245918771329
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 13:12
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社