||
最近笔者在科学网上的几篇关于“零假设显著性检验”(简称NHST)和p-值的博文【1-4】引发了一些网友的关注和讨论,特别是罗力群老师提出了如下疑问:
谢钢老师曾经在多篇博文中论述了NHST的逻辑错误【5-8】。笔者最近从另一个角度发现了NHST的根本错误:即应用NHST产生的p 值违背了“科学归纳推理的基本原则”。以下摘译于笔者最近的一篇论文(预印本)【9】:
“…,科学归纳推理的基本原则是: 科学主张[决策]必须是基于对所考虑的量(例如效应量)的总体属性(即总体信息)的统计推断和领域知识(Huang 2024)[10]。在许多实际情况下,我们不知道总体信息(例如总体参数或总体效应量),我们必须使用观察到的数据来推断总体信息。因此,统计推断应运而生。例如,总体均值(或真实)是关于总体(或总体分布)的最重要信息。在实际应用中,由于总体均值通常是未知的,因此在科学决策中,观测数据的样本均值通常被用作总体均值的估计值。换句话说,样本均值是推断的总体信息(总体均值),它的使用符合科学归纳推理的基本原则。
尽管 p 值和样本均值都是使用观测数据计算得出的,它们的推断含义却大不相同。正如我们在第 3 节中所示,p 值是真实 p 值的估计值。但是,真实 p 值不是总体信息,因此 p 值不是推断的总体信息。因此,使用p 值违反了科学归纳推理的基本原则。我们认为,这就是在科学研究中应该放弃使用 p 值的根本哲学原因。”
NHST仅在一种特殊情况下是正确的:即推断个体的属性。一个著名的例子就是费雪对“品茶女士对加牛奶先后次序的辨别能力”的检验。David Trafimow 【11】对此做了详细的论述。他写道:“费雪的茶和牛奶的示例证明了显著性检验的价值,它适用于证明一位女士的能力,但不能适用于整个群体。…”
比较两个群体均值的NHST(比如t检验或z检验)给出的p 值是样本量n的函数。p 值随着样本量n的增大而减小。当样本量n趋近于无穷大时,p 值不会收敛于一个常数,而是趋近于0。所以才有了所谓的”p-hacking” by “N-chasing”。
然而,对于女士品茶示例,如果增加品茶的次数(即增大样本量n),得到的p 值会随着样本量n的增大而收敛至一个常数。这个收敛的p 值反应了品茶女士对加牛奶先后次序的辨别能力。
参考文献
【1】黄河宁 2025 零假设显著性检验 (NHST)的问题是“误用”吗?科学网,https://blog.sciencenet.cn/home.php?mod=space&uid=3427112&do=blog&id=1467691
【2】黄河宁 2025 p值谬误的一个实例, 科学网,https://blog.sciencenet.cn/home.php?mod=space&uid=3427112&do=blog&id=1467415
【3】黄河宁 2024 加强统计学教育能够解决对p-值误解的问题吗?科学网,https://blog.sciencenet.cn/home.php?mod=space&uid=3427112&do=blog&id=1463765
【4】黄河宁 2024 p-值是什么事件发生的概率?科学网,https://blog.sciencenet.cn/home.php?mod=space&uid=3427112&do=blog&id=1446121
【5】谢钢 2024 假如我们正确地解读p-值,科学网,https://blog.sciencenet.cn/home.php?mod=space&uid=3503579&do=blog&id=1445209
【6】谢钢 2022 再谈“品茶的女士” (The Lady Tasting Tea), 科学网,https://blog.sciencenet.cn/blog-3503579-1357802.html
【7】谢钢 2022 “统计上是显著的” – 在做统计数据分析时请不要再这样说,也不要这样用了!科学网,https://blog.sciencenet.cn/blog-3503579-1324675.html
【8】谢钢 2022 统计显著性问题的历史由来及最新进展, 科学网, https://blog.sciencenet.cn/blog-3503579-1327602.html
【9】Huang, H. (2025). Why Should P-Values Be Abandoned in Scientific Research?. Qeios. doi:10.32388/3SYVEJ.
【10】Huang, H. (2024). Comments on “The Roles, Challenges, and Merits of the p Value” by Chén et al. Basic and Applied Social Psychology, 1–7. https://doi.org/10.1080/01973533.2024.2442957
【11】Trafimow, D. (2023). The story of my journey away from significance testing, A World Scientific Encyclopedia of Business Storytelling, 95-127.
1/0 | 闂傚倸鍊搁崐鎼佸磹閹间礁纾归柟闂寸绾惧綊鏌熼梻瀵割槮缁炬儳婀遍埀顒傛嚀鐎氼參宕崇壕瀣ㄤ汗闁圭儤鍨归崐鐐差渻閵堝棗绗掓い锔垮嵆瀵煡顢旈崼鐔叉嫼闂佸憡绻傜€氼噣鍩㈡径鎰厱婵☆垰鐏濇禍鍦磼椤旇偐澧︾€规洖銈搁幃銏㈢矙閸喕绱熷┑鐘愁問閸犳銆冮崨顓囨稑螖閸涱厾顦梺鎸庢礀閸婂綊鎮¢妷锔剧瘈闂傚牊绋掗敍宥嗕繆閹绘帗鎲哥紒杈ㄥ浮閹晠鎮滃Ο鐓庢锭濠电儑绲藉ú銈夋晝椤忓懍绻嗛柛顐f礀濡炰粙鏌涢幇銊︽珕闁哄棔鍗冲缁樻媴閸涘﹥鍎撻梺褰掓敱閸ㄥ湱妲愰悙瀛樺闁告挸寮剁紞搴ㄦ⒑閹呯妞ゎ偄顦悾閿嬪緞閹邦厾鍘繝鐢靛仜閻忔繈宕濆⿰鍫熺厽婵犻潧瀚悘鍙夋叏婵犲啯銇濋柟顔惧厴瀵爼骞愭惔顔兼暏闂傚倷鑳堕幊鎾诲吹閺嶎厼绠柨鐕傛嫹:0 | 婵犵數濮烽弫鍛婃叏閻戣棄鏋侀柛娑橈攻閸欏繘鏌i幋婵愭綗闁逞屽墮閸婂潡骞愭繝鍐彾闁冲搫顑囩粔顔锯偓瑙勬磸閸旀垵顕i崼鏇炵闁绘瑥鎳愰獮銏ゆ⒒閸屾瑦绁版い顐㈩槸閻e嘲螣鐞涒剝鐏冨┑鐐村灦绾板秹顢曟禒瀣厪闁割偅绻冮崯鎺楁煛閸愩劎澧涢柡鍛叀閺屾稑鈽夐崡鐐茬濠电偛鐗婇悡鈥愁潖閾忓湱鐭欐繛鍡樺劤閸撴澘顪冮妶鍡楃仴妞わ箓娼ч锝嗙節濮橆厽娅滈梺鍛婄☉閸婂宕版惔銊ョ厺閹兼番鍔岀粻姘辨喐鎼搭煈鏁婇柛鏇ㄥ灡閻撴稑顭跨捄鐑橆棡婵炲懎妫涚槐鎺旀嫚閼碱剙顣哄銈庡亜缁绘﹢骞栭崷顓熷枂闁告洦鍋嗛敍蹇涙⒒娓氣偓濞佳勭仚闂佺ǹ瀛╅悡锟犲箖閻㈢ǹ顫呴柕鍫濇閹锋椽姊洪懡銈呮瀾婵犮垺锚閳绘捇鍩¢崨顔惧幍闂佸憡鍨崐鏍偓姘炬嫹 | 婵犵數濮烽弫鍛婃叏閻戣棄鏋侀柛娑橈攻閸欏繘鏌i幋锝嗩棄闁哄绶氶弻鐔兼⒒鐎靛壊妲紒鐐劤椤兘寮婚敐澶婄疀妞ゆ帊鐒﹂崕鎾绘⒑閹肩偛濡奸柛濠傛健瀵鈽夐姀鈺傛櫇闂佹寧绻傚Λ娑⑺囬妷褏纾藉ù锝呮惈灏忛梺鍛婎殕婵炲﹤顕f繝姘亜闁稿繐鐨烽幏濠氭煟鎼达絾鏆╅弸顏勨攽閳ヨ尙鐭欐慨濠冩そ瀹曨偊宕熼鈧▍銈囩磽娴g瓔鍤欓柣妤佹尭椤曪絾绻濆顑┾晠鏌曟径鍫濈仾闁哄倵鍋撻梻鍌欒兌绾爼宕滃┑瀣櫔缂傚倷鐒﹂崝鏍儎椤栨凹娼栨繛宸簻瀹告繂鈹戦悩鎻掝劉闁伙絿鍏橀幃妤呭礂婢跺﹣澹曢梻浣哥秺濡法绮堟担铏逛笉闁哄秲鍔嬬换鍡涙煏閸繂鈧憡绂嶆ィ鍐┾拺閻庡湱濮甸ˉ澶嬨亜閿旇鐏﹂柛鈹垮灩椤撳ジ宕卞Ο鑲┬ら梻渚€娼ц噹闁告侗鍨扮敮鎺旂磽閸屾艾鈧绮堟笟鈧畷鎰板传閵壯呯厠闂佸湱铏庨崰鎾诲磻閹存緷褰掑礂閸忚偐绋囬梻浣稿船濞差參寮婚敐澶婃闁圭ǹ瀛╅崕鎾绘倵濞堝灝鏋熷┑鐐诧工椤繒绱掑Ο璇差€撻梺鎯х箳閹虫挾绮垾鏂ユ斀闁绘劖褰冪痪褔鏌eΔ鍐ㄐ㈤柣锝囧厴楠炲洭寮堕幐搴$ザ婵$偑鍊栭幐鑽ょ矙閹寸偟顩查柣鎰靛墯閸欏繑淇婇婊冨付濞存粓绠栭幃妤€顫濋悙顒€顏� | 闂傚倸鍊搁崐鎼佸磹閹间礁纾归柟闂寸绾惧湱鈧懓瀚崳纾嬨亹閹烘垹鍊為悷婊冪箻瀵娊鏁冮崒娑氬幈濡炪値鍘介崹鍨濠靛鐓曟繛鍡楃箳缁犲鏌″畝鈧崰鎾舵閹烘顫呴柣妯虹-娴滎亞绱撻崒娆掑厡濠殿噣绠栭敐鐐村緞閹邦儵锕傛煕閺囥劌鐏犵紒鐘崇洴閺屾盯顢曢敐鍡欘槰濡炪倕楠哥粔鐟邦潖閾忓湱鐭欐繛鍡樺劤閸撶偓绻涚€涙ḿ鐭ゅù婊庝簻椤曪絿鎷犲ù瀣潔闂侀潧绻掓慨鍫ュΩ閿旇桨绨婚梺鍝勫€搁悘婵堢礊閺嶃劍鍙忛悷娆忓濞堟粓鏌熼鐓庢Щ妤楊亙鍗冲畷銊╊敇瑜庡В澶愭⒑濮瑰洤鐒洪柛銊╀憾閵嗗啯绻濋崒銈呮闂佸搫琚崕杈╃不閻熸噴褰掓晲閸涱喛纭€闂佸憡鐟ュΛ婵嗩潖閾忓湱纾兼俊顖濆吹椤︺儵姊虹粙鍖″伐婵犫偓闁秴鐒垫い鎺嶈兌閸熸煡鏌熼崙銈嗗 |
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-24 01:10
Powered by ScienceNet.cn
Copyright © 2007-2025 中国科学报社