博文

科学史中的教训：第十八章发表的暴政：p值操纵与可重复性危机

已有 2706 次阅读 2026-3-15 14:53 |个人分类:我思故我在|系统分类:观点评述

第十八章发表的暴政：p值操纵与可重复性危机

一、2005年的炸弹：约翰·约安尼迪斯的宣言

2005年8月，斯坦福大学流行病学教授约翰·约安尼迪斯在《公共科学图书馆·医学》（PLoS Medicine）上发表了一篇论文，标题极具挑衅性：《为什么大多数发表的研究发现都是假的》。这不是哲学思辨，而是数学论证：基于统计功效、偏差、重复数量，他计算出大多数医学研究中的"阳性发现"可能是假阳性。

约安尼迪斯的论证是技术性的，但核心直觉简单。假设研究者检验1000个假设，其中100个实际上是真实的，900个是虚假的。使用标准的5%显著性水平（p<0.05），假阳性率是5%，即45个虚假假设会被错误地确认为"显著"。如果统计功效（真实效应被检测到的概率）是80%，那么80个真实假设会被确认。结果是：125个"显著"发现中，45个（36%）是假的。考虑到研究者偏差（倾向于报告阳性结果）、多重比较问题、以及其他方法缺陷，假阳性率可能超过50%。

这篇论文在科学界引发地震。它不是攻击个别造假者，而是攻击整个知识生产系统。约安尼迪斯指出：发表压力、职业激励、资金竞争，共同创造了一个"发表或灭亡"（publish or perish）的环境，在这个环境中，假阳性不是错误，而是理性的职业策略。

约安尼迪斯本人是元研究（meta-research）的先驱——研究研究本身。他的工作揭示了科学自我纠错机制的系统性失效：同行评议不能过滤假阳性，因为评议者看不到未发表的研究；重复实验不能纠正错误，因为重复很少被发表，尤其是阴性结果；统计方法不能自我纠正，因为它们被操纵以产生期望的输出。

2005年的论文是宣言，也是预言。接下来的十年，"可重复性危机"从医学扩展到心理学、经济学、神经科学、甚至物理学。2015年，《科学》杂志发表了一项大规模重复研究：100项心理学实验，只有39项的结果可以被重复。2018年，社会科学重复项目报告了类似的失败率。2023年，对癌症生物学预临床研究的评估发现，只有20-25%的发现可以被重复。

这些数字不是丑闻的指标，而是系统故障的症状。科学的方法——假设、实验、分析、发表——在结构上倾向于产生假阳性，而自我纠错机制——重复、质疑、修正——在结构上被削弱。

二、p值的诞生：从费舍尔到奈曼-皮尔逊

理解危机，需要回到统计假设检验的历史。1920-1930年代，罗纳德·费舍尔发展了现代统计学的框架。他的核心工具是p值：在假设虚无假设（无效应）为真的情况下，观察到当前数据或更极端数据的概率。如果p值很小（如<0.05），我们"拒绝"虚无假设，声称发现了"统计显著"的效应。

费舍尔的p值是证据的连续度量，而非决策的二元工具。他写道："科学事实被判断为实验设计允许它们被证明的程度。"p值小表示证据强，但没有绝对的阈值。5%是传统的、方便的、而非神圣的。

但1933年，耶日·奈曼和埃贡·皮尔逊（卡尔·皮尔逊的儿子）提出了不同的框架：假设检验作为决策程序。他们引入了α（第一类错误率，假阳性）和β（第二类错误率，假阴性），以及检验的"功效"（1-β，真实效应被检测到的概率）。在他们的框架中，研究者预先设定α（通常是0.05），根据样本量计算功效，然后做出二元决策：拒绝或不拒绝虚无假设。

奈曼-皮尔逊框架是频率主义的，关注长期错误率：如果重复实验很多次，5%的显著结果将是假阳性。这与费舍尔的证据主义不同：费舍尔关注当前实验的数据强度，奈曼-皮尔逊关注决策程序的长期性质。

这两种框架在1950-1960年代被混淆和合并，产生了混合怪物：研究者报告p值（费舍尔），但将其解释为二元决策（奈曼-皮尔逊）；他们声称"显著"（p<0.05），但忽视功效和样本量；他们进行多重比较，但不调整α水平。

这种混淆是教育失败的产物。统计学被教授为 cookbook 程序：计算p值，与0.05比较，报告显著性。学生不理解p值的真正含义（不是"假设为真的概率"，不是"效应为假的概率"，而是"在假设为真时观察到当前数据的概率"）。他们不理解显著性与效应大小的区别（大样本可以检测微小、无意义的效应）。他们不理解统计显著性与实际重要性的分离。

三、p值操纵的艺术：HARKing与花园路径

研究者很快学会了"玩弄"系统。这些实践不是公然的造假，而是在规则边缘的操纵，在灰色地带的游走。

HARKing（Hypothesizing After the Results are Known，结果已知后的假设）：研究者收集数据，探索多种关系，发现意外的相关性，然后构建一个"假设"来解释它，声称这是预先计划的。这种"事后假设"在论文中被呈现为"先验预测"，读者无法区分。

花园路径分析（Garden of Forking Paths）：研究者在数据分析的每个步骤做出选择：排除异常值或不排除，使用这种转换或那种，包含这种协变量或那种。每个选择看似合理，但累积起来，它们创造了通往显著结果的多重路径。研究者沿着这些路径行走，直到找到显著性，然后报告这条"成功"路径，隐藏其他尝试。

p-hacking（p值操纵）：直接操纵数据或分析以达到p<0.05。包括：收集数据直到显著（可选停止），然后报告最终样本量，隐藏中间测试；排除"异常"数据点，声称它们是测量错误；进行多重比较，但不进行Bonferroni校正或其他调整；将数据分组，直到某个子组显示显著性。

发表偏倚（Publication Bias）：期刊、评议者、研究者本身，都偏好阳性结果。阴性结果（无效应）被认为"无趣"，不被提交或不被接受。这创造了"文件抽屉问题"：大量阴性研究被藏在抽屉里，只有阳性研究被发表。元分析（综合多项研究）因此偏向阳性，夸大了效应大小。

这些实践在2010年代被广泛记录。心理学家西蒙斯、尼尔森和西蒙索恩在2011年的论文《假阳性心理学》中，展示了如何通过"研究者自由度"（分析选择的灵活性）几乎总能产生显著结果，即使没有真实效应。他们进行了一个"实验"：参与者听披头士或当代音乐，然后报告年龄。通过适当的数据操纵，他们"发现"听披头士使人年轻1.4岁（p<0.05）。

这不是讽刺，而是示范。他们公开承认操纵，展示系统如何被滥用。他们的论文被广泛引用，成为可重复性危机的标志性文献。

四、心理学的崩溃：从社会启动到自我纠正

2011年，荷兰心理学家迪德里克·斯塔佩尔被揭露大规模数据造假。他的数十篇论文——关于社会启动（subliminal priming）、态度形成、群体行为——被发现是完全捏造的。他没有进行声称的实验，没有收集声称的数据，只是编造了符合理论预期的数字。

斯塔佩尔的案例是极端的，但它揭示了系统的脆弱性。他的论文发表在顶级期刊，经过同行评议，被广泛引用，影响了政策讨论。他的造假持续了多年，因为没有人检查原始数据——心理学研究很少要求数据共享，很少进行重复验证。

更深层的问题是：斯塔佩尔的"发现"符合理论期望，因此容易被接受。社会启动研究——展示词语或图像，无意识影响行为——在2000年代是心理学的主流。约翰·巴奇的"老年启动"研究（参与者阅读与老年相关的词语后，走路更慢）是经典，被引用数千次，进入教科书，影响广告和公共政策。

但2010年代的重复尝试大多失败。2012年，一个大规模重复项目（包括巴奇自己的参与）未能重复老年启动效应。2014-2018年，社会心理学的多个经典发现——包括"权力姿势"（Amy Cuddy的研究，展示自信姿势增加激素水平和风险行为）——在重复中失败或被大幅削弱。

这些失败不是个别研究者的错误，而是整个研究范式的危机。社会启动研究依赖于小样本、大效应、灵活的统计分析。当使用更大样本、预注册假设、严格分析时，效应消失或缩小到无意义。

2015年的《科学》重复项目是转折点。100项心理学研究，由独立团队重复，使用原始材料和方法。结果：39%的重复成功（使用与原始相同的标准），即使使用更宽松的"主观相似"标准，也只有62%。心理学界震惊，随后分裂。

一些研究者接受危机，推动改革：预注册（在研究开始前公开假设和方法）、更大样本、开放数据、重复研究。开放科学框架（OSF）和注册报告（Registered Reports，期刊在接受研究前评审方法，而非结果）被建立。

另一些研究者抵制。他们质疑重复的有效性：原始研究的情境特异性、参与者的文化差异、实验者的细微差异，可能解释失败。他们捍卫社会启动的理论重要性：即使效应小或不稳定，无意识影响的存在是真实的。

这场争论至今未解决。但它改变了实践：2010年后，心理学研究的平均样本量增加，预注册变得更常见，数据共享成为期待。危机成为自我纠正的催化剂，尽管纠正是不完全的、不均衡的、有争议的。

五、医学的谎言：从Vioxx到抗抑郁药

医学研究中的可重复性问题更致命，因为涉及生命。2004年，默克公司的止痛药Vioxx（罗非昔布）被撤回，因为临床试验显示它增加心脏病风险。但风险在原始试验数据中被隐藏：默克进行了多项试验，选择性发表阳性结果，隐瞒阴性或危险信号。

这种"发表偏倚"是系统性的。2008年，一项分析显示，抗抑郁药的临床试验中，48%的研究未发表，而这些未发表研究大多是阴性的。如果包括所有研究，抗抑郁药的效果比发表文献显示的小20-30%。患者和医生基于不完整的信息做出决策，高估了药物的益处，低估了风险。

更深层的问题是多重比较和次要终点。大型临床试验预设主要终点（如生存率），但收集数十个次要数据（如生活质量、特定症状）。如果主要终点不显著，研究者可以挖掘次要终点，寻找"显著"结果。这种"数据挖掘"增加了假阳性率，但不易被检测，因为次要分析很少被预先指定。

2010年代，医学研究开始采用预注册和结果承诺：在研究开始前，公开主要和次要终点、统计分析计划。这限制了HARKing和花园路径。但执行是不完全的：许多试验仍不预注册，或预注册后改变计划而不解释。

元分析（综合多项研究）本应纠正发表偏倚，但本身可以被操纵。选择纳入哪些研究、使用哪种统计模型、如何权重不同研究，都影响结论。制药公司资助的元分析，比独立元分析更可能得出阳性结论。

六、物理学的傲慢：从超对称到宇宙学

可重复性危机通常与社会科学和医学关联，但物理学也不免疫。2010年代，粒子物理学的"超对称"（SUSY）理论面临危机。超对称预测了多种新粒子，解决标准模型的问题（如层级问题、暗物质候选者）。大型强子对撞机（LHC）在2010-2012年运行，寻找这些粒子。

结果：没有发现。超对称的参数空间被压缩，但理论家调整参数，移动到更高能量或更复杂版本，保持理论"可证伪"但未被证伪。这不是造假，而是理论弹性：当预测失败，理论可以被修改以保持一致性。

批评者称这是"不可证伪性"——超对称成为像弦理论一样的"后经验"理论，无法被实验排除。捍卫者称这是"正常的科学"——理论在压力下演化，等待更高能量的实验。

宇宙学面临类似问题。2014年，BICEP2实验声称探测到宇宙微波背景中的引力波信号（B模式偏振），证明宇宙暴胀。结果是统计显著的（声称5σ置信度），被广泛报道为"大爆炸的确认"。

但几个月后，问题出现。信号可能来自银河系尘埃，而非原初引力波。BICEP2团队未充分控制尘埃前景，依赖了不完整的模型。论文被撤回，声誉受损，但科学过程"工作"了——错误被纠正。

然而，这种纠正依赖于竞争和独立检查，而非系统的自我纠错。如果BICEP2的结果是真实的，但更难被独立验证（如需要更长时间、更昂贵设备），错误可能持续更久。宇宙学的许多主张——暗能量的性质、暴胀的具体模型、多重宇宙的存在——依赖于难以重复的观测，或原则上不可观测的预测。

七、统计改革：从p值到贝叶斯

2010年代，统计学界推动改革p值使用。2016年，美国统计协会（ASA）发布声明，警告p值的误用："p值不能测量假设为真的概率，或数据由随机机会产生的概率。p值不能测量研究的重要性或效应的大小。"

2019年，《自然》和《科学》等期刊开始要求报告效应大小和置信区间，而非仅仅p值。一些期刊（如《基础与应用社会心理学》）完全禁止p值，要求其他统计方法。

贝叶斯统计作为替代被推广。贝叶斯方法计算后验概率：在观察到数据后，假设为真的概率。这更符合研究者的直觉（"这个效应有多大可能是真实的？"），但需要指定先验概率（在观察前，假设为真的概率），这引入主观性。

贝叶斯方法不是万能的。先验的选择影响结论，"不信息先验"（试图保持客观）往往不存在或导致不合理结果。计算复杂，对复杂模型难以实现。但贝叶斯框架更透明：研究者必须明确他们的假设，更新信念的过程是公开的，而非隐藏在p值的单一数字中。

估计主义（estimation）是另一替代：放弃二元决策（显著/不显著），专注于估计效应大小及其精确度（置信区间）。这更符合科学实践：我们很少需要"证明"效应存在，而是想知道效应有多大、多确定。

这些改革在2010-2020年代逐渐被采纳，但速度缓慢。教育滞后：大多数研究者接受的训练是p值框架，改变习惯困难。激励不变：期刊仍然偏好"显著"结果，即使要求报告效应大小。文化抵抗：显著性是简单的、熟悉的、有权威的，替代方法复杂、陌生、需要更多解释。

八、开放的承诺：从危机到改革

2010年代的可重复性危机催生了开放科学运动。核心实践包括：

预注册：在研究开始前，在公共平台（如OSF）注册假设、方法、分析计划。防止HARKing，增加透明度。挑战：灵活性丧失，探索性研究被歧视，注册后偏离计划难以处理。

开放数据：发表时共享原始数据，允许独立验证和元分析。挑战：隐私问题（医学数据）、知识产权、数据整理成本、滥用风险（数据被挖掘以寻找虚假关联）。

开放代码：共享分析代码，允许验证计算。挑战：代码质量、软件依赖、长期可维护性。

重复研究：专门资助和发表重复研究，尤其是高影响力发现的直接重复。挑战：重复研究被视为"无趣"，职业激励不足，原始材料（刺激、程序）难以获得。

这些实践在2010年后快速增长。心理学、神经科学、医学的主要期刊建立注册报告格式。资助机构（如NIH、Wellcome Trust）要求数据共享计划。预注册平台（如OSF、AsPredicted）用户增加。

但改革是不完全的。开放科学主要影响行为科学和医学，对物理、化学、工程影响较小（这些领域有更强的理论基础和实验控制）。预注册在实验研究中可行，在观察性研究、探索性研究、定性研究中困难。数据共享的隐私问题未解决，尤其是基因组和健康数据。

更深层的问题是激励结构。研究者仍然被评价为发表数量、影响因子、引用数。开放科学实践消耗时间和资源，不直接转化为职业奖励。除非评价标准改变，改革将是边缘的、自愿的、不平等的。

九、教训：知识生产的政治经济学

可重复性危机揭示了科学作为社会制度的本质。它不是方法失败，而是激励失败；不是个体不端，而是系统偏差。

第一，发表是筛选，也是扭曲。同行评议和期刊系统被设计为质量控制，但创造了发表偏倚、延迟、和职业焦虑。阳性结果被偏好，因为"有趣"；阴性结果被压制，因为"无趣"。这种筛选不是恶意的，而是认知的：评议者和读者被新颖性吸引，被确认偏误驱动。

第二，统计是工具，也是修辞。 p值、置信区间、贝叶斯因子，都是说服的工具。它们被选择、呈现、解释，以支持叙事。统计方法的中立性是幻觉；它们被嵌入权力关系，服务于特定利益（职业、资金、意识形态）。

第三，重复是纠错，也是成本。科学自我纠正依赖于重复，但重复昂贵、耗时、不被奖励。在资源有限的环境中，重复被推迟或省略，错误持续。危机迫使承认：自我纠正不是自动的，需要制度投资（资助重复、发表阴性结果、奖励验证）。

第四，透明是解药，也是暴露。开放数据、预注册、代码共享，增加了滥用的可能性（p-hacking开放数据、挖掘他人数据），但也增加了检测的可能性。透明不是万灵药，而是风险转移：从隐藏偏差到可见偏差，从个别欺诈到集体责任。

最后，危机是健康的，也是痛苦的。 2010年代的心理学危机摧毁了 careers，动摇了 public trust，但也推动了改革。科学的自我纠正最终工作，但速度缓慢、代价高昂、不完全。我们需要预期危机，建立更健壮的知识生产系统，而非等待丑闻驱动。

尾声：抽屉里的声音

想象一个文件抽屉，锁在无数研究者的办公室里。里面藏着未发表的研究：阴性结果、失败重复、模糊发现。这些研究是"不显著"的，因此"不有趣"，但它们代表了科学努力的绝大部分——也许90%的实验、80%的数据收集、70%的分析时间。

抽屉里的声音是沉默的，但它们是知识的幽灵。它们本可以纠正错误，防止虚假发现，节约重复努力。但它们被隐藏，因为系统不奖励它们，因为发表它们损害职业，因为"无发现"被视为"无贡献"。

约安尼迪斯在2005年的警告，是试图打开这些抽屉，让沉默的声音被听见。2010年代的危机，是抽屉被强行撬开的时刻。我们看到里面的混乱：假阳性、操纵、偏差、和偶尔的真实发现被忽视。

但我们也看到希望。预注册是承诺在实验前公开假设，防止抽屉成为隐藏偏差的工具。开放数据是承诺共享证据，允许独立检查。重复研究是承诺验证，即使验证是阴性的。

这些承诺是不完全的、 contested 的、演化的。但它们代表科学的自我理解的变化：从"个体天才的发现"到"集体努力的验证"，从"显著性的追求"到"精确性的尊重"，从"发表或灭亡"到"透明或无效"。

在抽屉的黑暗中，我们听见历史的回声：费舍尔的p值、奈曼的决策、斯塔佩尔的造假、巴奇的启动、BICEP2的撤回。这些声音提醒我们，知识是脆弱的、临时的、需要持续维护的。

当我们关闭抽屉——不是永远，而是为了重新打开，以更透明的方式——我们是在参与科学的永恒舞蹈：怀疑与相信、隐藏与揭示、错误与纠正。可重复性危机不是终点，而是新的起点，在这一点，我们承认我们的无知，承诺我们的诚实，继续我们的探索。

本章注释与延伸阅读

约安尼迪斯的原始论文《Why Most Published Research Findings Are False》（2005）发表在PLoS Medicine上，是元研究领域的奠基文献。关于p值的历史和误用，参见Stephen Stigler的《The History of Statistics》（1986）和Gerd Gigerenzer的《Statistical Rituals: The Replication Delusion and How We Got There》（2018）。关于HARKing和p-hacking，参见Simmons、Nelson和Simonsohn的《False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant》（2011）。关于心理学重复项目，参见Open Science Collaboration的《Estimating the Reproducibility of Psychological Science》（2015）。关于医学研究的发表偏倚，参见Ben Goldacre的《Bad Pharma: How Drug Companies Mislead Doctors and Harm Patients》（2012）。关于统计改革，参见American Statistical Association的《Statement on Statistical Significance and P-Values》（2016）和《The ASA's Statement on p-Values: Context, Process, and Purpose》（2016）。关于开放科学运动，参见Brian A. Nosek和合作者的《Promoting an Open Research Culture》（2015）和《The Preregistration Revolution》（2018）。

转载本文请联系原作者获取授权，同时请注明本文来自王涛科学网博客。
链接地址：https://blog.sciencenet.cn/blog-41701-1525840.html

上一篇：科学史中的教训：第十七章实验的伦理：从纽伦堡到斯坦福监狱
下一篇：科学史中的教训：第十九章模型的暴政：从气候门到疫情预测

欢迎参加科学网十佳博文评选活动！

主办单位：

支持单位：

收藏 IP: 111.27.171.*| 热度|

别人成仙得道，我是白骨成精分享 http://blog.sciencenet.cn/u/qiaoqiao1980 寻找新物理学

博文

科学史中的教训：第十八章发表的暴政：p值操纵与可重复性危机

当前推荐数：10 推荐人：雒运强 郑永军 刘进平 宁利中 杨正瓴 崔锦华 高宏 朱林 王成玉 刘跃

该博文允许注册用户评论请点击登录评论 (0 个评论)

王涛

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

别人成仙得道，我是白骨成精分享 http://blog.sciencenet.cn/u/qiaoqiao1980 寻找新物理学

博文

科学史中的教训：第十八章 发表的暴政：p值操纵与可重复性危机

当前推荐数：10 推荐人： 雒运强 郑永军 刘进平 宁利中 杨正瓴 崔锦华 高宏 朱林 王成玉 刘跃

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

王涛

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

科学史中的教训：第十八章发表的暴政：p值操纵与可重复性危机

当前推荐数：10 推荐人：雒运强郑永军刘进平宁利中杨正瓴崔锦华高宏朱林王成玉刘跃

该博文允许注册用户评论请点击登录评论 (0 个评论)