||
第十八章 发表的暴政:p值操纵与可重复性危机
一、2005年的炸弹:约翰·约安尼迪斯的宣言
2005年8月,斯坦福大学流行病学教授约翰·约安尼迪斯在《公共科学图书馆·医学》(PLoS Medicine)上发表了一篇论文,标题极具挑衅性:《为什么大多数发表的研究发现都是假的》。这不是哲学思辨,而是数学论证:基于统计功效、偏差、重复数量,他计算出大多数医学研究中的"阳性发现"可能是假阳性。
约安尼迪斯的论证是技术性的,但核心直觉简单。假设研究者检验1000个假设,其中100个实际上是真实的,900个是虚假的。使用标准的5%显著性水平(p<0.05),假阳性率是5%,即45个虚假假设会被错误地确认为"显著"。如果统计功效(真实效应被检测到的概率)是80%,那么80个真实假设会被确认。结果是:125个"显著"发现中,45个(36%)是假的。考虑到研究者偏差(倾向于报告阳性结果)、多重比较问题、以及其他方法缺陷,假阳性率可能超过50%。
这篇论文在科学界引发地震。它不是攻击个别造假者,而是攻击整个知识生产系统。约安尼迪斯指出:发表压力、职业激励、资金竞争,共同创造了一个"发表或灭亡"(publish or perish)的环境,在这个环境中,假阳性不是错误,而是理性的职业策略。
约安尼迪斯本人是元研究(meta-research)的先驱——研究研究本身。他的工作揭示了科学自我纠错机制的系统性失效:同行评议不能过滤假阳性,因为评议者看不到未发表的研究;重复实验不能纠正错误,因为重复很少被发表,尤其是阴性结果;统计方法不能自我纠正,因为它们被操纵以产生期望的输出。
2005年的论文是宣言,也是预言。接下来的十年,"可重复性危机"从医学扩展到心理学、经济学、神经科学、甚至物理学。2015年,《科学》杂志发表了一项大规模重复研究:100项心理学实验,只有39项的结果可以被重复。2018年,社会科学重复项目报告了类似的失败率。2023年,对癌症生物学预临床研究的评估发现,只有20-25%的发现可以被重复。
这些数字不是丑闻的指标,而是系统故障的症状。科学的方法——假设、实验、分析、发表——在结构上倾向于产生假阳性,而自我纠错机制——重复、质疑、修正——在结构上被削弱。
二、p值的诞生:从费舍尔到奈曼-皮尔逊
理解危机,需要回到统计假设检验的历史。1920-1930年代,罗纳德·费舍尔发展了现代统计学的框架。他的核心工具是p值:在假设虚无假设(无效应)为真的情况下,观察到当前数据或更极端数据的概率。如果p值很小(如<0.05),我们"拒绝"虚无假设,声称发现了"统计显著"的效应。
费舍尔的p值是证据的连续度量,而非决策的二元工具。他写道:"科学事实被判断为实验设计允许它们被证明的程度。"p值小表示证据强,但没有绝对的阈值。5%是传统的、方便的、而非神圣的。
但1933年,耶日·奈曼和埃贡·皮尔逊(卡尔·皮尔逊的儿子)提出了不同的框架:假设检验作为决策程序。他们引入了α(第一类错误率,假阳性)和β(第二类错误率,假阴性),以及检验的"功效"(1-β,真实效应被检测到的概率)。在他们的框架中,研究者预先设定α(通常是0.05),根据样本量计算功效,然后做出二元决策:拒绝或不拒绝虚无假设。
奈曼-皮尔逊框架是频率主义的,关注长期错误率:如果重复实验很多次,5%的显著结果将是假阳性。这与费舍尔的证据主义不同:费舍尔关注当前实验的数据强度,奈曼-皮尔逊关注决策程序的长期性质。
这两种框架在1950-1960年代被混淆和合并,产生了混合怪物:研究者报告p值(费舍尔),但将其解释为二元决策(奈曼-皮尔逊);他们声称"显著"(p<0.05),但忽视功效和样本量;他们进行多重比较,但不调整α水平。
这种混淆是教育失败的产物。统计学被教授为 cookbook 程序:计算p值,与0.05比较,报告显著性。学生不理解p值的真正含义(不是"假设为真的概率",不是"效应为假的概率",而是"在假设为真时观察到当前数据的概率")。他们不理解显著性与效应大小的区别(大样本可以检测微小、无意义的效应)。他们不理解统计显著性与实际重要性的分离。
三、p值操纵的艺术:HARKing与花园路径
研究者很快学会了"玩弄"系统。这些实践不是公然的造假,而是在规则边缘的操纵,在灰色地带的游走。
HARKing(Hypothesizing After the Results are Known,结果已知后的假设):研究者收集数据,探索多种关系,发现意外的相关性,然后构建一个"假设"来解释它,声称这是预先计划的。这种"事后假设"在论文中被呈现为"先验预测",读者无法区分。
花园路径分析(Garden of Forking Paths):研究者在数据分析的每个步骤做出选择:排除异常值或不排除,使用这种转换或那种,包含这种协变量或那种。每个选择看似合理,但累积起来,它们创造了通往显著结果的多重路径。研究者沿着这些路径行走,直到找到显著性,然后报告这条"成功"路径,隐藏其他尝试。
p-hacking(p值操纵):直接操纵数据或分析以达到p<0.05。包括:收集数据直到显著(可选停止),然后报告最终样本量,隐藏中间测试;排除"异常"数据点,声称它们是测量错误;进行多重比较,但不进行Bonferroni校正或其他调整;将数据分组,直到某个子组显示显著性。
发表偏倚(Publication Bias):期刊、评议者、研究者本身,都偏好阳性结果。阴性结果(无效应)被认为"无趣",不被提交或不被接受。这创造了"文件抽屉问题":大量阴性研究被藏在抽屉里,只有阳性研究被发表。元分析(综合多项研究)因此偏向阳性,夸大了效应大小。
这些实践在2010年代被广泛记录。心理学家西蒙斯、尼尔森和西蒙索恩在2011年的论文《假阳性心理学》中,展示了如何通过"研究者自由度"(分析选择的灵活性)几乎总能产生显著结果,即使没有真实效应。他们进行了一个"实验":参与者听披头士或当代音乐,然后报告年龄。通过适当的数据操纵,他们"发现"听披头士使人年轻1.4岁(p<0.05)。
这不是讽刺,而是示范。他们公开承认操纵,展示系统如何被滥用。他们的论文被广泛引用,成为可重复性危机的标志性文献。
四、心理学的崩溃:从社会启动到自我纠正
2011年,荷兰心理学家迪德里克·斯塔佩尔被揭露大规模数据造假。他的数十篇论文——关于社会启动(subliminal priming)、态度形成、群体行为——被发现是完全捏造的。他没有进行声称的实验,没有收集声称的数据,只是编造了符合理论预期的数字。
斯塔佩尔的案例是极端的,但它揭示了系统的脆弱性。他的论文发表在顶级期刊,经过同行评议,被广泛引用,影响了政策讨论。他的造假持续了多年,因为没有人检查原始数据——心理学研究很少要求数据共享,很少进行重复验证。
更深层的问题是:斯塔佩尔的"发现"符合理论期望,因此容易被接受。社会启动研究——展示词语或图像,无意识影响行为——在2000年代是心理学的主流。约翰·巴奇的"老年启动"研究(参与者阅读与老年相关的词语后,走路更慢)是经典,被引用数千次,进入教科书,影响广告和公共政策。
但2010年代的重复尝试大多失败。2012年,一个大规模重复项目(包括巴奇自己的参与)未能重复老年启动效应。2014-2018年,社会心理学的多个经典发现——包括"权力姿势"(Amy Cuddy的研究,展示自信姿势增加激素水平和风险行为)——在重复中失败或被大幅削弱。
这些失败不是个别研究者的错误,而是整个研究范式的危机。社会启动研究依赖于小样本、大效应、灵活的统计分析。当使用更大样本、预注册假设、严格分析时,效应消失或缩小到无意义。
2015年的《科学》重复项目是转折点。100项心理学研究,由独立团队重复,使用原始材料和方法。结果:39%的重复成功(使用与原始相同的标准),即使使用更宽松的"主观相似"标准,也只有62%。心理学界震惊,随后分裂。
一些研究者接受危机,推动改革:预注册(在研究开始前公开假设和方法)、更大样本、开放数据、重复研究。开放科学框架(OSF)和注册报告(Registered Reports,期刊在接受研究前评审方法,而非结果)被建立。
另一些研究者抵制。他们质疑重复的有效性:原始研究的情境特异性、参与者的文化差异、实验者的细微差异,可能解释失败。他们捍卫社会启动的理论重要性:即使效应小或不稳定,无意识影响的存在是真实的。
这场争论至今未解决。但它改变了实践:2010年后,心理学研究的平均样本量增加,预注册变得更常见,数据共享成为期待。危机成为自我纠正的催化剂,尽管纠正是不完全的、不均衡的、有争议的。
五、医学的谎言:从Vioxx到抗抑郁药
医学研究中的可重复性问题更致命,因为涉及生命。2004年,默克公司的止痛药Vioxx(罗非昔布)被撤回,因为临床试验显示它增加心脏病风险。但风险在原始试验数据中被隐藏:默克进行了多项试验,选择性发表阳性结果,隐瞒阴性或危险信号。
这种"发表偏倚"是系统性的。2008年,一项分析显示,抗抑郁药的临床试验中,48%的研究未发表,而这些未发表研究大多是阴性的。如果包括所有研究,抗抑郁药的效果比发表文献显示的小20-30%。患者和医生基于不完整的信息做出决策,高估了药物的益处,低估了风险。
更深层的问题是多重比较和次要终点。大型临床试验预设主要终点(如生存率),但收集数十个次要数据(如生活质量、特定症状)。如果主要终点不显著,研究者可以挖掘次要终点,寻找"显著"结果。这种"数据挖掘"增加了假阳性率,但不易被检测,因为次要分析很少被预先指定。
2010年代,医学研究开始采用预注册和结果承诺:在研究开始前,公开主要和次要终点、统计分析计划。这限制了HARKing和花园路径。但执行是不完全的:许多试验仍不预注册,或预注册后改变计划而不解释。
元分析(综合多项研究)本应纠正发表偏倚,但本身可以被操纵。选择纳入哪些研究、使用哪种统计模型、如何权重不同研究,都影响结论。制药公司资助的元分析,比独立元分析更可能得出阳性结论。
六、物理学的傲慢:从超对称到宇宙学
可重复性危机通常与社会科学和医学关联,但物理学也不免疫。2010年代,粒子物理学的"超对称"(SUSY)理论面临危机。超对称预测了多种新粒子,解决标准模型的问题(如层级问题、暗物质候选者)。大型强子对撞机(LHC)在2010-2012年运行,寻找这些粒子。
结果:没有发现。超对称的参数空间被压缩,但理论家调整参数,移动到更高能量或更复杂版本,保持理论"可证伪"但未被证伪。这不是造假,而是理论弹性:当预测失败,理论可以被修改以保持一致性。
批评者称这是"不可证伪性"——超对称成为像弦理论一样的"后经验"理论,无法被实验排除。捍卫者称这是"正常的科学"——理论在压力下演化,等待更高能量的实验。
宇宙学面临类似问题。2014年,BICEP2实验声称探测到宇宙微波背景中的引力波信号(B模式偏振),证明宇宙暴胀。结果是统计显著的(声称5σ置信度),被广泛报道为"大爆炸的确认"。
但几个月后,问题出现。信号可能来自银河系尘埃,而非原初引力波。BICEP2团队未充分控制尘埃前景,依赖了不完整的模型。论文被撤回,声誉受损,但科学过程"工作"了——错误被纠正。
然而,这种纠正依赖于竞争和独立检查,而非系统的自我纠错。如果BICEP2的结果是真实的,但更难被独立验证(如需要更长时间、更昂贵设备),错误可能持续更久。宇宙学的许多主张——暗能量的性质、暴胀的具体模型、多重宇宙的存在——依赖于难以重复的观测,或原则上不可观测的预测。
七、统计改革:从p值到贝叶斯
2010年代,统计学界推动改革p值使用。2016年,美国统计协会(ASA)发布声明,警告p值的误用:"p值不能测量假设为真的概率,或数据由随机机会产生的概率。p值不能测量研究的重要性或效应的大小。"
2019年,《自然》和《科学》等期刊开始要求报告效应大小和置信区间,而非仅仅p值。一些期刊(如《基础与应用社会心理学》)完全禁止p值,要求其他统计方法。
贝叶斯统计作为替代被推广。贝叶斯方法计算后验概率:在观察到数据后,假设为真的概率。这更符合研究者的直觉("这个效应有多大可能是真实的?"),但需要指定先验概率(在观察前,假设为真的概率),这引入主观性。
贝叶斯方法不是万能的。先验的选择影响结论,"不信息先验"(试图保持客观)往往不存在或导致不合理结果。计算复杂,对复杂模型难以实现。但贝叶斯框架更透明:研究者必须明确他们的假设,更新信念的过程是公开的,而非隐藏在p值的单一数字中。
估计主义(estimation)是另一替代:放弃二元决策(显著/不显著),专注于估计效应大小及其精确度(置信区间)。这更符合科学实践:我们很少需要"证明"效应存在,而是想知道效应有多大、多确定。
这些改革在2010-2020年代逐渐被采纳,但速度缓慢。教育滞后:大多数研究者接受的训练是p值框架,改变习惯困难。激励不变:期刊仍然偏好"显著"结果,即使要求报告效应大小。文化抵抗:显著性是简单的、熟悉的、有权威的,替代方法复杂、陌生、需要更多解释。
八、开放的承诺:从危机到改革
2010年代的可重复性危机催生了开放科学运动。核心实践包括:
预注册:在研究开始前,在公共平台(如OSF)注册假设、方法、分析计划。防止HARKing,增加透明度。挑战:灵活性丧失,探索性研究被歧视,注册后偏离计划难以处理。
开放数据:发表时共享原始数据,允许独立验证和元分析。挑战:隐私问题(医学数据)、知识产权、数据整理成本、滥用风险(数据被挖掘以寻找虚假关联)。
开放代码:共享分析代码,允许验证计算。挑战:代码质量、软件依赖、长期可维护性。
重复研究:专门资助和发表重复研究,尤其是高影响力发现的直接重复。挑战:重复研究被视为"无趣",职业激励不足,原始材料(刺激、程序)难以获得。
这些实践在2010年后快速增长。心理学、神经科学、医学的主要期刊建立注册报告格式。资助机构(如NIH、Wellcome Trust)要求数据共享计划。预注册平台(如OSF、AsPredicted)用户增加。
但改革是不完全的。开放科学主要影响行为科学和医学,对物理、化学、工程影响较小(这些领域有更强的理论基础和实验控制)。预注册在实验研究中可行,在观察性研究、探索性研究、定性研究中困难。数据共享的隐私问题未解决,尤其是基因组和健康数据。
更深层的问题是激励结构。研究者仍然被评价为发表数量、影响因子、引用数。开放科学实践消耗时间和资源,不直接转化为职业奖励。除非评价标准改变,改革将是边缘的、自愿的、不平等的。
九、教训:知识生产的政治经济学
可重复性危机揭示了科学作为社会制度的本质。它不是方法失败,而是激励失败;不是个体不端,而是系统偏差。
第一,发表是筛选,也是扭曲。 同行评议和期刊系统被设计为质量控制,但创造了发表偏倚、延迟、和职业焦虑。阳性结果被偏好,因为"有趣";阴性结果被压制,因为"无趣"。这种筛选不是恶意的,而是认知的:评议者和读者被新颖性吸引,被确认偏误驱动。
第二,统计是工具,也是修辞。 p值、置信区间、贝叶斯因子,都是说服的工具。它们被选择、呈现、解释,以支持叙事。统计方法的中立性是幻觉;它们被嵌入权力关系,服务于特定利益(职业、资金、意识形态)。
第三,重复是纠错,也是成本。 科学自我纠正依赖于重复,但重复昂贵、耗时、不被奖励。在资源有限的环境中,重复被推迟或省略,错误持续。危机迫使承认:自我纠正不是自动的,需要制度投资(资助重复、发表阴性结果、奖励验证)。
第四,透明是解药,也是暴露。 开放数据、预注册、代码共享,增加了滥用的可能性(p-hacking开放数据、挖掘他人数据),但也增加了检测的可能性。透明不是万灵药,而是风险转移:从隐藏偏差到可见偏差,从个别欺诈到集体责任。
最后,危机是健康的,也是痛苦的。 2010年代的心理学危机摧毁了 careers,动摇了 public trust,但也推动了改革。科学的自我纠正最终工作,但速度缓慢、代价高昂、不完全。我们需要预期危机,建立更健壮的知识生产系统,而非等待丑闻驱动。
尾声:抽屉里的声音
想象一个文件抽屉,锁在无数研究者的办公室里。里面藏着未发表的研究:阴性结果、失败重复、模糊发现。这些研究是"不显著"的,因此"不有趣",但它们代表了科学努力的绝大部分——也许90%的实验、80%的数据收集、70%的分析时间。
抽屉里的声音是沉默的,但它们是知识的幽灵。它们本可以纠正错误,防止虚假发现,节约重复努力。但它们被隐藏,因为系统不奖励它们,因为发表它们损害职业,因为"无发现"被视为"无贡献"。
约安尼迪斯在2005年的警告,是试图打开这些抽屉,让沉默的声音被听见。2010年代的危机,是抽屉被强行撬开的时刻。我们看到里面的混乱:假阳性、操纵、偏差、和偶尔的真实发现被忽视。
但我们也看到希望。预注册是承诺在实验前公开假设,防止抽屉成为隐藏偏差的工具。开放数据是承诺共享证据,允许独立检查。重复研究是承诺验证,即使验证是阴性的。
这些承诺是不完全的、 contested 的、演化的。但它们代表科学的自我理解的变化:从"个体天才的发现"到"集体努力的验证",从"显著性的追求"到"精确性的尊重",从"发表或灭亡"到"透明或无效"。
在抽屉的黑暗中,我们听见历史的回声:费舍尔的p值、奈曼的决策、斯塔佩尔的造假、巴奇的启动、BICEP2的撤回。这些声音提醒我们,知识是脆弱的、临时的、需要持续维护的。
当我们关闭抽屉——不是永远,而是为了重新打开,以更透明的方式——我们是在参与科学的永恒舞蹈:怀疑与相信、隐藏与揭示、错误与纠正。可重复性危机不是终点,而是新的起点,在这一点,我们承认我们的无知,承诺我们的诚实,继续我们的探索。
本章注释与延伸阅读
约安尼迪斯的原始论文《Why Most Published Research Findings Are False》(2005)发表在PLoS Medicine上,是元研究领域的奠基文献。关于p值的历史和误用,参见Stephen Stigler的《The History of Statistics》(1986)和Gerd Gigerenzer的《Statistical Rituals: The Replication Delusion and How We Got There》(2018)。关于HARKing和p-hacking,参见Simmons、Nelson和Simonsohn的《False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant》(2011)。关于心理学重复项目,参见Open Science Collaboration的《Estimating the Reproducibility of Psychological Science》(2015)。关于医学研究的发表偏倚,参见Ben Goldacre的《Bad Pharma: How Drug Companies Mislead Doctors and Harm Patients》(2012)。关于统计改革,参见American Statistical Association的《Statement on Statistical Significance and P-Values》(2016)和《The ASA's Statement on p-Values: Context, Process, and Purpose》(2016)。关于开放科学运动,参见Brian A. Nosek和合作者的《Promoting an Open Research Culture》(2015)和《The Preregistration Revolution》(2018)。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-3-16 01:55
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社