别人成仙得道,我是白骨成精分享 http://blog.sciencenet.cn/u/qiaoqiao1980 寻找新物理学

博文

科学史中的教训:第十七章 实验的伦理:从纽伦堡到斯坦福监狱

已有 405 次阅读 2026-3-15 14:48 |个人分类:我思故我在|系统分类:观点评述

第十七章 实验的伦理:从纽伦堡到斯坦福监狱    

    一、1946年的纽伦堡:审判的开端

    1946年12月9日,德国纽伦堡,国际军事法庭的医学审判开始。这是二战后12个后续审判中的第一个,专门针对纳粹医生和其他参与医学战争罪行的人员。23名被告被指控:在集中营进行人体实验,导致数千人死亡;参与"安乐死"计划,杀害精神病患者和残疾人;进行种族卫生研究,为灭绝政策提供科学支持。

    审判的证据令人震惊。在达豪集中营,西格蒙德·拉舍尔医生将囚犯浸入冰水中,测量体温下降和死亡时间,研究飞行员在北海坠毁后的生存极限。在奥斯维辛,约瑟夫·门格勒进行双胞胎研究,注射化学物质改变眼睛颜色,进行无麻醉手术,导致数百名儿童死亡。在萨克森豪森,卡尔·格布哈特测试磺胺类药物对感染伤口的效果,故意在囚犯身上制造伤口并接种细菌。

   这些实验的辩护者——包括一些被告自己——提出了熟悉的论点:科学需要数据,战争需要知识,这些囚犯反正会死,他们的死亡至少贡献了科学进步。拉舍尔在写给希姆莱的信中声称:"这些实验将拯救无数德国飞行员的生命,因此是完全正当的。"

   控方驳斥了这种"功利主义"辩护。首席检察官詹姆斯·麦克哈尼指出:"这些实验不是科学,而是伪科学。它们没有对照组,没有随机化,没有统计设计,甚至没有基本的医学记录。它们的目的不是知识,而是残忍本身,是权力对无助者的展示。"

    但更深层的问题是:即使这些实验是"科学的"——即使它们有严格的设计、有效的数据、可重复的结果——它们是否可以被伦理上接受?

    1947年8月19日,法庭宣判15名被告有罪,7人死刑,5人终身监禁,3人有期徒刑。同时,法官发布了《纽伦堡法典》——十项关于人体实验的伦理原则,包括:受试者的自愿同意是绝对必要的;实验必须产生对社会有益的结果;实验必须基于动物实验和先前知识;必须避免不必要的痛苦和伤害;研究者必须准备随时终止实验。

    这是现代研究伦理的奠基文献。但它在当时被忽视了——美国、英国、法国的科学共同体没有立即采纳它,认为它只适用于"纳粹的极端情况",不适用于"正常的科学"。这种忽视将持续二十年,直到新的丑闻迫使重新思考。

    二、塔斯基吉的谎言:美国医学的黑暗

    1932年,美国公共卫生署(PHS)在阿拉巴马州梅肯县启动了一项研究:追踪未经治疗的梅毒黑人男性的自然病程。研究涉及约600名男性——399名梅毒患者,201名对照——承诺提供"免费医疗",但实际上提供的是安慰剂:阿司匹林和矿物质补充剂。

    这些男性大多是贫困的佃农,文盲,对医学研究一无所知。他们被告知患有"坏血",需要治疗,但从未被告知真正的诊断。当青霉素在1940年代成为梅毒的标准治疗时,研究者故意阻止受试者获得它——为了保持研究的"完整性",为了继续观察疾病的长期效果。

    研究持续了四十年。1972年,记者让·海勒在《华盛顿星报》上曝光了这一丑闻。公众愤怒,国会调查,研究终止。到那时,128名受试者直接死于梅毒或其并发症,40人的妻子被感染,19名儿童出生时患有先天性梅毒。

    调查揭示了系统性的欺骗。PHS的科学家发表了数十篇论文,在学术会议上报告结果,获得职业晋升。他们与当地医生、州卫生部门、甚至美国陆军合作,阻止受试者迁移或参军(参军会自动获得青霉素治疗)。他们向受试者发送"纪念证书",感谢他们的"合作",同时隐瞒真相。

    塔斯基吉研究的辩护——在1972年的听证会上由一些研究者提出——是"科学价值":这些数据是独特的,显示了梅毒在非裔美国人中的自然病程,与白人不同。但这种辩护忽视了基本事实:这些"数据"是通过欺骗和伤害获得的,因此从伦理上就是腐败的。

    1974年,美国国会通过《国家研究法》,建立机构审查委员会(IRB)系统,要求所有 federally funded 的人体研究必须经过伦理审查。1997年,总统克林顿正式道歉,承认这是"美国医学史上可耻的一章"。但损害已经造成:非裔美国人对医学研究的信任严重受损,这种不信任持续至今,影响疫苗接种率、器官捐献率、临床试验参与率。

    三、米尔格拉姆的服从:电击的戏剧

    1961年,斯坦利·米尔格拉姆,耶鲁大学的心理学助理教授,设计了一项关于服从权威的实验。参与者被告知这是一项关于"惩罚对学习效果影响"的研究,他们将扮演"教师",向另一房间的"学习者"(实际上是演员)提问,每当学习者答错,就施加电击,电压从15伏逐步增加到450伏。

    电击发生器有30个开关,标注从"轻微电击"到"危险:严重电击",最后三个标注"XXX"。当电压超过120伏,学习者开始抗议,喊叫疼痛;超过300伏,他停止回应,可能是"失去意识"。如果"教师"犹豫或拒绝继续,实验者——穿着白大褂的权威人物——使用标准化的鼓励语:"请继续"、"实验要求你继续"、"你没有选择,必须继续"。

    实验结果是惊人的:65%的参与者施加了最高电压450伏,尽管他们中的许多人表现出极度痛苦——出汗、颤抖、神经质笑声、请求停止。米尔格拉姆在1963年的《变态与社会心理学杂志》上发表了结果,标题是《服从的行为研究》,引发轰动和争议。

    米尔格拉姆的解释是:普通人,在权威指令下,会做出残忍的行为。这不是"恶的少数人",而是"服从的多数人"。纳粹大屠杀不是德国人的特殊邪恶,而是人类普遍的心理机制的产物。这种解释与汉娜·阿伦特的"平庸之恶"概念共鸣,成为解释集体暴力的标准框架。

    但批评很快出现。实验的伦理受到质疑:参与者经历了严重的心理创伤,许多人事后报告噩梦、焦虑、自我怀疑。实验的欺骗——参与者被告知电击是真实的,学习者是真的受试者——被认为是不可接受的。实验的科学价值被质疑:人工的实验室情境能否推广到真实的历史情境?服从的测量是否有效?

    米尔格拉姆的辩护是:欺骗是必要的,否则实验无法进行;心理创伤是暂时的,事后访谈显示大多数参与者认为研究有价值;科学价值重大,揭示了服从的普遍性。但这些辩护在1970年代越来越难以维持。

    1974年的《国家研究法》和IRB系统的建立,部分是对米尔格拉姆实验的回应。心理学研究中的欺骗被严格限制,必须事后充分解释("去欺骗"),必须评估心理伤害风险。米尔格拉姆的实验在今天不可能获得IRB批准——不是因为科学设计,而是因为伦理标准。

    更深层的问题是:米尔格拉姆研究的是"服从",还是"服从实验情境"? 参与者可能不相信电击是真实的(尽管被告知),可能猜测这是关于服从的测试,可能表演"服从"以配合研究。实验的"成功"——高服从率——可能反映的是对科学实验的信任,而非对权威的盲目服从。

    这种解释的不确定性是伦理问题的核心。即使米尔格拉姆的结论是"正确的"——人类确实具有服从权威的倾向——实验方法本身是否伦理上可接受?欺骗、心理创伤、对信任的滥用,这些代价是否可以被知识价值所抵消?

    四、斯坦福的监狱:角色的腐蚀

    1971年8月,菲利普·津巴多,斯坦福大学心理学教授,在心理学系地下室建造了一个模拟监狱。他招募24名男性学生,随机分配为"囚犯"和"看守",计划进行两周的角色扮演实验,研究情境力量如何塑造行为。

    实验在第六天终止。看守表现出残忍和虐待:强迫囚犯做俯卧撑、剥夺睡眠、用灭火器喷射、性羞辱、心理折磨。囚犯表现出崩溃和服从:情绪失控、认知混乱、要求释放。一名囚犯(编号819)在听到其他囚犯喊"819号做了坏事"时崩溃,津巴多本人(扮演"监狱长")最初拒绝释放他,直到其女朋友(后来成为妻子)干预。

    津巴多的结论是情境主义的:不是"坏人"做坏事,而是"好人在坏情境中"做坏事。监狱的制度结构——权力不对等、匿名性、去人性化——腐蚀了普通学生的道德。这种解释被用于解释阿布格莱布监狱的虐囚事件、警察暴力、机构性虐待。

    但斯坦福监狱实验(SPE)的科学和伦理基础很快受到挑战。2018年,法国纪录片《斯坦福监狱实验:心理学偶像的谎言》和随后的学术调查揭示:看守被指示要"强硬",实验者鼓励特定行为;一些"自发"的残忍实际上是表演;囚犯"崩溃"可能是策略性的,为了提前退出;数据记录不完整,无法支持发表的结论。

    最致命的批评来自心理学家蒂姆·德斯和心理学家/科学作家罗曼·埃斯皮纳克:SPE的"发现"可能是实验者期望的产物,而非情境力量的自然结果。看守知道他们被期望表现权威,囚犯知道他们被期望表现服从,实验者(津巴多)深度介入,引导而非观察行为。

    津巴多在2018年后的回应是防御性的:承认实验有缺陷,但坚持核心结论的有效性。但科学共识转向:SPE不是"经典研究",而是"警示故事"——关于实验者偏见、关于伦理越界、关于科学炒作的危险。

    伦理问题比米尔格拉姆实验更严重。SPE涉及长期的心理操纵、身体危险(囚犯在模拟逮捕中实际受伤)、性羞辱、以及实验者自身的角色卷入(津巴多失去了"客观观察者"的地位)。IRB系统在今天绝不会批准这种设计。

    五、伦理的演化:从纽伦堡到贝尔蒙

    1974年的《国家研究法》建立了IRB系统,但只是美国研究的起点。1978年,国家保护生物医学和行为研究人类受试者委员会发布《贝尔蒙报告》,提出三项基本原则:

    尊重人:将人作为目的,而非仅仅手段;保护自主性,对无自主能力者提供额外保护。

    有利:最大化受益,最小化伤害;研究必须产生有价值的知识,风险与收益成比例。

    公正:公平分配研究的负担和收益;避免对脆弱群体的剥削。

    这些原则看起来是自明的,但应用是复杂的。"尊重人"要求知情同意,但什么程度的"知情"是可能的?参与者很少阅读完整的同意书,更很少理解研究的真正目的(特别是在有欺骗的情况下)。"有利"要求风险-收益分析,但谁的风险,谁的收益?塔斯基吉研究的"收益"是科学知识和未来患者的利益,风险完全由受试者承担。"公正"要求公平分配,但历史上研究负担集中在贫困者、少数族裔、囚犯,而收益流向富裕者、白人、自由人。

    1980-1990年代,研究伦理扩展到全球。艾滋病药物试验在非洲进行,引发"伦理帝国主义"的争论:西方标准的知情同意在文化语境中是否适用?安慰剂对照在有效药物存在时是否伦理?发展中国家的研究是否只是为发达国家提供数据,而参与者无法获得治疗?

    2000年代,基因研究带来新的问题:基因数据的敏感性、家族隐私、群体污名化。人类基因组计划建立了伦理、法律和社会影响(ELSI)研究项目,但具体问题——如基因歧视保险、基因增强的边界——仍未解决。

    2010年代,大数据和人工智能改变了研究图景:社交媒体数据、健康记录、行为追踪,这些"数据 exhaust"是否构成"人体研究"?同意是否可能?隐私如何保护?IRB系统,设计于1974年, struggles 适应这些新形式。

    六、重复实验的伦理:科学自我纠错

    研究伦理不仅关于保护受试者,也关于科学的诚信。2010年代的心理学危机——"可重复性危机"——揭示了系统性的问题:发表偏倚、HARKing(假设后结果报告)、p值操纵、数据造假。

    这些问题的伦理维度被低估。当研究者选择性地报告结果,他们欺骗的不仅是科学共同体,也是未来的患者、政策制定者、公众。当研究无法重复,基于它的临床决策可能是无效的或有害的。科学不端行为——从轻微的"美化"到彻底的伪造——是对信任的滥用,而这种信任是科学社会契约的基础。

    对米尔格拉姆和津巴多实验的重新评估,是这种自我纠错的一部分。2010年代,心理学家试图重复经典研究,发现许多效应比原始报告更小或不存在。这不仅是"科学进步",也是伦理清算:如果经典研究建立在有缺陷的方法上,它们对参与者的伤害(和心理学的声誉)是否被正当化?

    斯坦福监狱实验的争议在2018年达到高潮,但IRB系统在此之前已经进化。今天的伦理审查要求:预先注册研究假设和方法(防止HARKing)、完整数据共享(允许独立验证)、统计功效分析(防止小样本的虚假发现)、以及更严格的欺骗使用标准。

    但这种进化是不完全的。IRB系统主要关注程序伦理——同意书、风险披露、隐私保护——而非宏观伦理:研究问题的选择、资源的分配、知识的社会影响。塔斯基吉研究的宏观伦理问题是:为什么研究梅毒在非裔美国人中的病程,而非治疗它?为什么资源流向观察而非干预?这些问题不在IRB的范围内。

    七、教训:知识、权力与脆弱性

    从纽伦堡到斯坦福监狱,科学史的教训是多重而深刻的。

    第一,科学追求知识,但知识追求发生在权力关系中。 纳粹医生、PHS研究者、米尔格拉姆和津巴多,都利用了受试者的脆弱性:集中营囚犯的完全无权、贫困黑人的医疗依赖、学生的学分需求、参与者的信任。科学需要人类的合作,但这种合作在不对等中被扭曲。

    第二,"科学价值"不能自动正当化伤害。 纽伦堡被告、塔斯基吉研究者、米尔格拉姆的辩护,都诉诸知识的未来价值。但这种诉诸忽视了:知识的生产方式是知识的一部分,腐败的方式产生腐败的知识。塔斯基吉的"数据"不仅是通过欺骗获得,而且因缺乏治疗而科学上无价值(无法区分疾病自然病程与治疗延迟的效果)。

    第三,实验者的角色卷入是结构性的风险。 津巴多不仅是观察者,而是"监狱长";米尔格拉姆的实验者不仅是指导者,而是权威的化身。这种角色卷入破坏了客观性,鼓励了期望效应。科学需要距离,但距离本身是一种权力姿态——"我研究你,你不研究我"。

    第四,伦理标准是历史的、可变的、不完全的。 纽伦堡法典在1947年被忽视,在1974年被采纳;米尔格拉姆实验在1963年是"经典",在2018年是"警示";IRB系统从生物医学扩展到社会科学,从程序伦理扩展到数据伦理。这种演化不是线性的进步,而是丑闻驱动的、反应性的、滞后的。

    第五,信任一旦破坏,难以修复。 塔斯基吉研究摧毁了非裔美国人对医学研究的信任,这种不信任持续数十年,影响COVID-19疫苗接种率。科学的进步依赖于公众信任,但这种信任是脆弱的社会建构,需要持续的伦理承诺来维护。

    尾声:地下室的声音

    在斯坦福大学心理学系的地下室,1971年的模拟监狱早已拆除。但空间的记忆持续:墙壁上的涂鸦(囚犯编号、反抗口号)、门上的窥视孔、走廊的压抑感。津巴多在后来的访谈中承认,他仍然能听到那些声音——囚犯的崩溃、看守的笑声、他自己的权威指令。

    这种听觉幻觉是道德记忆的物理化。科学实验不仅是认知事件,也是身体事件、情感事件、伦理事件。参与者的创伤、实验者的困扰、共同体的反思,都是实验的不可分割部分。

    米尔格拉姆在1980年代的访谈中表达了类似的困扰。他承认,实验后他经历了抑郁,质疑自己的研究,质疑心理学本身。他的"服从研究"揭示了人性的黑暗,但也揭示了研究者自身的黑暗——对知识的渴望,对控制的享受,对后果的忽视。

    这些个人反思是罕见的。科学史通常关注结果、理论、影响,而非情感成本。但纽伦堡、塔斯基吉、米尔格拉姆、津巴多,都是情感密集的事件:恐惧、愤怒、羞耻、内疚。这些情感是伦理的载体,提醒我们科学不仅是认知追求,也是道德实践。

    当我们今天阅读知情同意书,勾选"我理解风险",我们是在参与这一历史。同意书是纽伦堡法典的后代,是塔斯基吉的教训,是IRB系统的产物。但它也是不完全的解决方案:它保护机构多于保护个人,它假设理性选择多于承认情感影响,它关注程序多于关注正义。

    在地下室的黑暗中,我们听见历史的回声:囚犯的编号、受试者的颤抖、法官的宣判、记者的曝光。这些声音提醒我们,科学的进步不是无辜的,知识的代价是真实的,伦理的责任是持续的。

    当我们走向未来的实验——基因编辑、人工智能、神经技术——我们需要携带这些声音。不是作为负担,而是作为警觉:对权力的警觉,对脆弱性的警觉,对知识追求中道德风险的警觉。

    本章注释与延伸阅读

    纽伦堡医学审判的记录见《Trials of War Criminals before the Nuremberg Military Tribunals under Control Council Law No. 10》(1949),特别是第一卷和第二卷。关于塔斯基吉研究的历史,参见 James H. Jones 的《Bad Blood: The Tuskegee Syphilis Experiment》(1981,1993修订版)和 Susan M. Reverby 编辑的《Tuskegee's Truths: Rethinking the Tuskegee Syphilis Study》(2000)。米尔格拉姆的原始研究见《Behavioral Study of Obedience》(1963),伦理批评见 Diana Baumrind 的《Some Thoughts on Ethics of Research: After Reading Milgram's "Behavioral Study of Obedience"》(1964)和后来的全面评估如 Gina Perry 的《Behind the Shock Machine: The Untold Story of the Notorious Milgram Psychology Experiments》(2013)。关于斯坦福监狱实验,参见 Philip Zimbardo 的《The Lucifer Effect: Understanding How Good People Turn Evil》(2007)和后来的批评如 Thibault Le Texier 的《Histoire d'un mensonge: Enquête sur l'expérience de Stanford》(2018)以及 Jesse Singal 的《The Stanford Prison Experiment Was Massively Influential. We Just Learned It Was a Fraud》(2018)。关于研究伦理的演化,参见 The National Commission for the Protection of Human Subjects of Biomedical and Behavioral Research 的《The Belmont Report: Ethical Principles and Guidelines for the Protection of Human Subjects of Research》(1978)和 Robert J. Levine 的《Ethics and Regulation of Clinical Research》(1986,2008修订版)。



https://blog.sciencenet.cn/blog-41701-1525839.html

上一篇:Kimi回答:卡达诺夫做出了伟大的发现,但是为什么没有获得诺贝尔物理学奖?
下一篇:科学史中的教训:第十八章 发表的暴政:p值操纵与可重复性危机
收藏 IP: 111.27.171.*| 热度|

8 雒运强 郑永军 刘进平 宁利中 杨正瓴 崔锦华 高宏 朱林

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-3-16 08:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部