||
第七章 统计的幻觉:高尔顿的优生学与皮尔逊的执念
一、1869年的伦敦:遗传的天才
1869年,弗朗西斯·高尔顿,四十七岁的英国绅士、探险家、气象学家、摄影师,出版了《遗传的天才》。这本书的副标题是"对其法则和后果的探究",核心论点是:人类的智力、道德品质、甚至艺术才能,像身高和肤色一样遗传。
高尔顿的证据是谱系研究。他调查了法官、政治家、科学家、诗人、音乐家的家族历史,发现杰出人物往往出自杰出家族。例如,他计算了"英国法官"的儿子成为法官的概率,与普通人口相比,得出约400倍的"优势"。他承认环境的作用——法官的儿子有教育机会、社会网络——但他坚持认为,即使在控制环境后,遗传效应仍然显著。
《遗传的天才》是优生学运动的奠基文献。高尔顿创造了"优生学"(eugenics)一词,源自希腊语"好的出身"。他主张:社会应该鼓励"优秀"人群多生育,限制"劣等"人群生育,以提高整体人口质量。这不是强迫,而是"自愿的"——通过教育、激励、社会压力。
高尔顿的动机是复杂的。他有维多利亚时代的进步信念:科学可以改善人类状况。他也有个人焦虑:他自己没有子女,他的家族(包括著名的银行家和科学家)的遗传遗产如何延续?他还有种族和阶级的偏见,认为英国上层阶级的遗传素质高于下层阶级和"野蛮种族"。
但高尔顿的方法论创新是持久的。他发展了相关性的概念——两个变量共同变化的程度。他设计了"高尔顿板"——一个垂直板,上面钉有交错排列的钉子,小球从顶部落下,每次碰到钉子随机向左或向右,最终形成底部的钟形分布。这演示了正态分布如何从随机过程中产生。
正态分布,或"钟形曲线",成为高尔顿统计学的核心。他相信,人类的任何可测量特征——身高、智力、甚至"道德热情"——都服从正态分布,大多数人的值集中在平均附近,极端值稀少。这种分布是"自然的",是"健康的",是社会应该追求的理想。
二、孟德尔的豌豆:被遗忘的定律
1866年,格雷戈尔·孟德尔,奥地利布隆(今捷克布尔诺)的修道院院长,在《布隆自然研究者协会会刊》上发表了《植物杂交实验》。这篇论文报告了豌豆杂交的八年实验,提出了遗传的"分离定律"和"自由组合定律"——后世称为"孟德尔定律"。
孟德尔的方法与高尔顿截然不同。高尔顿研究人类谱系,依赖观察和相关性;孟德尔研究豌豆植株,进行控制杂交,计数后代性状的比例。他发现:杂交一代全部表现显性性状,二代出现3:1的显隐性分离比,不同性状的遗传是独立的。
这些结果是定量的、精确的、可重复的。孟德尔用数学语言描述遗传:"如果A代表显性性状,a代表隐性性状,则Aa × Aa杂交产生1AA:2Aa:1aa的基因型比例,表现型为3显性:1隐性。"
但孟德尔的论文在1866-1900年间被引用约三次,几乎被完全遗忘。高尔顿不知道它,达尔文的《物种起源》(1859)没有引用它,欧洲主要生物学家的文献中不见其踪影。这不是阴谋或压制,而是认知的不可见性:孟德尔的数学语言对生物学家太陌生,他的豌豆实验对植物学家太专门,他的修道院身份对科学共同体太边缘。
1900年,三位植物学家——荷兰的雨果·德弗里斯、德国的卡尔·科伦斯、奥地利的埃里克·冯·切尔马克——独立"重新发现"孟德尔定律。他们在进行各自的杂交实验时,发现了3:1的分离比,搜索文献时找到孟德尔的论文。他们承认孟德尔的优先权,但强调自己的独立发现。
这个"同时发现"是科学社会学的经典案例。孟德尔定律在1900年被"发现",不是因为新数据,而是因为新的问题语境:细胞学的发展(染色体的观察)、变异研究的兴起(德弗里斯的突变论)、农业育种的需求。这些语境使孟德尔的数学语言变得可理解、相关、重要。
高尔顿在1900年仍然活着,但他对孟德尔定律的反应是复杂的。他欢迎遗传的数学化,但孟德尔的"离散"遗传(性状要么存在要么不存在)与他的"连续"变异观念冲突。高尔顿相信智力、身高、甚至道德是连续分布的,服从正态分布;孟德尔的定律暗示离散单位的遗传,如豌豆的颜色或种皮形状。
这种冲突在1900-1930年间主导了遗传学的发展。生物统计学家(高尔顿的继承者)与孟德尔主义者争论:遗传是连续的还是离散的?最终,罗纳德·费舍尔在1918年证明,多个孟德尔基因的加性效应可以产生连续的正态分布——孟德尔主义与生物统计学的综合。但高尔顿没有活到看到这个综合。
三、皮尔逊的执念:统计作为宗教
卡尔·皮尔逊,1857年出生于伦敦,是高尔顿的学术继承者,也是优生学运动的激进推广者。他在剑桥大学学习数学,在德国学习物理,但转向生物学和统计学,成为伦敦大学学院"高尔顿优生学讲席"的第一任教授(1911年)。
皮尔逊的贡献是数学的严格化。他发展了卡方检验(检验观察值与理论分布的拟合优度)、标准差和相关系数的系统计算、回归分析的推广。他的《科学的语法》(1892)主张:科学知识必须是定量的、统计的、可概率化的。
但这种方法论伴随着意识形态的负荷。皮尔逊相信,统计可以揭示"种族的"差异——英国人与犹太人的智力差异,"雅利安"与"非雅利安"的道德差异。他用复杂的数学包装这些信念,使其看起来是"科学的"、客观的、不可辩驳的。
皮尔逊的优生学是国家主义的。他主张积极的国家干预:隔离"劣等"人群,限制其生育,鼓励"优等"人群繁衍。他与高尔顿的"自愿"优生学不同,更接近后来的强制优生学政策。他在1900-1930年代撰写大量论文,用统计数据支持种族主义和社会达尔文主义。
这些工作在二战后被广泛谴责,但皮尔逊的统计方法本身被保留和发扬。卡方检验、相关系数、回归分析成为现代统计学的标准工具,在医学、经济学、心理学、社会科学中无处不在。皮尔逊的方法与意识形态的分离是复杂的:他的数学是"中性的",但他的应用是"负载的",这种分离本身成为问题。
四、孟德尔数据的"过于完美":费舍尔的辩护与怀疑
1936年,罗纳德·费舍尔,英国统计学家和遗传学家,发表了《孟德尔的工作是否被期待地太好了?》。这篇论文分析孟德尔的实验数据,发现其统计拟合"过于完美"——观察值与理论预期的偏差小于随机波动应有的程度。
费舍尔的计算是技术性的。孟德尔报告的分离比,如3:1或9:3:3:1,与理论值过于接近。在真实实验中,即使孟德尔定律正确,抽样波动也应该产生更大的偏差。费舍尔估计,孟德尔的数据如此完美的概率约为1/10000。
这篇论文引发了持续至今的争论。费舍尔本人是孟德尔主义的坚定支持者,他的意图不是诋毁孟德尔,而是指出"某种解释是必要的"。他提出了几种可能性:
孟德尔无意识的选择性报告:当数据接近预期时停止实验
助手(或孟德尔本人)的"帮助":调整计数以符合预期
孟德尔报告的是平均结果而非单次实验,减少了抽样误差
纯粹的运气:小概率事件确实发生
费舍尔倾向于前几种解释,暗示某种程度的"数据修饰"。但后来的分析(如1980年代的计算机模拟)表明,孟德尔的实验设计(如使用大量植株、重复实验、排除"可疑"样本)可以合法地产生比简单随机抽样更稳定的结果。"过于完美"可能是方法论严谨的产物,而非欺诈。
这个案例揭示了统计显著性的悖论。费舍尔用统计方法检测孟德尔数据的异常,但统计方法本身依赖于假设(独立性、随机性、正态性)。当数据"太好"时,我们怀疑欺诈;但当数据"符合预期"时,我们庆祝发现。这种不对称是确认偏误的统计版本:我们期待随机性,因此非随机性是可疑的。
孟德尔的案例更复杂,因为他的理论后来被证明是正确的。如果他的数据确实被"修饰",这种修饰是朝向真理的,而非远离真理。这与后来的科学造假(如舍恩的纳米数据、小保方晴子的STAP细胞)不同,后者的修饰是朝向错误的。统计方法无法区分这两种"修饰",因为它只检测与随机性的偏离,不检测与真理的关系。
五、正态分布的暴政:钟形曲线的意识形态
高尔顿和皮尔逊对正态分布的信仰,不仅是方法论选择,也是意识形态承诺。正态分布是"自然的"、"健康的"、"理想的"——这种语言负载了价值判断。
在19世纪的社会语境中,正态分布支持了中庸的意识形态:大多数人应该集中在"平均"附近,极端是异常的、危险的、需要纠正的。优生学旨在"压缩"分布的方差,减少"劣等"的左尾,提高整体的平均。
但这种意识形态忽视了分布本身可能是社会构造的。智力的正态分布依赖于测试的设计:如果测试项目选择得当,可以产生任何形状的分布。 IQ 测试的历史显示,测试被反复调整以产生正态分布,然后这种分布被宣称为"自然的"。
更深层的问题是将统计模型等同于现实。正态分布是一个数学抽象——无限样本、连续变量、独立误差——而现实是有限、离散、相关的。当科学家将模型等同于现实,他们物化了抽象,将统计构造当作自然实体。
这种物化在20世纪的社会科学中泛滥。经济学假设市场回报服从正态分布(或其对数正态变体),忽视了"肥尾"和极端事件;心理学假设人格特质正态分布,忽视了类型的存在;医学假设生物标志物正态分布,定义"异常"为偏离平均两个标准差,忽视了多模态分布的可能性。
纳西姆·塔勒布在《黑天鹅》(2007)中批判这种"正态分布的暴政":我们使用钟形曲线因为它方便、熟悉、数学上可处理,而非因为它描述现实。极端事件——金融危机、疫情、战争——在正态分布中是"百万年一遇",在现实中是每十年一遇。我们的模型系统性地低估不确定性,因为我们选择了错误的分布。
六、相关性与因果性:高尔顿的遗产与混淆
高尔顿发明了"相关性"(correlation)一词,但他也混淆了相关性与因果性。在《遗传的天才》中,他观察到杰出父亲有杰出儿子,推断遗传是原因。但他没有控制环境:法官的儿子成为法官,可能是因为教育机会、社会网络、阶级继承,而非基因。
这种混淆在20世纪的社会科学中持续。皮尔逊的相关系数成为"科学客观性"的象征,但它的解释是开放的:X与Y相关,可能是因为X导致Y,Y导致X,Z导致两者,或纯粹的偶然。统计方法本身不能区分这些因果结构。
1920-1930年代,遗传学家发展了"遗传力"(heritability)概念——性状变异中可归因于遗传的比例。但这个概念被广泛误解:高遗传力不意味着性状不可改变,不意味着遗传决定论,不意味着群体差异的遗传基础。遗传力是特定群体在特定环境中的统计量,不是生物常数。
高尔顿和皮尔逊的优生学政策,部分基于这种误解。他们观察到社会阶层的智力差异(通过测试测量),计算高遗传力,推断差异是遗传的、不可改变的、需要优生学干预的。但他们忽视了环境的作用:贫困、营养不良、教育缺乏对智力发展的影响。
现代行为遗传学(如双胞胎研究)试图分离遗传与环境,但方法仍有争议。同卵双胞胎的相似性可能源于共享基因,也可能源于共享环境(子宫环境、家庭环境、社会对待"相似外貌"的方式)。统计方法无法完全分离这些效应,因此遗传力的估计是不确定的、语境依赖的。
七、孟德尔的救赎:从被遗忘到被神化
1900年后,孟德尔经历了从被遗忘到被神化的转变。他成为"遗传学之父",他的修道院花园成为科学圣地,他的定律成为生物学的基础。
但这种神化是选择性的。孟德尔的原始论文包含复杂性和模糊性:他讨论了"显性"和"隐性",但没有使用现代"基因"概念;他观察到某些性状的连锁,但没有发展出染色体理论;他的数学是描述的,而非公理化的。
后来的遗传学家重构了孟德尔,使其符合现代遗传学的叙事。孟德尔被呈现为"孤独的先驱",对抗当时的生物学正统。但历史研究表明,孟德尔不是完全孤立的:他阅读了当时的杂交文献,与纳格尔等植物学家通信,他的工作符合当时的某些研究传统。
更重要的是,孟德尔的"重新发现"是社会建构的。德弗里斯、科伦斯、切尔马克在1900年的论文中,强调孟德尔的优先权,但也强调自己的独立性。这种强调是策略性的:承认孟德尔使他们的工作看起来是"正统的"而非"革命的",强调独立使他们保留原创性主张。
孟德尔定律在1900-1930年代的"胜利",也不是纯粹的经验确认。它与细胞学的发展(染色体的观察)、摩尔根的果蝇实验(基因的定位)、费舍尔的数学综合(群体遗传学)相互强化。这是一个网络效应:孟德尔主义使染色体理论可理解,染色体理论使基因定位可能,基因定位使孟德尔定律可验证。
这种网络效应揭示了科学事实的社会性。孟德尔定律在1900年成为"事实",不是因为新数据(数据在1866年就存在),而是因为新的问题、新的方法、新的社会联盟。高尔顿和皮尔逊的生物统计学,最初是孟德尔主义的竞争对手,最终被综合进现代遗传学。
八、统计的伦理:从优生学到基因组学
高尔顿和皮尔逊的优生学,在二战后被广泛谴责。纳粹的"种族卫生"政策、美国的强制绝育法律(影响约6万人)、斯堪的纳维亚的类似政策,都声称科学基础,都与高尔顿-皮尔逊传统相关。
但优生学的某些形式持续。1960-1970年代的"遗传咨询",建议携带遗传病基因的夫妇避免生育;1990年代后的"生殖选择",通过胚胎筛选避免遗传病。这些实践与高尔顿的"自愿"优生学相似,但去除了种族和阶级的语言,强调个人选择和医学必要性。
基因组学时代(2000年后)带来了新的复杂性。全基因组关联研究(GWAS)识别了与疾病相关的基因变异,多基因风险评分(PRS)预测个体的疾病易感性。这些技术是统计的、概率的、基于大样本的相关性——高尔顿-皮尔逊方法的直接继承。
但新的伦理问题出现:PRS的预测能力有限(大多数性状的遗传力解释方差<20%),但可能被误用为遗传决定论;基因数据与种族、阶级的关联,可能强化新的歧视形式;"增强"(选择"更好"的基因,而非仅仅避免疾病)的边界模糊。
统计学的意识形态负载在基因组学中持续。当我们说"智力是80%遗传的",我们使用遗传力的语言,但这种语言暗示固定性、不可改变性、政策含义。当我们说"身高是90%遗传的",我们忽视了全球身高增长( Flynn 效应的物理版本)显示环境的重要作用。
高尔顿的幽灵仍在徘徊。他的相关性、他的正态分布、他的优生学愿景,以变形的方式继续。我们需要批判的统计素养:理解方法的能力,也理解方法的假设、局限和意识形态负载。
九、教训:数字的暴政与解释的开放
高尔顿、皮尔逊、孟德尔、费舍尔的故事提供了关于统计认知的多重教训。
第一,统计方法携带发明者的意识形态。 高尔顿的相关性是为优生学服务的,皮尔逊的卡方检验是为种族主义包装的,费舍尔的遗传力是为农业育种设计的。这些方法在"中性化"后成为标准工具,但它们的起源负载了特定的价值。使用这些方法时,我们需要历史意识,理解它们的原始语境和潜在偏见。
第二,"过于完美"可以是严谨,也可以是欺诈。 孟德尔的数据拟合优度引发了百年争论,没有最终结论。统计方法检测偏离,但不能区分偏离的原因。我们需要方法论多元主义:结合统计检验、历史语境、实验重复、独立验证,而非依赖单一指标。
第三,分布的选择是政治性的。 正态分布的暴政不仅是技术问题,也是权力问题。钟形曲线支持中庸、压缩方差、忽视极端的意识形态。在不确定性时代,我们需要肥尾分布的直觉,准备应对"百万年一遇"的频繁发生。
第四,相关不等于因果,但因果需要相关。 高尔顿的相关性不能证明遗传,但也不能被忽视。现代因果推断(如Judea Pearl的因果图)试图形式化从相关到因果的路径,但这些方法仍然依赖假设,假设本身是可争议的。
最后,科学事实是社会建构的,但不是任意的。 孟德尔定律在1900年成为事实,是社会过程(重新发现、网络效应、综合),但也是经验约束(豌豆实验的可重复性、染色体观察的符合)。这种建构实在论——事实既被建构,也被约束——是高尔顿-皮尔逊遗产的最深刻教训。
尾声:钟形曲线的幽灵
在任何一个现代实验室,研究者可能使用皮尔逊的卡方检验,绘制高尔顿的正态分布,计算费舍尔的遗传力,引用孟德尔的定律。这些方法是无意识的遗产,被教授、被使用、被信任,很少被质疑。
但高尔顿的幽灵在这些方法中。他的优生学愿景、他的种族主义假设、他对"优秀"和"劣等"的区分,以编码的形式持续。当我们使用"遗传力"时,我们使用他的语言;当我们绘制钟形曲线时,我们复制他的意识形态。
这不是呼吁放弃统计方法。统计学是现代科学的必要工具,高尔顿和皮尔逊的贡献是真实的、持久的。但这是呼吁批判的使用:理解方法的来源,质疑方法的假设,警惕方法的滥用。
孟德尔的案例提供了希望。他被遗忘三十年,最终被认可,但他的认可不是终点。他的定律被综合、被修正、被扩展,成为现代遗传学的基础,但也成为批判的对象(如表观遗传学对"基因决定论"的挑战)。科学通过持续的质疑进步,通过对遗产的批判性继承。
当我们凝视钟形曲线,我们是在凝视高尔顿的眼睛——进步的、乐观的、盲视的眼睛。他相信统计可以揭示自然的秩序,改善人类的状况。他部分正确,部分错误,他的错误与他的正确不可分割。
这种不可分割是科学的本质。我们不是在高尔顿之外,而是在高尔顿之中。我们的任务是在他的遗产中工作,同时超越他的局限——承认统计的力量,也承认统计的幻觉;追求数字的精确,也保持对解释的开放。
在钟形曲线的中心,我们看见平均的暴政;在曲线的尾部,我们看见被忽视的极端。高尔顿的幽灵要求我们选择看见什么,而我们的选择定义了我们是谁。
本章注释与延伸阅读
高尔顿的《Hereditary Genius》(1869)和《Natural Inheritance》(1889)是优生学和生物统计学的奠基文献。孟德尔的原始论文《Versuche über Pflanzen-Hybriden》(1866)的英译和评论见 Curt Stern 和 Eva Sherwood 编辑的《The Origin of Genetics: A Mendel Source Book》(1966)。关于孟德尔被遗忘和重新发现的历史,参见 Robert C. Olby 的《Origins of Mendelism》(1966)和 Jan Sapp 的《Where the Truth Lies: The Mendelian Revolution》(1990)。关于费舍尔对孟德尔数据的分析,参见 Ronald A. Fisher 的《Has Mendel's Work Been Rediscovered?》(1936)和近期统计重新评估如 Daniel J. Fairbanks 和 Bryce Rytting 的《Mendelian Controversies: A Botanical and Statistical Review》(2001)。关于正态分布的意识形态,参见 Theodore M. Porter 的《The Rise of Statistical Thinking, 1820-1900》(1986)和 Stephen Jay Gould 的《The Mismeasure of Man》(1981,1996修订版)。关于塔勒布对肥尾分布的批判,参见《The Black Swan: The Impact of the Highly Improbable》(2007)和《Statistical Consequences of Fat Tails》(2020)。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-3-11 22:43
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社