||
第九章 DNA双螺旋
一、卡文迪许的竞赛
1951年秋天,一位23岁的美国青年来到剑桥大学卡文迪许实验室。他身材瘦高,金发碧眼,说话语速极快,思维跳跃。他没有化学背景,博士论文是关于噬菌体遗传学的,但他确信自己找到了生命奥秘的钥匙:DNA的结构。
詹姆斯·沃森(James Watson,1928-2024年)后来在《双螺旋》(1968年)中回忆了这段经历,以惊人的坦诚(也有人批评为自我中心和性别歧视)描述了科学发现的人性侧面:竞争、野心、误解、顿悟。
沃森在哥本哈根研究噬菌体时,参加了那不勒斯的一个会议,听到了莫里斯·威尔金斯(Maurice Wilkins,1916-2004年)关于DNA X射线衍射的演讲。威尔金斯展示了DNA纤维的清晰照片,暗示了某种规律的结构。沃森被迷住了:如果基因是DNA,那么DNA的结构就是生命的秘密。
在剑桥,沃森与弗朗西斯·克里克(Francis Crick,1916-2004年)共用一间办公室。克里克比沃森大12岁,是物理学博士,正在转行研究生物学。两人性格迥异:沃森急躁、直觉驱动;克里克严谨、数学能力强。但他们共享一个信念:DNA的结构可以用物理化学原理解释,不需要新的"生命力"。
当时,DNA结构的竞争者是莱纳斯·鲍林(Linus Pauling,1901-1994年),加州理工学院的化学巨人,已经确定了蛋白质的α螺旋结构。1952年,鲍林发表了一篇DNA结构的论文,提出了三螺旋模型,磷酸骨架在内,碱基向外。这个模型是错误的,但给沃森和克里克带来了紧迫感。
另一个关键人物是罗莎琳德·富兰克林(Rosalind Franklin,1920-1958年),伦敦国王学院的研究员。她用X射线衍射研究DNA,拍摄了著名的"照片51"(Photo 51),显示了清晰的X形图案——这是螺旋结构的特征。富兰克林还区分了DNA的两种形式:A型(干燥,结晶态)和B型(湿润,纤维态),B型更适合结构分析。
沃森和克里克与富兰克林的关系是科学史上的争议焦点。1953年1月,威尔金斯(富兰克林的上级,两人关系紧张)向沃森展示了照片51,没有富兰克林的许可。沃森后来承认,看到这张照片后,"我的嘴张开了,脉搏开始加速"——他立即意识到DNA是螺旋结构。
1953年2月,沃森和克里克构建了他们的第一个模型:磷酸骨架在外,碱基在内,双螺旋。但他们错误地让同种碱基配对(A-A,T-T),被富兰克林指出化学上不合理。他们暂时放弃,但继续思考。
关键的突破来自查加夫规则(Chargaff's rules)。埃尔文·查加夫(Erwin Chargaff,1905-2002年)在1950年发现,DNA中腺嘌呤(A)的量等于胸腺嘧啶(T),鸟嘌呤(G)的量等于胞嘧啶(C)。这暗示了碱基配对的某种规律,但查加夫本人没有意识到其结构意义。
1953年2月28日,沃森在纸上尝试不同的碱基配对。他突然想到:A与T配对,G与C配对,通过氢键连接。这种互补配对解释了查加夫规则,也解释了复制机制——双链解开,每条链作为模板合成新链。沃森冲到克里克的房间,两人立即开始构建模型。
这个模型是优美的:两条反向平行的核苷酸链,右手螺旋,磷酸-糖骨架在外,碱基对在内,直径20埃,螺距34埃,每圈10个碱基对。A-T配对(两个氢键)和G-C配对(三个氢键)的几何形状相似,保持了螺旋的均匀直径。
1953年4月25日,《自然》杂志发表了沃森和克里克的论文《核酸的分子结构》,只有一页,没有实验数据,但有一个革命性的结尾:"我们注意到,我们假设的特定配对立即提示了遗传物质的复制机制。"
同期还发表了富兰克林和雷蒙德·戈斯林(Raymond Gosling,照片51的实际拍摄者,富兰克林的学生)的论文,以及威尔金斯的论文,提供了X射线证据支持双螺旋模型。
二、结构的生物学意义
双螺旋结构的发现之所以革命性,不仅在于其物理形态,更在于其生物学功能的暗示。
复制的机制是直接的:双链解开,每条链作为模板,按照互补配对原则合成新链。这是半保留复制(semiconservative replication),每个子代DNA分子包含一条旧链和一条新链。马修·梅塞尔森(Matthew Meselson)和富兰克林·斯塔尔(Franklin Stahl)在1958年用氮-15标记实验证实了这一预测,被称为"生物学中最优美的实验"。
遗传信息的存储在碱基序列中。四种碱基(A、T、G、C)的序列可以编码几乎无限的信息。如果每个基因平均1000个碱基对,人类基因组30亿碱基对可以编码约300万个基因(实际估计最初过高,后来修正为约2万蛋白编码基因,但调控序列增加了复杂性)。
突变的机制也被解释:碱基的化学改变、复制错误、辐射或化学物质的损伤,都可以改变序列信息。这提供了遗传变异的物质基础,是自然选择的原材料。
基因表达的机制虽然当时未知,但双螺旋暗示了信息流动的方向:DNA → RNA → 蛋白质。克里克在1958年提出了中心法则,在1970年修正为更精确的形式:
plain
DNA ↔ RNA → 蛋白质
(最初认为信息不能从蛋白质流回核酸,后来发现逆转录病毒可以RNA→DNA,但蛋白质→核酸的反向流动仍未发现。)
中心法则确立了信息的等级:DNA是档案(稳定存储),RNA是信使(临时传递),蛋白质是机器(功能执行)。这种"DNA中心论"(genocentrism)统治了分子生物学半个世纪。
三、密码的破译与基因调控
双螺旋发现后,分子生物学的下一个重大挑战是遗传密码——DNA序列如何决定蛋白质序列?
如前所述,尼伦伯格和马太在1961年破解了第一个密码子(UUU = 苯丙氨酸),随后几年完整密码表被确定。但更重要的是基因调控的理解——基因不是始终表达,而是受精确控制的。
雅各布和莫诺(Jacob & Monod,1961年)的操纵子模型是里程碑。他们研究了大肠杆菌的乳糖操纵子(lac operon),发现:
结构基因(lacZ, lacY, lacA)编码代谢乳糖的酶;
操纵基因(operator)是调控蛋白结合位点;
启动子(promoter)是RNA聚合酶结合位点;
阻遏蛋白(repressor)结合操纵基因,阻止转录;
诱导物(乳糖或IPTG)结合阻遏蛋白,使其释放。
这是布尔逻辑的分子实现:IF 乳糖存在 AND 葡萄糖不存在 THEN 表达乳糖代谢基因。这种开关电路可以组合成更复杂的调控网络。
真核生物(有细胞核的生物,包括人类)的基因调控更为复杂。染色质结构(DNA缠绕组蛋白)影响基因可及性;增强子(enhancer)和沉默子(silencer)可以在远距离调控启动子;转录因子(transcription factors)组合形成调控代码;表观遗传修饰(DNA甲基化、组蛋白修饰)提供稳定的基因表达状态,而不改变DNA序列。
这些发现表明,基因不是简单的"指令",而是复杂的调控系统的节点。同样的基因组可以产生不同的细胞类型(神经元、肌肉细胞、肝细胞),取决于发育过程中的调控状态。这挑战了"DNA是蓝图"的简单隐喻,暗示了发育系统理论的必要性。
四、基因组时代
1990年,人类基因组计划(Human Genome Project, HGP)启动,目标是测定人类基因组的全部30亿碱基对序列。这是生物学史上最大的国际合作,涉及20多个国家的数百个实验室,耗资约30亿美元,原计划15年完成。
克雷格·文特尔(Craig Venter,1946-)的介入改变了进程。1998年,他创立的塞莱拉基因组公司(Celera Genomics)宣布使用"霰弹枪测序法"(whole-genome shotgun sequencing)——将基因组随机打碎成小片段,测序后用计算机组装——可以更快更便宜地完成人类基因组。这引发了公私竞争,最终双方同意同时发表结果。
2001年2月,《自然》(HGP)和《科学》(Celera)同时发表了人类基因组草图。2003年4月,在DNA双螺旋发现50周年之际,完整序列宣布完成(实际上仍有缺口,直到2022年才真正实现"端粒到端粒"的完整序列)。
人类基因组计划的意外发现:
基因数量远低于预期:最初预测10万个基因,实际约2万个蛋白编码基因,与果蝇相近。这挑战了"复杂性等于基因数量"的简单观念。
"垃圾DNA"占绝大多数:蛋白编码序列只占基因组的1.5%,其余曾被称为"垃圾"。后来发现,非编码DNA包含调控序列、非编码RNA基因、重复序列等,有重要功能。
重复序列丰富:约50%的人类基因组是转座子(跳跃基因)的残余,是进化历史的"化石"。
基因密度变化大:有些区域基因密集("基因城市"),有些区域基因沙漠。
这些发现促使了后基因组学的兴起:功能基因组学(研究基因功能)、结构基因组学(研究蛋白质结构)、比较基因组学(比较不同物种)、医学基因组学(研究与疾病相关的基因变异)。
五、表观遗传学的复兴
中心法则假设信息从核酸流向蛋白质,不反向流动。但20世纪末,表观遗传学(epigenetics)的兴起挑战了这一严格版本。
表观遗传指不改变DNA序列的基因表达改变,可以细胞分裂时遗传(有丝分裂遗传),有时甚至可以跨代遗传(减数分裂遗传)。
主要的表观遗传机制:
DNA甲基化:胞嘧啶的甲基化(通常发生在CpG岛)抑制基因表达。这是稳定的、可遗传的标记,在发育和癌症中起关键作用。
组蛋白修饰:组蛋白尾巴的乙酰化、甲基化、磷酸化等改变染色质结构,影响基因可及性。这些修饰形成"组蛋白密码",与DNA序列共同调控基因。
非编码RNA:microRNA、siRNA、lncRNA等不编码蛋白质,但调控基因表达。人类基因组约80%被转录,但大部分是非编码RNA,其功能仍在探索。
染色质重塑:ATP依赖的复合物移动核小体,改变DNA的可及性。
表观遗传学的哲学意义:
拉马克主义的回归? 某些表观遗传标记可以响应环境(如营养、压力、毒素),并在一定程度上遗传。这是否是获得性遗传的现代版本?谨慎的答案是:表观遗传是"软遗传",不涉及DNA序列改变,标记通常在几代后重置,与拉马克的"用进废退"机制不同。但跨代表观遗传的存在(如在荷兰饥荒研究中)提示,环境可以在多代时间尺度影响性状。
基因中心论的修正:表观遗传表明,遗传信息不仅存储在DNA序列中,也存储在染色质状态中。发育是"表观遗传重编程"的过程,从全能受精卵到分化细胞,再到可能的诱导多能干细胞(iPSC,山中伸弥,2006年)。
概率与决定论:表观遗传状态是双稳态的(on/off),转换受随机波动影响。这引入了发育的随机性,相同的基因型可以产生不同的表型(表观遗传噪声)。
六、合成生物学:扮演造物主
21世纪初,合成生物学(synthetic biology)兴起,目标是设计和构建新的生物部件、装置和系统,或重新设计现有的自然生物系统。
生物砖(BioBricks)的概念是标准化的尝试:将DNA序列(启动子、基因、终止子、调控元件)视为可组合的模块,像电子元件一样连接。国际基因工程机器竞赛(iGEM,2004年开始)让大学生团队用标准生物砖构建新功能,如细菌画、生物传感器、环境修复系统。
最小基因组研究试图确定生命所需的最少基因集。文特尔研究所在2010年创造了首个合成细胞(Mycoplasma mycoides JCVI-syn1.0):用化学合成的基因组替换天然基因组,细胞仍能生长和分裂。这不是"从无到有"创造生命(使用了现有的细胞质和膜),但证明了基因组是可操作的、可设计的。
CRISPR-Cas9基因编辑(2012年,杜德纳和夏庞蒂埃)革命化了合成生物学。这个源自细菌免疫系统的工具,可以精确切割DNA,实现基因的敲除、插入、替换。基因驱动(gene drive)技术可以迅速在种群中传播特定基因,用于控制疟疾蚊子或入侵物种,但也引发生态和伦理担忧。
合成生物学的哲学问题:
生命的定义:如果我们可以合成基因组、设计代谢途径、创造新的生物体,"生命"的边界在哪里? 文特尔的合成细胞是"活的"吗?病毒(需要宿主复制)是活的吗?计算机模拟的生命是"活的"吗?
设计的限度:生物系统是进化的产物,充满历史遗留的"拼凑"(tinkering)和" kludge "(权宜之计),而非最优设计。合成生物学试图理性设计,但常遇到不可预测性( emergent properties )和进化不稳定性(工程菌在实验室外可能失去设计功能)。
责任与风险:合成病原体、基因驱动的生态影响、"扮演上帝"的伦理——这些问题需要跨学科的治理。
七、从双螺旋到活性算法
回顾DNA双螺旋发现后的70年,可以识别几个范式转换:
从静态到动态:DNA从"蓝图"变为动态调控网络的节点,基因表达是过程而非状态。
从序列到结构:从关注DNA序列,到关注三维结构(染色质构象、DNA拓扑),结构影响功能。
从个体到群体:从研究单个基因,到研究基因组、微生物组、全息基因组(宿主+共生微生物)。
从自然到人工:从理解自然生命,到设计合成生命,生命成为可编程的。
从"活性算法"的视角,这些发展可以这样理解:
DNA作为先验: 基因组编码了进化学习的先验知识——对环境的统计规律、发育的约束、代谢的需求。这不是拉马克的"记忆",而是自然选择筛选的适应性信息。
表观遗传作为在线学习: 表观遗传状态是个体生命周期内的适应,响应环境信号,调整基因表达。这是无监督学习或强化学习的分子实现:系统根据反馈调整内部状态。
基因调控网络作为推断: 细胞通过信号转导和基因调控"推断"环境状态,并作出响应。这是贝叶斯推断的生化实现:先验(基因组)+ 似然(信号)→ 后验(响应)。
发育作为生成模型: 从基因组到表型的映射是生成过程(generative process),受噪声和随机性影响。相同的基因组可以产生不同的表型(表型可塑性),这是生成模型的多模态性。
进化作为元学习: 自然选择是在进化时间尺度上的学习,优化适应度景观。物种是"学习到的"解决方案,基因组是"参数",表型是"输出"。
八、未解的问题
尽管取得了巨大进展,DNA双螺旋开启的研究仍面临根本性问题:
基因型的表型问题(Genotype-Phenotype Problem):从基因组序列预测表型(结构、功能、行为、适应性)仍然是不可计算的复杂。基因相互作用(上位效应)、基因-环境互作、发育噪声、表观遗传状态,都使预测困难。
意识的物质基础: DNA编码蛋白质,蛋白质构建神经元,神经元产生意识——但这个因果链条的最后一步(物理过程如何产生主观体验)仍然是"硬问题"(Chalmers)。
生命的起源: 从无机物到第一个细胞的过渡,RNA世界假说(RNA既是信息载体又是催化剂)是主流,但具体路径未知。实验室可以合成核苷酸、氨基酸,但自复制的、进化的系统尚未从零创造。
衰老与死亡: 如果DNA修复机制存在,为何衰老不可避免?端粒缩短、DNA损伤累积、表观遗传噪声、进化权衡(衰老对种群有利?)都是部分答案,但可操作的干预(延长健康寿命)仍在探索。
人工生命: 当计算机模拟的生命(如汤姆·雷的Tierra,克里斯·兰顿的人工生命)展现出进化、适应、涌现,它们与"湿件"生命的区别在哪里?这是定义的问题,也是伦理的问题。
九、双螺旋的遗产
沃森、克里克和威尔金斯获得了1962年诺贝尔生理学或医学奖(富兰克林已于1958年因卵巢癌去世,诺贝尔奖不追授)。他们的发现开启了分子生物学时代,其影响远超科学:
医学:基因诊断、基因治疗、个性化医疗、癌症靶向治疗;
农业:转基因作物、基因编辑家畜;
法医学:DNA指纹、亲子鉴定、犯罪现场分析;
人类学:走出非洲理论、尼安德特人基因组、人类迁徙历史;
哲学:基因决定论的争论、自由意志与神经科学、生命的定义。
但双螺旋的遗产也是有争议的:
基因中心论的过度简化导致了遗传决定论的偏见:智力、性格、疾病倾向被归因于"基因",忽视了环境和发展的重要性。人类基因组计划的"基因数量惊喜"(只有2万基因)部分纠正了这种偏见。
商业化和专利化的基因(如BRCA1乳腺癌基因专利,后被最高法院否决)引发了获取正义的问题:谁拥有基因信息?
优生学的新形式:基因筛查、胚胎选择、"设计婴儿"的伦理边界在哪里?
这些问题没有简单的答案,但它们提醒我们:科学发现总是嵌入在社会语境中,其意义和影响超出实验室。
十、结语:从密码到过程
1953年的双螺旋是信息论生命观的物理实现:生命是编码的信息,DNA是存储介质,中心法则是信息流动规则。这种视角取得了巨大成功,但也遇到了还原论的局限。
21世纪的生物学正在转向过程、动态、系统的理解:DNA不是蓝图,而是资源;基因不是指令,而是调控网络的节点;生命不是状态,而是自维持的活动。
这与"活性算法"的视角共鸣:生命是推断的过程,在预测与惊讶的边缘保持平衡;基因组是先验,表观遗传是在线学习,进化是元学习;生命的本质是信息的主动处理,而非被动的存储。
从卡文迪许实验室的竞赛,到人类基因组计划的完成,再到合成生物学的未来,DNA双螺旋的故事仍在继续。它告诉我们:生命的奥秘可以被理解,但这种理解是历史的、渐进的、开放的——正如生命本身。
下一章,我们将进入20世纪后半叶的复杂性觉醒——当还原论遇到整体论,当信息论遇到系统论,生命被重新理解为涌现的、自组织的、历史的过程。但请记住这一章的教训:每一个发现都是问题的开始,每一个答案都召唤着更深的追问。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-4-15 06:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社