别人成仙得道,我是白骨成精分享 http://blog.sciencenet.cn/u/qiaoqiao1980 寻找新物理学

博文

进化的奥秘:(6)遗传密码——压缩历史的生成模型

已有 183 次阅读 2026-2-21 11:23 |个人分类:我思故我在|系统分类:观点评述

第六章:遗传密码——压缩历史的生成模型一、密码的谜题

    1953年,沃森和克里克发现DNA双螺旋结构,揭示了遗传的物理基础。但另一个谜题更加古老:遗传密码本身。

    DNA由四种核苷酸组成(A、T、G、C),每三个核苷酸组成一个密码子,对应一种氨基酸。共有64种密码子,但只对应20种标准氨基酸(加上起始和终止信号)。这意味着密码是简并的——多个密码子可以编码同一种氨基酸。

    例如,亮氨酸由六个密码子编码(UUA、UUG、CUU、CUC、CUA、CUG),而色氨酸只有一个(UGG)。这种简并不是均匀的,也不是随机的。它遵循特定的模式:通常,密码子的第三个位置("摆动位")变化不改变氨基酸,前两个位置更保守。

    为什么是这样?为什么不是一对一的映射?为什么不是更高效的编码(比如两个核苷酸对应一个氨基酸,可以有16种组合,接近20)?为什么不是更冗余的编码(比如四个核苷酸,256种组合)?

    传统的答案是"历史偶然"——生命起源时的随机选择,一旦确立就冻结了。但活性算法提供了不同的视角:遗传密码是算法最优的,它最小化翻译错误,最大化进化能力,是自由能最小化在分子层面的体现。

    本章将揭示,遗传密码不仅是一个"代码",它是一个生成模型——压缩了数十亿年的进化历史,预测了未来的变异,指导了蛋白质的折叠。

二、从RNA到蛋白质:翻译作为推断

    现代细胞中,遗传信息流动遵循中心法则:DNA → RNA → 蛋白质。DNA存储,RNA传递,蛋白质执行。

    但这不是简单的复制。从核酸语言(核苷酸序列)到蛋白质语言(氨基酸序列)的转换,需要翻译——一个复杂的、多步骤的推断过程。

    翻译涉及:

  • tRNA:适配器分子,一端识别密码子(通过反密码子),另一端携带特定氨基酸

  • 核糖体:分子机器,读取mRNA,招募tRNA,催化肽键形成

  • 氨酰-tRNA合成酶:将氨基酸连接到正确的tRNA上,这是"编码"的关键步骤

    从活性算法角度,翻译是变分推断

  • 生成模型:DNA序列是"先验"U(s)——它编码了"蛋白质应该是什么序列"的预期

  • 似然:翻译 machinery 是V(o|s)——给定DNA序列,实际合成蛋白质的概率分布

  • 观测:实际合成的蛋白质是o——它可能不完全符合预期(翻译错误)

  • 自由能:翻译的保真度——错误率越低,自由能越小

    但这里有一个微妙之处:翻译不是一一对应的。同一个DNA序列,在不同条件下(不同tRNA浓度、不同核糖体速度、不同折叠辅助因子),可能产生不同的蛋白质异构体。这是生成采样的变异性——不是错误,而是功能。

    更重要的是,遗传密码本身是可学习的。在某些生物中,密码有变异(比如某些线粒体中,UGA编码色氨酸而非终止)。这意味着密码不是固定的物理定律,而是进化的参数——可以被选择优化。

三、密码的最优性:错误最小化

    1968年,莱纳斯·鲍林提出一个观察:遗传密码的结构使得突变和翻译错误的影响最小化

    具体来说,如果密码子因突变或误读而改变, resulting 的氨基酸通常具有相似的化学性质(大小、电荷、疏水性)。这意味着错误通常是"保守的"——蛋白质功能变化不大,细胞可以继续生存。

    例如,所有编码疏水氨基酸的密码子(亮氨酸、异亮氨酸、缬氨酸、苯丙氨酸、甲硫氨酸)都以U开头。如果第一个位置从U突变为C,结果通常是另一种疏水氨基酸,而非电荷相反的氨基酸。

    这种结构是偶然的吗?

    1991年,斯蒂芬·弗里兰和劳伦斯·赫斯特进行了系统分析。他们比较了实际遗传密码与数百万种随机生成的替代密码。结果是惊人的:实际密码在错误最小化方面优于几乎所有随机密码,处于最优的0.1%之内。

    这不是完美的最优——还存在更好的理论密码——但它强烈表明,密码经历了选择优化。它最小化了某种"成本函数"——翻译错误的预期影响。

    从自由能原理角度,这个成本函数就是变分自由能。密码的进化最小化了"惊讶"——突变导致的蛋白质功能丧失。最优密码是让错误最"不惊讶"的密码,即错误导致最小功能变化的密码。

四、简并性的算法功能

    遗传密码的简并性(64个密码子对应20种氨基酸)不是浪费,而是功能性的设计

    功能一:容错性

    简并性创造了"中性网络"——在序列空间中,大量序列编码相同的蛋白质。这意味着许多突变是"沉默的",不改变表型。这些中性突变允许种群探索序列空间,而不受选择压力的惩罚。当环境变化时,这种探索可能发现有利变异。

    这是鲁棒性与可进化性的权衡。简并性增加了鲁棒性(对错误的容忍),同时也增加了可进化性(探索的可能性)。两者都是自由能最小化的方面:鲁棒性减少当前惊讶,可进化性减少未来惊讶。

    功能二:翻译调控

    简并性允许"密码子使用偏倚"——不同生物、不同组织、不同条件下,对同义密码子的使用频率不同。这与tRNA的丰度相关:丰富的tRNA对应"优化"密码子,翻译更快更准确;稀缺的tRNA对应"稀有"密码子,翻译更慢,可能用于调控。

    这是推断的速度-准确性权衡。快速翻译(丰富tRNA)减少等待时间,但可能增加错误;慢速翻译(稀有密码子)增加准确性,但降低效率。细胞根据蛋白质的需求(结构蛋白需要准确,调控蛋白需要快速)优化密码子使用。

    功能三:空间编码

    最近的研究表明,密码子的使用影响蛋白质的共翻译折叠。mRNA的密码子序列不仅编码氨基酸序列,还编码翻译速度的模式——快-慢-快的节奏影响新生肽链的折叠路径。这意味着密码子序列是四维的(三维结构+时间),编码了折叠的动态。

    这是生成模型的深化。DNA序列不仅预测蛋白质的最终结构,还预测它的折叠过程——一个动力学路径。这类似于视频编码不仅存储最终帧,还存储运动向量。

五、密码作为压缩的历史

    遗传密码不是最优的抽象编码,而是压缩的进化历史

    想象密码的起源。在RNA世界中,RNA分子既存储信息又催化反应。随着蛋白质的出现(作为更高效的催化剂),需要一种方式将RNA信息转换为蛋白质序列。

    最初的"密码"可能是简单的、非简并的、容易出错的。但随着系统的进化,选择压力优化了密码的结构。那些使错误影响最小的密码子分配,那些支持有效翻译的简并模式,那些允许调控的偏倚使用——这些被保留和强化。

    这个过程是自由能最小化的历史累积。每一代,密码微调以减少翻译的惊讶;每个微调,压缩了当时的最优解。数十亿年后,我们看到的密码是深度学习的产物——多层优化的结果,每层对应不同的进化压力。

    这与现代机器学习中的自动编码器相似。自动编码器学习压缩输入数据,保留最显著的特征。遗传密码是进化的自动编码器:它压缩了"功能蛋白质的空间",保留了对生命最关键的信息。

    但有一个关键差异:遗传密码是自指的。它不仅编码蛋白质,还编码自身的翻译 machinery(核糖体蛋白、氨酰-tRNA合成酶)。这意味着密码的进化受自身产物的约束——一个自指的循环,类似于意识的高阶推断。

六、从密码到基因组:尺度的跃迁

    遗传密码是分子层面的优化,但基因组是更大尺度的生成模型

    现代基因组包含数十亿碱基对,编码数万个基因。但这只是开始。基因组还包含:

  • 调控序列:启动子、增强子、沉默子,控制基因何时何地表达

  • 非编码RNA:不编码蛋白质,但调控其他基因

  • 重复序列:转座子、卫星DNA,曾被视为"垃圾",现在知道有结构和调控功能

  • 三维结构:染色质折叠,将 distant 序列带到邻近,影响表达

    从活性算法角度,基因组是一个深度生成模型

  • 先验U(s):基因组的序列和结构,编码了"生物体应该是什么样"的预期

  • 似然V(o|s):发育过程,将基因型转化为表型,受环境噪声影响

  • 观测o:实际生物体的形态、生理、行为

  • 自由能:适应度——生存和繁殖的成功,是进化选择的代理

    基因组不是静态的蓝图,而是动态的程序。相同的基因组,在不同环境中(营养、温度、社会线索),可以产生不同的表型。这是可塑性——推断的适应性,自由能最小化的环境依赖性。

    更重要的是,基因组是学习的产物。通过进化,基因组"学习"了环境的统计结构——哪些特征经常被选择,哪些变异是有利的,哪些组合是可行的。这种学习不是拉马克式的(获得性遗传),而是贝叶斯式的——通过选择更新先验,通过变异探索后验。

七、表观遗传:推断的软约束

    传统遗传学认为,遗传信息完全存储在DNA序列中。但表观遗传学揭示了另一层信息——化学修饰,不改变序列,但影响基因表达。

    主要的表观遗传标记包括:

  • DNA甲基化:在胞嘧啶上添加甲基,通常抑制基因表达

  • 组蛋白修饰:改变染色质的包装,影响基因的可及性

  • 非编码RNA:调控转录和翻译

    这些标记是可逆的、动态的、环境响应的。它们不是遗传密码的硬编码,而是软约束——根据环境调整推断的参数。

    从活性算法角度,表观遗传是快速适应机制。DNA序列的进化是慢的(世代时间),表观遗传的变化是快的(个体寿命内)。它允许生物体在不变基因型的情况下,调整表型以适应环境波动。

    这是多时间尺度的推断。DNA序列是慢速先验,表观遗传是快速似然,两者结合产生适应性的后验。当环境稳定时,表观遗传标记可以重置;当环境持续时,标记可以稳定,甚至跨代传递(跨代表观遗传)。

    这挑战了"中心法则"的严格性,但符合活性算法的框架。信息流动是双向的:从基因型到表型(发育),从环境到表型(适应),从表型到基因型(选择,间接地)。表观遗传是这种双向性的分子机制。

八、基因组的算法结构

    现代基因组学揭示了基因组的算法结构——不是随机序列,而是有组织的、模块化的、层次化的。

    模块化:基因组成功能模块——代谢途径、信号网络、发育程序。模块内部强连接,模块之间弱连接。这允许模块独立进化,减少副作用。

    层次性:调控是层次化的——主调控因子控制下游基因,形成级联。这允许复杂程序的压缩表达,类似于计算机程序的子程序调用。

    鲁棒性:基因组有冗余——多个基因可以补偿同一功能,备用途径可以绕过故障。这是有限振幅约束的体现:系统不依赖单一组件,避免单点失败。

    可进化性:基因组有探索性——转座子移动,基因重复,调控序列变异。这允许快速探索新的表型空间,当环境变化时提供原材料。

    这些特征不是设计的,而是选择的。通过进化,基因组收敛到这些结构,因为它们最小化自由能——它们让生物体在变化环境中维持存在,在竞争中成功繁殖。

九、向第七章的过渡

    本章我们探索了遗传密码的本质——从RNA到蛋白质的翻译作为推断,密码的最优性作为错误最小化,简并性的算法功能,基因组作为压缩历史的深度生成模型。

    关键收获:

  • 遗传密码是算法最优的,最小化翻译错误的预期影响

  • 简并性创造容错性、调控能力和空间编码

  • 密码是压缩的进化历史,多层优化的产物

  • 基因组是深度生成模型,整合序列、结构和表观遗传信息

  • 表观遗传提供快速适应,是多时间尺度推断的体现

    但基因组只是信息。信息需要表达,需要执行,需要调控。在下一章,我们将进入基因表达的动态——从转录到翻译,从mRNA到蛋白质,从线性序列到三维结构。

    我们将看到,基因表达不是简单的读取,而是复杂的推断过程——受环境信号调控,受噪声影响,受反馈控制。细胞不仅"知道"自己的基因组,还"知道"何时表达什么,如何响应变化。

    这是分子层面的认知,是活性算法在细胞内部的精细实现。

    准备好进入细胞的内部世界了吗?

本章要点

  • 遗传密码的谜题:简并性、非均匀性、历史最优性

  • 翻译作为变分推断:DNA为先验,翻译 machinery 为似然,蛋白质为观测

  • 密码的最优性:在错误最小化方面优于99.9%的随机密码

  • 简并性的功能:容错性、调控能力、空间编码

  • 密码作为压缩历史:进化的自动编码器,多层优化的产物

  • 基因组作为深度生成模型:整合序列、结构、表观遗传信息

  • 表观遗传:快速适应机制,多时间尺度推断的体现

  • 基因组的算法结构:模块化、层次性、鲁棒性、可进化性

进一步思考

  1. 如果我们可以设计人工遗传密码,优化什么目标?错误最小化?进化速度?计算效率?不同的目标会导致不同的最优密码吗?

  2. 表观遗传的跨代传递是"拉马克主义"的回归吗?它与DNA遗传的关系是什么?从活性算法角度,如何理解生物与环境的相互作用?

  3. 基因组中的"垃圾DNA"(非编码序列)占大部分。从生成模型角度,这些序列有功能吗?它们是"噪声"还是"结构"?



https://blog.sciencenet.cn/blog-41701-1522907.html

上一篇:进化的奥秘:(5)自催化集——生命的最小算法单元
下一篇:进化的奥秘:(7)基因表达——分子层面的认知
收藏 IP: 111.27.42.*| 热度|

1 崔锦华

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-2-21 14:55

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部