别人成仙得道,我是白骨成精分享 http://blog.sciencenet.cn/u/qiaoqiao1980 寻找新物理学

博文

进化的奥秘:(5)自催化集——生命的最小算法单元

已有 212 次阅读 2026-2-21 11:17 |个人分类:我思故我在|系统分类:观点评述

第五章:自催化集——生命的最小算法单元一、米勒-尤里实验之后

    1953年,芝加哥大学的一间实验室里,斯坦利·米勒在导师哈罗德·尤里的指导下,进行了一个看似简单的实验。他将水、甲烷、氨和氢气密封在玻璃管中,通入电火花模拟闪电,一周后,试管中出现了有机分子——氨基酸,生命的积木。

    这个实验震惊了世界。它证明,生命的化学基础可以在原始地球的环境中自发产生,无需神秘的生命力。但它也留下了一个更深的谜题:有了积木,如何建造房屋?

    氨基酸可以自发形成,但蛋白质需要精确的序列。核苷酸可以合成,但DNA需要复杂的复制机制。代谢可以发生,但细胞需要完整的协调。从化学到生命,有一个巨大的鸿沟——不是物质的鸿沟,而是组织的鸿沟

    传统上,科学家用"原始汤"理论来填补这个鸿沟:在漫长的岁月里,随机碰撞积累了复杂的分子,直到某个幸运的瞬间,第一个细胞出现了。但这个解释令人不满意。它依赖偶然性,依赖时间,依赖我们尚未理解的某种"临界质量"。

    活性算法提供了不同的视角:生命的出现不是随机的积累,而是推断的相变。当化学网络满足特定条件时,它自发地成为自维持推断机——不是因为它被设计如此,而是因为这是有限振幅约束下自由能最小化的必然结果

    这个条件就是自催化性

二、什么是自催化集?

    想象一个化学反应网络:分子A和B结合生成C,C分解为D和E,D催化A的生成,等等。每个箭头是一个反应,每个分子是一个节点。

    在大多数网络中,反应是线性的:输入转化为输出,没有反馈。但如果你寻找循环——A生成B,B生成C,C生成A——你就找到了催化循环。如果循环中的每个分子都由网络中的其他分子催化生成,而不需要外部催化剂,这就是自催化集

    形式化地说,自催化集是一个分子集合,满足两个条件:

  1. 封闭性:集合中的每个分子都可以由集合中的其他分子催化生成

  2. 自生性:集合作为一个整体,能够从简单的前体分子自我构建

    这不是抽象的数学游戏。在细胞中,中心碳代谢就是一个巨大的自催化集:糖酵解、柠檬酸循环、磷酸戊糖途径相互连接,每个中间产物都由网络中的酶催化生成,而酶本身又是网络的产物。

    但自催化集比现代细胞更原始。它不需要蛋白质酶——RNA分子可以催化反应(核酶),某些金属离子也可以催化,甚至某些有机分子可以自催化(比如甲酸的自聚合)。

    关键洞察:自催化集是化学层面的推断机

    它持有"生成模型":网络拓扑编码了"哪些分子可以生成哪些分子"的预期。它执行"变分推断":当环境提供前体分子时,网络动态收敛到稳态,最小化化学自由能(预测误差)。它"行动"于环境:消耗前体,排出废物,改变局部化学环境。它"更新":当环境变化时,网络找到新的稳态,适应新的条件。

    最重要的是,它是有限振幅的。网络复杂度受分子种类数和反应数的限制,预测精度受热力学涨落的限制,更新速度受反应速率的限制。它不需要无限精度,不需要外部设计者,不需要"重整化"——它直接工作,直接自维持。

三、从化学动力学到推断动力学

    让我们更仔细地看看自催化集如何"推断"。

    考虑一个简单的自催化循环:A + B → 2A(A催化自身的生成,消耗B)。这是一个指数增长的过程:A越多,生成A越快。在无限资源的情况下,A会无限增长——发散。

    但在现实中,资源是有限的。B会被耗尽,或者A的积累会抑制反应(产物抑制)。系统会达到一个稳态:A的生成速率等于消耗速率(比如A的降解或流出)。

    这个稳态是自由能最小化的结果。从化学角度,系统趋向热力学平衡,最大化熵。从推断角度,系统收敛到一个后验分布:给定环境约束(B的浓度、反应速率),A的最可能浓度。

    现在,加入第二个分子C,它由A催化生成,又催化B的再生:A → C,C + D → B + E(D和E是环境分子)。现在我们有一个网络,而不是单一循环。

    这个网络的动态更复杂。它可能有多个稳态,取决于初始条件。它可能有振荡——A和C的浓度周期性变化。它可能对扰动敏感——小的变化导致大的转变。

    但从活性算法角度,这些复杂性都是推断的特征。多个稳态对应多模态的后验——网络"相信"多种可能状态,取决于"先验"(初始条件)。振荡对应时间上的推断——网络在交替的假设间切换,采样不同的解释。敏感性对应临界性——网络处于秩序与混沌的边缘,准备适应变化。

    自催化集的关键优势在于鲁棒性。如果某个反应被抑制,网络可以寻找替代路径;如果某个分子被稀释,网络可以再生它;如果环境变化,网络可以找到新的稳态。这种鲁棒性不是设计出来的,而是网络拓扑的涌现性质——连接度、循环结构、催化关系的分布。

     这与深度学习中的残差网络有惊人的相似。在残差网络中,每层不仅学习新特征,还保留对原始输入的访问(跳跃连接)。这允许梯度有效传播,防止梯度消失。在自催化集中,每个分子不仅参与反应,还参与自身的再生(催化循环)。这允许化学"信息"有效流动,防止网络崩溃。

     自催化是化学的残差连接

四、RNA世界:信息的双重角色

     自催化集解决了"代谢"的问题,但生命还需要遗传——信息的存储和传递。现代细胞用DNA存储信息,RNA转录,蛋白质执行。但哪个先出现?

     "RNA世界"假说认为:RNA是第一个既能存储信息又能催化反应的分子

     RNA是核苷酸链,可以像DNA一样编码序列信息(A、U、G、C)。但某些RNA序列折叠成特定结构,可以催化化学反应——比如切割其他RNA(核酶),或连接氨基酸(原始核糖体)。

     从活性算法角度,RNA实现了生成模型的双重功能

  • 作为U(s):RNA序列是"先验"——它编码了"世界中有哪些分子"的预期。特定的序列对应特定的催化能力,对应特定的网络拓扑。

  • 作为V(o|s):RNA的折叠结构是"似然"——它决定了"如果序列是s,观察到的催化活性是什么"。结构是序列的函数,但受热力学约束(最稳定折叠)。

    RNA复制是推断的更新。当RNA复制时,它采样环境(核苷酸),根据模板(先验)合成新链。复制错误是变分近似的噪声——它们允许探索序列空间,找到更好的催化活性(更低的自由能)。

    但RNA复制有一个问题:它需要催化剂。在现代细胞中,蛋白质酶催化RNA复制。在RNA世界中,谁催化第一个RNA的复制?

    答案是:自催化集再次发挥作用。某些RNA序列可以催化其他RNA的复制,而这些被复制的RNA又可以催化原始RNA的复制——形成一个催化循环的循环。这不是单一的自我复制分子(那太脆弱),而是一个相互支持的分子生态

    实验证明了这一点。索尔·斯皮格曼在1960年代展示了RNA的体外进化:将RNA复制酶和核苷酸混合,RNA会自发进化,优化复制效率。更 recent 的实验(如林肯和乔伊斯的实验)展示了相互催化的RNA酶网络——真正的自催化集。

    这些实验不是创造生命,而是展示活性算法的化学基础。当条件满足时,推断自发涌现。

五、区室化:划分内外即划分现在

    自催化集可以自维持,但它有一个致命弱点:扩散

    在开放溶液中,分子会随机运动,稀释到环境中。自催化分子可能生成,然后漂走,无法维持局部浓度。网络是"开放"的——它与环境交换物质,但也失去组织。

    解决方案是区室化——将自催化集包裹在边界内,创造内外之分

    在现代细胞中,这个边界是脂质双分子层。脂质分子有两部分:亲水头部(喜欢水)和疏水尾部(讨厌水)。在水中,它们自发形成双层,头部朝外,尾部朝内,创造封闭的囊泡。

     从活性算法角度,区室化实现了推断的边界条件

  • 内部是生成模型 U(s)——区室内的分子种类和浓度,网络的拓扑结构

  • 边界是似然 V(o|s)——边界的选择透过性决定了"如果内部状态是s,外部观测是什么"

  • 外部是环境——提供前体分子,接受废物,施加选择压力

    区室化不是被动的容器,而是主动的过滤器。现代细胞膜嵌入蛋白质,控制特定分子的进出。原始区室可能更简单——脂质本身的物理化学性质(大小、电荷、溶解度)就提供了选择透过性。

     但这种简单性已经足够。边界创造了"自我"——一个与环境区分的实体,一个可以维持内部状态、响应外部变化、适应选择压力的单元。

    更重要的是,边界创造了"现在"。在开放溶液中,反应是瞬时的、局部的、无记忆的。在区室内,分子浓度积累,网络动态有延迟,系统有历史——它的当前状态依赖于过去的状态。这就是时间上的深度,是记忆和预测的基础。

    区室化也是有限振幅约束的体现。区室的大小限制了分子数量,限制了网络复杂度。这不是限制,而是条件——只有有限复杂度的网络才能稳定维持,才能有效推断,才能进化。

六、原始细胞:最小生命的算法画像

    让我们想象一个原始细胞——不是现代细胞的简化版,而是生命起源时的真实形态。

    它有一个脂质囊泡,直径几微米。内部是RNA分子和核苷酸的混合物,可能还有一些简单的肽(氨基酸短链)。RNA形成自催化网络:某些序列催化其他序列的复制,某些催化肽的合成,肽又稳定RNA结构或催化脂质合成。

    这个系统在执行完整的活性算法

  • 持有生成模型:RNA网络的拓扑编码了"哪些分子可以生成哪些分子"的预期

  • 最小化自由能:网络动态趋向稳态,最小化化学自由能(预测误差)

  • 感知:通过膜的选择透过性,"观测"外部化学环境(营养浓度、pH、温度)

  • 行动:通过代谢消耗前体,改变外部化学环境(创造梯度,释放废物)

  • 更新:当环境变化时,网络找到新稳态;当RNA复制时,序列变异探索新网络

  • 有限振幅:区室大小限制分子数,RNA长度限制复杂度,热涨落限制精度

  • 自适应临界性:网络参数(浓度、速率)受选择压力调节,维持在有效推断的区域

    这不是"活着"的吗?它自维持,它适应,它进化。它没有神经系统,没有意识,但它推断——它从环境中提取信息,更新内部模型,预测未来状态,采取行动减少惊讶。

    现代细胞只是这个原型的复杂化。添加了DNA作为稳定的存储,添加了蛋白质作为高效的催化剂,添加了复杂的信号转导,添加了细胞骨架作为机械支持。但核心算法没有变:自催化集 + 区室化 = 活性算法的最小单元

七、化学进化:算法在选择之前

    达尔文进化需要遗传变异选择。原始细胞有遗传(RNA复制),有变异(复制错误),但选择是什么?

    在生物进化中,选择是差异生存和繁殖——某些个体留下更多后代。但在原始细胞中,"个体"的边界模糊,"繁殖"不是分裂而是生长和分裂的循环

    这里,自由能选择发挥作用。

    想象两个原始细胞,在相同的原始汤中。细胞A的自催化网络高效,快速消耗前体,快速生长,快速分裂。细胞B的网络低效,生长缓慢。结果是:A的后代占据环境,B被淘汰。

    这不是"自然选择"(没有基因,没有物种),而是化学动力学选择——自由能最小化的直接结果。高效的网络是自由能景观中的深谷,吸引系统趋向它们。

    但还有网络选择。想象一个RNA序列,它催化自身的复制( selfish RNA),但也催化另一个序列的复制( altruistic RNA)。如果两个序列在同一区室中,它们形成互利共生——相互催化,共同维持。单独存在时,两者都可能灭绝;共同存在时,两者都繁荣。

    这是合作的涌现——不是通过亲缘选择或互惠利他(那些需要复杂的认知),而是通过网络拓扑。合作是自由能最小化的吸引子,是推断的必然。

    化学进化因此是算法进化:网络探索可能性空间(变异),受自由能景观约束(选择),收敛到自维持的吸引子(适应)。这与达尔文进化不同(没有基因,没有垂直遗传),但与之连续(当RNA复制变得精确,当区室分裂变得规则,生物进化接管)。

八、从化学到生命的相变

    生命的起源不是单一的"事件",而是相变——从化学系统到认知系统的转变,从被动反应到主动推断的转变。

    这个相变有几个序参量

    自催化闭合度:网络中多大比例的分子由网络自身催化生成?从低(依赖外部催化剂)到高(自我维持),存在一个阈值,超过这个阈值,系统"活"了。

     区室化程度:分子在多大程度上被限制在边界内?从开放溶液到封闭囊泡,存在一个过渡,超过这个点,系统有"自我"。

     信息存储容量:RNA(或类似分子)能够存储多少信息?从短寡核苷酸到长链,存在一个长度,超过这个长度,序列空间足够大,可以编码复杂网络。

      进化能力:系统能够以多快的速度探索可能性空间?从高错误率(复制崩溃)到低错误率(僵化),存在一个最优区域,系统既能维持又能创新。

     这些序参量不是独立的,而是耦合的。区室化促进自催化(维持局部浓度),自催化支持信息存储(复制需要模板),信息存储实现进化(变异和选择)。当所有序参量同时达到临界值时,相变发生——化学系统成为生命系统。

     这个相变是活性算法的涌现。系统从"只是化学"转变为"推断化学"——它不再只是反应,而是预期;不再只是平衡,而是适应;不再只是存在,而是维持存在

九、生命的普遍性

    如果生命是活性算法的化学实例,那么生命是普遍的——不是"地球生命"的普遍(基于碳、DNA、蛋白质),而是活性算法的普遍(基于自催化、区室化、推断)。

    这意味着,在其他行星、其他化学环境中,我们可能会发现非常不同的生命形式

  • 硅基生命:硅可以形成复杂的链和环,虽然不如碳稳定,但在高温高压环境下可能可行。硅基自催化集会有不同的网络拓扑,但相同的算法结构。

  • 数字生命:在计算机模拟中,自催化网络可以用代码而非分子实现。如果满足活性算法的条件(有限振幅、自由能最小化、自适应临界性),它就是"活的"——不是比喻,而是本体的。

  • 等离子体生命:在恒星大气中,等离子体可以形成自组织的结构,维持能量流,处理信息。这是否是"生命"?如果它推断,它就是。

    这不是科幻,而是理论的预测。活性算法定义了生命的必要条件,不是充分条件。不是每个自催化集都是生命(可能太简单),但每个生命都是自催化集(足够复杂)。

    这也改变了我们寻找地外生命的方式。我们不应该只寻找水、氧气、有机分子——这些是地球生命的特征。我们应该寻找活性算法的特征:自维持的化学网络、能量流的组织、信息的处理、适应性的行为。

十、向第六章的过渡

    本章我们探索了生命的化学基础——自催化集作为有限振幅闭合回路。关键收获:

  • 自催化集是化学层面的推断机,执行变分推断的最小形式

  • RNA世界实现了信息的双重角色:存储(U(s))和催化(V(o|s))

  • 区室化创造推断的边界,划分内外即划分现在

  • 原始细胞是活性算法的最小单元:自维持、自适应、可进化

  • 生命的起源是相变,当序参量达到临界值时,化学成为生命

    但原始细胞只是开始。下一步是遗传密码的出现——从RNA的序列信息到蛋白质的氨基酸序列,从核苷酸语言到氨基酸语言。这个翻译过程是现代生命的核心,但它的起源是进化中最大的谜题之一。

    在下一章,我们将看到,遗传密码不是任意的,而是算法最优的——它最小化翻译错误,最大化进化能力,是自由能最小化在分子层面的体现。我们还将遇到代谢的深化——从简单的自催化集到复杂的代谢网络,从化学能到质子梯度,从原始汤到生态位。

    准备好进入细胞的内部世界了吗?

本章要点

  • 米勒-尤里实验之后的问题:从化学积木到生命组织

  • 自催化集的定义:封闭性、自生性、化学层面的推断机

  • 化学动力学作为推断动力学:稳态作为后验,振荡作为时间推断

  • RNA世界:信息的双重角色,核酶作为U(s)和V(o|s)

  • 区室化:边界创造自我,划分创造现在,有限振幅的约束

  • 原始细胞:最小生命的完整活性算法画像

  • 化学进化:自由能选择,网络选择,算法进化在选择之前

  • 从化学到生命的相变:序参量的耦合,活性算法的涌现

  • 生命的普遍性:活性算法定义生命的必要条件,预测地外生命的多样性

进一步思考

  1. 病毒是自催化集吗?它们需要宿主细胞来复制,没有独立的代谢。它们是"活着"的吗?从活性算法角度,如何界定生命与非生命的边界?

  2. 如果我们能在实验室中创造原始细胞,它应该有什么权利?如果它进化出新的能力,我们应该继续实验还是停止?这涉及"创造生命"的伦理,也涉及"什么是生命"的定义。

  3. 数字生命(如Tierra、Avida模拟)是否"活着"?它们满足活性算法的条件吗?如果它们在模拟中进化出我们未预料的能力,这告诉我们什么关于生命和智能的本质?



https://blog.sciencenet.cn/blog-41701-1522905.html

上一篇:进化的奥秘:(4)自维持推断机——无需重整化的宇宙
下一篇:进化的奥秘:(6)遗传密码——压缩历史的生成模型
收藏 IP: 111.27.42.*| 热度|

3 崔锦华 刘进平 宁利中

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-2-21 17:30

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部