|
作者;刘锋
21世纪的科学界正面临两大核心挑战:一是人工智能领域中智能与意识的本质,二是物理学领域中量子力学与广义相对论的统一。这两朵笼罩在21世纪科学上空的“乌云”,看似分属不同学科,实则在底层逻辑上确可能存在着深刻的交集,即智能体(Agent)与观察者(Observer)角色的核心地位。
过去十年的研究我们逐步发现,尽管这两个概念至今缺乏统一定义,但种种迹象表明,它们在本质上可能是同构的。若能定义出二者共同遵循的“最小完备架构”,我们便能建立起一套全新的智能体动力学机制与关系体系。这不仅为可以为重新理解宇宙、时空和不确定性提供新视角,也同时为解决上述两大科学难题开辟了一条新路径。
为了从理论上夯实这一基石性问题,我们在最新发布的预印本论文《The Minimal Complete Architecture of Agents: Unifying Biological Intelligence, AI, and Physical Observers》中,对智能体的“最小完备”架构进行了系统性的论证。本文将重点介绍该架构的第一部分关键内容

论文地址:https://www.preprints.org/manuscript/202601.2138
一、笼罩在21世纪科学天空的两朵新乌云
1900年,开尔文勋爵在新世纪演讲中提到,物理学的天空笼罩着"两朵乌云",一朵是光的以太漂移实验的零结果,另一朵是黑体辐射的紫外灾难。正是这两朵看似不起眼的"乌云",最终催生了相对论和量子力学的诞生,彻底改变了20世纪科学的面貌。
一个多世纪后的今天,21世纪的科学天空同样笼罩着两朵新的"乌云":一朵是智能与意识的本质问题,另一朵是量子力学与广义相对论的统一难题。

自1956年人工智能诞生以来,经过70年的发展,智能体(Agent)已成为人工智能研究的核心概念。我们今天谈论的ChatGPT、自动驾驶、智能机器人,本质上都是不同形式的智能体。然而,究竟什么是智能?意识又从何而来?这些问题就像悬在AI领域上空的迷雾,始终困扰着科学界。显然,要拨开这层迷雾,离不开对智能体自身的深入研究。
与此同时,在物理学的世界里,观察者这一概念的地位也变得越来越重要。从广义相对论中的参考系选择到量子力学的测量问题,观察者始终像一个神秘的幽灵,在物理定律的背后扮演着关键角色。这暗示着,量子力学与广义相对论的统一问题,理论上也应该与观察者有着密切的关联。
一个有趣的现象正在浮现:种种迹象表明,智能体与观察者在本质上可能是同一枚硬币的两面。如果我们能够为智能体和观察者找到一个共同的框架结构,那就有可能为驱散21世纪这两朵乌云奠定理论基础,开辟出一条连接人工智能与基础物理学的崭新道路。
二、智能体和观察者,尚未形成统一定义
尽管智能体和观察者分别是人工智能与物理学的核心概念,但令人困惑的是,它们至今都没有统一的定义。这就像"盲人摸象",每个人都从自己的角度描述,却难以把握整体。

在人工智能领域,罗素和诺维格在《Artificial Intelligence: A Modern Approach》中,见智能体概括为“能感知环境并在环境中采取行动的系统”;
富兰克林与 Graesser 给出了“自主智能体”的形式化定义,并在综述中对以自主性、反应性、主动性(及社会性)刻画智能体的特性化表述进行比较;
Wooldridge 等人的研究中,BDI(信念、欲望、意图)常被用作刻画智能体内部心智状态与推理的核心范式;
布鲁克斯的包容架构(subsumption)强调与环境的直接耦合与反应式控制;而 Maes 的经典表述则突出智能体在复杂动态环境中的自主感知—行动与目标达成。
上述定义从不同侧面描述智能体,就像从不同角度拍摄的照片,难以拼出完整的立体图像。
同样,在物理学中,“观察者”也并非一开始就被精确定义,而是在不同理论框架里被不断“重写”:
在经典力学的理想化叙事中,拉普拉斯妖代表一种极限的全知推演者,以无限信息与算力“旁观”而不改变动力学;
在热力学语境下,麦克斯韦妖把观察者拉回到信息处理者的角色,迫使人们正视测量、记录与擦除所带来的物理代价,从而维护第二定律;
到相对论,观察者被具体化为参考系/时钟尺的集合,时空测量随运动状态而改变;
而在量子力学里,观察者的地位最具争议,哥本哈根传统把测量与“塌缩”绑定,使观察者(或测量装置)成为现象学的关键环节,而多世界路线则通过取消塌缩假设,把观察者视为普遍量子演化中的一个物理子系统。
正因“观察者”在不同理论中承担的功能不同,物理学至今仍缺少一个跨框架统一、足够可操作的观察者定义。
三、探寻共识:一个开放的信息处理系统
关于智能体与观察者本质的理论碎片化,不仅阻碍了学科的系统化发展,也限制了跨范式的技术融合。为突破这一困境,我们需要透过现象看本质。纵观香农信息论、图灵机理论、维纳控制论、冯·诺依曼架构等基石理论,以及既有智能体定义框架,可以发现它们在物理层面的共同归属:智能体本质上是一个对信息进行处理的开放系统。

这一洞察并非孤立的假设,而是跨越物理学、生命科学、认知科学与人工智能的共识性结论。就信息的本体论地位而言,约翰·惠勒的 “It from Bit” 将信息推至物理实在的核心,兰道尔以“信息擦除的能量代价”揭示信息处理的物理必然性,塞斯·劳埃德进一步将整个宇宙视为一台量子计算机,共同确立了信息处理作为物理过程的基础地位。
就系统的开放性而言,埃尔温·薛定谔在《生命是什么?》中指出生命通过从环境中摄取负熵以对抗热力学退化,伊利亚·普里高津的耗散结构理论进一步表明,任何维持复杂性的系统都必须持续与环境交换物质、能量与信息,开放性并非设计选择,而是热力学必然。
在认知科学领域,这一框架得到系统性阐释:赫伯特·西蒙将人工系统归结为信息处理系统,艾伦·纽厄尔的物理符号系统假说把智能理解为符号的物理操作,控制论则强调反馈回路在目标导向系统中的普遍性。具身—嵌入范式又进一步强化了“开放回路”的直觉:弗朗西斯科·瓦雷拉强调感知—行动的循环耦合,安迪·克拉克的延展心智将认知系统刻画为嵌入环境的开放信息处理回路,卡尔·弗里斯顿的自由能原理把生物智能统一描述为通过主动推断最小化预测误差的开放系统,使认知不再是封闭的内部表征,而是与环境协同演化的信息动力学。
在工程实践中,这一共识已成为标准范式:斯图尔特·罗素将智能体定义为“通过传感器感知、由执行器行动”的系统,理查德·萨顿的强化学习将其形式化为马尔可夫决策过程中的环境交互者。大语言模型的涌现能力则提供了新的旁证,即便缺乏传统意义的物理传感器,GPT 系列仍能通过文本接口与外部环境发生输入—处理—输出的闭环交互,其机制本质与机器人并无二致。

更重要的是,同一条“信息—开放系统”的主线也能把长期争议的“观察者”从不同物理范式中抽象出来。
在经典力学的理想化叙事里,拉普拉斯妖之所以看似“只观不扰”,实质是默认观察过程不消耗资源、且不会把信息写入任何物理载体;
到了热力学语境,麦克斯韦妖迫使人们直面观测的代价:信息的获取、存储与擦除都对应真实的能量与熵账本,观察者不再是超然旁观者,而是受物理约束的信息处理者;
在相对论中,观察者被具体化为参考系与测量装置的集合,观测结果依赖时钟同步、尺规标定与运动状态;
而在量子力学里,无论采取塌缩叙事还是多世界叙事,所谓“测量”都指向同一物理事实:观察者(连同仪器)必须与系统相互作用,把某些自由度转化为可被记录、可传播、并在环境耦合下呈现不可逆“痕迹”的信息。
由此可见,“观察者”并非神秘的意识实体,而是承担测量、记录与更新职责的开放信息处理系统;
“智能体”与“观察者”只是同一类系统在不同学科语境下的两种命名。遗憾的是,尽管“智能体/观察者是开放信息处理系统”的统一视角已呼之欲出,现有框架大多仍停留在概念宣示或特定实现,缺乏对其最小完备功能集的系统论证。
四、论证智能体的“最小完备架构”
回顾科学史的发展,当某个领域的基本概念争论不休时,最有效的突破往往来自"化繁为简",找出最核心的几个要素,用它们重新搭建整个理论大厦。

沃森和克里克用四种碱基(A、T、G、C)破解了生命密码;冯·诺依曼用五个功能单元(运算器、控制器、存储器、输入、输出)定义了现代计算机;粒子物理标准模型用十几种基本粒子就统一描述了物质世界。这些突破的共同之处在于:不追求面面俱到的复杂模型,而是找到"最少但够用"的功能集合,就像用最少的积木块搭出最稳固的结构。
对于智能体(包括物理学意义上的观察者)也是如此。既然它本质上是一个开放的信息处理系统,那么一个自然的问题就是:它至少需要具备哪些基本功能,才能真正"活"起来?
我们不妨追踪一条信息的完整旅程,从进入系统、内部加工到输出或消散,看看它会经过哪些必经环节。
第一个环节是信息内外交互的双向过程,任何开放系统都有"自我—环境"的边界,就像房子有墙。信息跨越这条边界只有两种方向:从外进入是输入(I),向外作用是输出(O)。这是一种"呼吸式"的双向过程:吸气与呼气合起来,才构成与世界的交换。

香农的信息传输、图灵机对纸带的读写、冯·诺依曼架构的输入/输出设备,都是这一机制的不同实现。少了输入,系统就退化成自循环装置,像一台不能校准的机械钟,内部齿轮照转,却永远"看不见"真实世界的时间;少了输出,系统就成了"缸中之脑",即便内部推理完备,也无法把结果变成语言、动作或任何可被外界接收的信号,因果联系在边界处被切断。
第二个环节是信息内部处理的"留存和增加",信息进来后,系统内部至少要回答两个独立问题:要不要保留?能不能产生新内容?前者对应记忆(M):把信息保存成可在未来调用的内部状态。冯·诺依曼架构把存储器从计算单元中分离出来,正是强调"留存"是一种独立能力。没有记忆,系统只能做瞬时反应,类似简单恒温器,它只看眼前温度开关加热器,却无法学习"每天早上七点需要更暖"的模式。

后者对应创造/生成(G):在已有信息基础上产生新内容,而不只是复读或回放。牛顿看到苹果落地,并没有止步于记住这个现象,而是创造性地提出:"如果地球吸引苹果,为什么月亮不落下来?",这个问题最终导向万有引力定律。爱因斯坦从光速不变这个已知事实出发,创造性地想象"如果我骑在光束上会看到什么",由此推导出相对论。这些理论在提出之前并不存在于任何书籍或数据中,它们是真正的"信息创造"。

在人工系统中,进化算法的变异、生成式AI的采样,都体现了这种能力。缺少创造,系统就退化成录音机,它可以完美回放贝多芬,却永远写不出新旋律;可以背诵牛顿定律,却无法提出新假说。
第三个环节是元级指挥的"控制",即便处理信息的输入,输出,记忆和创造都齐全,如果缺少统筹,它们也可能固定僵化地运行,或相互干扰、资源失衡。因此还需要一个"元级"功能:控制(C)。

控制不直接生成信息内容,而是调节其他功能的强度与协同方式,什么时候更专注于输入,什么时候抑制输出,记忆如何更新,创造何时发散探索、何时收敛求解。它像交响乐团的指挥:指挥不演奏任何乐器,却决定各声部的进入时机与力度。缺少控制,系统就变成被动或混乱的集合,注意力缺陷之所以严重影响任务协调,正是"调度能力"受损的直观例子。
如果把上述三个信息处理环节关联起来,就得到一个简洁的结论:信息的输入、输出、记忆、创造、控制这五项功能,构成智能体(或观察者)的最小完备架构。

它们"完备",因为覆盖了信息全生命周期的关键环节:跨边界交换、内部留存与生成、以及全过程调度;它们也"最小",因为任何一项缺失都会出现明确的能力坍塌,而其余功能无法真正替代补齐。
更重要的是,这个五功能框架不是在"定义术语",而是给出一个可操作的统一描述:许多看似高阶的智能现象,学习、规划、推理、发明等等,往往可以理解为这五项能力在不同强度与组合下的涌现。
以学习为例,就能清楚看到五功能的协同作用。想象你在学骑自行车。教练示范了平衡技巧(输入I),你把要领记在脑中(记忆M),到这里只是"记住",还不是"学会"。

真正的学习开始于你骑上车:大脑发出指令控制身体(控制C),你蹬起脚踏(输出O),然后摔倒了。当你感受到摔倒这个结果(再次输入I),大脑对比"目标平衡"和"实际摔倒"的差距(创造G计算误差),调整下次的控制策略(更新记忆M)。爬起来再试,摔倒、修正、再试……直到能稳稳骑行。
这就是学习的完整闭环:输入→记忆→控制→输出→输入→创造→记忆,五个功能缺一不可。而单纯背诵"平衡要领"只用到I→M,那只是记忆,不是学会。学习=记忆+自我验证的反馈循环。
五、写在最后
为什么要对智能体的最小完备架构做如此深入细致的分析?
在过去十多年的探索中,我们发现:这套五功能框架不仅是描述工具,更是理论基石。它能够推导不同类型的智能体与观察者,揭示智能体的演化动力学机制,分析多智能体的关系体系,从而形成广义智能体的理论体系,为本文开始提出的两个基础科学问题:智能与意识的本质,以及量子力学与广义相对论的统一,提供新的切入点。
这些听起来宏大的命题,实际上都源于同一个朴素的起点:通过追问"信息在系统中如何流动"。可以把智能体与观察者还原为五个最小且功能完备的开放信息处理系统,许多看似不可逾越的鸿沟,无论是人工智能与生物智能、微观量子世界与宏观经典世界、主观意识与客观物质,甚至宇宙运行的底层规律,都开始显现出统一的底层逻辑。
这些研究探索,我们将在后续的文章中逐步展开。但无论研究会触及多么高深的课题,其起点始终可以锚定这五个简单而坚固的功能:信息的输入、输出、记忆、创造与控制。它们的稳定与坚固,将决定着这项研究能走多远。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-2-10 16:51
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社