||
邹晓辉 中美塞尔研究中心 高级研究员
摘要:人工智能的发展历程常被概括为特定领域能力的突破,但更深层次的是其构建范式的根本性转变。本文提出一个统一的融智学分析框架,旨在系统性地审视AI发展史上的三次标志性胜利:以深蓝为代表的基于规则与搜索的符号智能范式、以AlphaGo为代表的基于深度强化学习的感知-决策范式,和以GPT系列大模型为代表的基于预训练的生成与涌现范式。本文引入邹晓辉融智学的核心思想,区分人类认知第一次飞跃所关注的“质能时空”之“能”,与第二次飞跃所关注的“信智序位”之“智”。通过这一透镜,我们论证AI的演进本质是“智”的载体从完全依赖人类预设的“序位”(规则),逐步走向从数据中自主发现并动态生成“序位”,最终实现“智”的大规模涌现与空间升维的过程。本文详细评述了支撑每次范式转移的关键文献与技术原理,并以此为基点,分析了2024-2025年前沿进展(如Gemini的推理智能体、开源模型DeepSeek的效率革命、以及李飞飞团队的空间智能模型)如何分别代表着“智”在纵向深化、横向普惠与空间升维三个方向的分化演进。最后,论文指出,近未来AI的发展核心将是构建能够融合物理世界之“能”与信息世界之“智”的统一世界模型,而融智学的“序位关系唯一守恒定律”与“同义/意并列对应转换法则”为理解和评估这一进程提供了至关重要的元理论工具。
关键词: 人工智能,范式转移,深度学习,大语言模型,强化学习,世界模型,空间智能,融智学,人机协作
From Brute-force Computing to Spatial Intelligence: A Rongzhiological Examination of Paradigm Shifts in Artificial Intelligence
Xiaohui Zou, Senior Research Fellow, Sino-US Searle Research Center
Abstract: The developmental trajectory of Artificial Intelligence (AI) is often summarized as a series of breakthroughs in specific domain capabilities. However, a more profound transformation lies in the fundamental shifts of its underlying paradigms. This paper proposes a unified analytical framework grounded in Rongzhiology to systematically examine three landmark victories in AI history: the symbolic intelligence paradigm based on rules and search, represented by Deep Blue; the perception-decision paradigm based on deep reinforcement learning, exemplified by AlphaGo; and the generative and emergent paradigm based on pre-training, epitomized by the GPT series of large language models. Introducing the core tenets of Xiaohui Zou's Rongzhiology, we distinguish between the "energy" (neng) associated with "mass, energy, space, time"—the focus of humanity's first cognitive leap—and the "intelligence" (zhi) associated with "information, intelligence, sequence, position"—the focus of the second cognitive leap. Through this lens, we argue that the evolution of AI is, in essence, the process by which the vehicle of "intelligence" progresses from complete reliance on human-predefined "sequences and positions" (rules) towards autonomously discovering and dynamically generating "sequences and positions" from data, ultimately achieving the large-scale emergence and spatial ascension of "intelligence." This paper provides a detailed review of the key literature and technical principles underpinning each paradigm shift. Building on this foundation, it analyzes how recent (2024-2025) frontier advancements—such as Gemini's reasoning agents, the efficiency revolution of open-source models like DeepSeek, and the spatial intelligence models from teams like Li Fei-Fei's—represent the differentiated evolution of "intelligence" along three axes: vertical deepening, horizontal democratization, and spatial ascension. Finally, the paper posits that the core of near-future AI development will be the construction of unified world models capable of integrating the "energy" of the physical world with the "intelligence" of the informational world. Rongzhiology's "Law of Unique Conservation of Sequential-Positional Relationships" and the "Principle of Synonymous/Consensual Parallel Corresponding Transformation" provide crucial meta-theoretical tools for understanding and evaluating this process.
Keywords: Artificial Intelligence, Paradigm Shift, Deep Learning, Large Language Model, Reinforcement Learning, World Model, Spatial Intelligence, Rongzhiology, Human-Computer Collaboration
1. 引言自人工智能学科诞生以来,其进展常以里程碑式的“人机对抗”事件为标志:从1997年深蓝击败国际象棋世界冠军卡斯帕罗夫,到2016年AlphaGo在围棋领域战胜李世石,再到当今大语言模型在通用知识任务上超越普通人。这些胜利不仅是工程技术的凯歌,更揭示了智能机器构建哲学的深刻变革。主流叙事多聚焦于算法与算力的线性进步,缺乏一个能够穿透技术表象、统一解释智能本质演进的理论框架。
本文引入邹晓辉创立的融智学理论作为核心分析框架[1]。该理论区分了人类认知的两大飞跃:第一次飞跃面向物理世界,核心范畴是质、能、时、空,其规律(如质能守恒)独立于观察者;第二次飞跃面向信息世界,核心范畴是信、智、序、位,处理意义、逻辑与知识结构[2]。其中,“序”指信息单元的排列结构与关系,“位”指其特定位置与价值。“序位关系唯一守恒定律”指出,在确定的语境下,信息单元间的序位逻辑暨序位关系是唯一且守恒的;“同义/同意并列对应转换法则”则解释了不同信息形式序位关系及其结构变化的序列如何表达相同序位逻辑暨序位关系内核[3]。
在此框架下,本文重新审视AI的三次突破:它们实质上是“智”的载体如何构建、理解和生成“序位”的根本性范式革命。第一范式(深蓝) 的“智”完全由人类编码的、固化的“序位”规则所定义,是“能”(算力)对“智”(人类棋理)刚性执行。第二范式(AlphaGo) 的“智”源于模型从数据中自主发现的、隐含的“序位”关联,实现了“序位”结构的自动学习与优化。第三范式(AI大模型) 的“智”则表现为通过预测任务,内化人类语言与文化中宏大的“序位”结构网络,并掌握了“同义/意(刚性的同义和柔性的同意)并列对应转换”定律/法则的核心能力,使“智”得以涌现。“物理的理=意义的义=文法的法”=“序位”是融智学语境设定的三类双重形式化理解模型“孪生图灵机”证成的含义。
进入2024-2025年,AI前沿呈现出在三大范式基础上的分化与跃升:1)以谷歌Gemini系列为代表的复杂推理智能体,追求“智”对高阶、复杂“序位”链(科学推理、程序逻辑)的掌握与执行;2)以DeepSeek为代表的开源高效模型,致力于降低承载“智”所需的“能”之门槛,推动“智”的民主化;3)以李飞飞团队“Marble”为代表的空间智能与世界模型,标志着“智”开始尝试构建融合物理“能”与信息“智”的统一“序位”空间,迈向AI对三维世界的形式化理解。
本文旨在通过融智学框架,系统梳理这一波澜壮阔的技术思想史。第2章详细回顾三次范式突破及最新进展的关键文献与论点;第3章进行深入的融智学分析;第4章探讨未来方向与挑战。
2. 相关工作:从规则编码到世界建模的技术思想演进2.1 第一范式:符号智能与暴力搜索的巅峰早期AI在博弈领域的探索奠定了第一范式的理论基础。Shannon首次形式化了计算机下棋的两种基本策略:评估函数与搜索树[4]。此后,Alpha-Beta剪枝算法极大地提升了搜索效率[5]。这些研究,确立了“知识表示(评估函数)+ 启发式搜索”的核心范式。关键突破:IBM深蓝(Deep Blue)。Campbell等人的工作详细阐述了这一系统的工程实现[6]。深蓝的智能完全由国际象棋大师与程序员共同编码的、包含数千个因素的评估函数所定义,其胜利依赖于专用硬件提供的空前算力,进行暴力搜索。其论点核心是:在状态空间巨大但规则完全明确的领域,基于人类先验知识的符号表示与穷举搜索可以超越人类直觉。然而,该范式的局限性——知识获取瓶颈、“脆弱性”与无法适应不确定性——在更复杂的现实问题面前暴露无遗[7],标志着完全依赖人类预设“序位”的路径存在天花板。也就是说必然存在无数的几何增涨的人类无法预设的“序位”的路径。
2.2 第二范式:感知-决策智能与深度强化学习的革命该范式的兴起依赖于两大支柱:深度学习的复兴与强化学习理论的成熟。LeCun等人关于卷积神经网络在手写数字识别上的开创性工作,证明了神经网络能从数据中自动学习有效的特征表征[8]。Sutton & Barto经典教科书系统性地建立了强化学习作为序列决策问题的数学框架[9]。关键突破:DeepMind AlphaGo系列。将深度学习与强化学习结合,催生了深度强化学习。Mnih等人的DQN首次证明,智能体可以直接从像素输入学习玩Atari游戏,达到人类水平[10]。AlphaGo的里程碑意义在于,它并非单纯优化搜索,而是用深度神经网络来模拟人类的直觉(策略网络)和价值判断(价值网络),并通过蒙特卡洛树搜索将其与搜索结合起来[11]。其核心论点是:智能可以从高维感官数据与环境交互反馈中直接涌现,无需显式的规则编程。随后的AlphaGo 和AlphaZero博弈进一步证明,即使完全摒弃人类知识,仅通过自我博弈的强化学习,智能体也能在多个完美信息博弈中超越人类[12]。这标志着“序位”的发现过程可以完全自动化,智能的源头从程序员转向了算法与数据(尤其是大数据)。
2.3 第三范式:生成式智能与预训练-涌现范式的确立该范式的技术基石是Transformer架构。Vaswani等人,提出的“注意力机制”完全取代了循环结构,解决了长程依赖与并行化计算的难题,为处理海量数据(尤其是大数据)提供了可扩展的模型基础[13]。随后,两大预训练路径出现:1) 双向编码范式:以BERT为代表,通过掩码语言模型任务进行预训练,在各类自然语言理解任务上取得突破[14]。2) 自回归生成范式:以GPT系列为代表,坚持从左到右的下一词预测任务。Radford等人,证明了生成式预训练在不同任务上的强大泛化能力[15]。Brown等人的GPT-3工作则是一个分水岭,它系统性地展示了当模型参数规模超过千亿,并辅以海量数据时,大语言模型会涌现出惊人的少样本、零样本学习能力[16]。其核心论点引发范式转移:无需为每个任务进行精细的工程调整,单一的通用的预训练模型即可通过“提示”适应无数任务。这背后的融智学本质是,模型通过预训练内化了语言所承载的整个知识宇宙的“序位”关系,并精通了“同义/同意”对应转换法则。
2.4 前沿进展(2024-2025):“智”的三向分化当前研究在第三范式基础上,向三个战略方向急速拓展:
纵向:复杂推理与智能体执行。以谷歌Gemini系列为代表,其技术报告显示Gemini 1.5 Pro凭借其MoE架构和百万级上下文窗口,在需要长文档理解和复杂推理的任务上树立了新标杆[17]。而Gemini 2.0 Flash则专注于在保持强大性能的同时实现极致的推理速度与成本优化[18]。其进展的论点是:下一代AI的核心竞争力是掌握科学、数学、编程等领域中严谨、复杂、多步的逻辑“序位”链,并能将其转化为可执行的(智能体)动作在行列间交替推进的“序位”链。
横向:效率优化与开源普惠。以DeepSeek为代表的中国开源模型阵营迅速崛起。其技术报告显示,DeepSeek-V3采用大规模MoE架构,以极高激活稀疏性实现了接近稠密模型性能的同时,大幅降低了推理成本[19]。其论点核心是:通过算法与工程创新,可以打破“规模越大、成本越高”的线性魔咒,让最前沿的“智”得以民主化普及,这深刻改变了全球AI竞争与创新的生态格局。相当于在有意和无意之间做到了即掌握文理工科领域中严谨、复杂、多步的逻辑“序位”链。
升维:空间智能与世界模型。以李飞飞团队World Labs的“Marble”模型为先锋。该模型能够从单张图像、视频或文本描述中,生成高保真、持久且空间一致的3D场景[20]。其理论基础在于认识到,当前大语言模型缺乏对物理世界几何、材质和运动规律的常识理解。世界模型的目标是构建一个能同时编码物理规律(“能”的约束)和语义关系(“智”的内容)的统一表征空间[21]。这一方向的论点是:实现通用人工智能必须让“智”扎根于或至少能够准确模拟其作用对象即三维物理世界的“序位”关系,这是通往具身智能与科学发现AI的必由之路。
2.5 核心范式背后的数学模型
2.5.1 第一范式:基于评估函数的确定性搜索
第一范式的核心是极小化极大算法,其目标是找到在对手最优应对下,能使自身评估分数最大化的走法。其决策过程可形式化为:
a* = argmax_{a ∈ A} MinMax(s, a, d)
其中,a* 为最优行动,A 为所有可能行动集合,s 为当前状态,d 为搜索深度。MinMax函数的递归计算依赖于一个关键的评估函数 V(s):
V(s) = w₁·f₁(s) + w₂·f₂(s) + … + w_n·f_n(s)
这里,f_i(s) 是人类专家定义的特征(如棋子数量、棋盘控制中心),w_i 是赋予该特征的权重。深蓝的胜利,本质上是依赖于硬件算力最大化搜索深度 d,并凭借精细调校的 V(s) 来逼近真实的棋局价值。
解读:该公式揭示了一范式智能的两个关键缺陷:1) 智能的上限由评估函数 V(s) 的完备性决定,它完全是人脑对棋局理解的数学投影,无法自我完善;2) 搜索过程是机械的,argmax 运算不具备任何抽象或概括能力。这正体现了融智学视角下“固化的序位”:f_i(s) 和 w_i 构成了对棋盘“位”与“序”关系的静态、先验定义。
2.5.2 第二范式:基于策略与价值网络的概率化决策
AlphaGo 引入了两个深度神经网络来克服一范式的局限:
策略网络 π(a|s; θ):在状态 s 下,选择行动 a 的概率分布,参数为 θ。它模仿人类棋手的“直觉”或“棋感”。
价值网络 v(s; φ):直接评估状态 s 的胜率期望,参数为 φ。它替代了人工的评估函数。
其决策融合了蒙特卡洛树搜索(MCTS),搜索过程中边的选择通常由置信上界决定:
a_t = argmax_a [ Q(s, a) + u(s, a) ], 其中 u(s, a) ∝ π(a|s) / (1 + N(s, a))
这里,Q(s, a) 是行动价值估计,N(s, a) 是访问次数。最关键的学习过程通过策略梯度和价值函数拟合实现,其损失函数包含策略提升和价值误差项。
解读:第二范式的公式标志着“序位”学习的自动化。π(a|s; θ) 不再是人写的规则,而是从数据中学习到的、关于“在何种棋盘序位下,何种走法序位更优”的概率模型。v(s; φ) 则是学习到的全局“势位”评估器。训练过程(最小化损失函数)就是模型参数 θ, φ 自我调整、不断发现和优化围棋内在“序位关系网络”的过程。MCTS中的探索项 u(s, a) 体现了对学习到的“序位”(策略)的动态利用与探索。
2.5.3 第三范式:基于注意力机制的序列生成
Transformer 是大模型的基础,其核心是自注意力机制。对于输入序列的每个位置 i,其输出是值向量 V 的加权和,权重由查询 Q_i 和所有位置的键 K 的相似度决定:
Attention(Q_i, K, V) = softmax( Q_i K^T / √d_k ) V
通过多头注意力,模型可以从不同子空间联合关注信息。大语言模型的训练目标是极大化序列数据的似然,即自回归预测下一个词:
L(θ) = Σ log P(x_t | x_{<t}; θ)
其中,θ 是Transformer的所有参数,x_{<t} 是历史上下文。在推理时,通过采样或束搜索生成序列。
解读:这正是“智”的涌现得以发生的数学基础。1) 自注意力机制本质是一个全连接的“序位关系发现器”。softmax(Q_i K^T) 计算出的权重,动态地刻画了序列中任意两个“位”(词元)在当前上下文中的语义关联强度,这是一种动态的、内容相关的“序位”建模。2) 自回归训练目标 L(θ) 迫使模型为了准确预测 x_t,必须在其内部构建一个能够压缩整个训练语料中所有词元间统计关联的、极其复杂的“序位关系网络”。模型的千亿参数 θ,就是这个网络的物理载体。3) 生成过程,正是基于已构建的内部“序位关系网络”,进行“同意转换”和创造性延展的过程。
2.6 融智学框架的形式化表达与前沿进展
2.6.1 融智学核心定律的形式化
为了更精确地进行分析,我们将融智学的核心思想形式化。
信息世界的基本单元:可定义为一个信息元组 I = (c, p, m),其中 c 为内容(Content),p 为其在特定结构中的位置(Position),m 为其承载的语义或意义(Meaning)。
序位关系唯一守恒定律:在确定的语境 C 下,对于一组信息单元 {I_i},它们之间存在的所有有意义的逻辑/语义关系集合 R_C 是唯一且完备的。任何正确的推理或表述都必须是 R_C 的一个子集或推论。可表示为:∃! R_C = { r | r is a valid relation among {I_i} under context C }。
同义/同意并列对应转换法则:对于同一语义核心 M,存在一个等价表述集合 E(M) = {S_k},其中每个 S_k 是一个由不同信息单元以特定“序位”排列而成的序列(如句子、公式、图表)。即:Meaning(S_k) ≈ M, for all S_k in E(M)。
解读:形式化表达使我们能精准分析各AI范式。第一范式的评估函数 V(s) 试图用固定公式近似 R_C(棋局关系),但它是残缺且静态的。第二范式的策略网络 π(a|s) 和价值网络 v(s) 是通过学习来逼近 R_C,具备了动态性。第三范式的大模型,其参数 θ 所内化的,本质上是一个跨越无数语境的、巨大的“序位关系”知识库 ∪R_C。而其强大的生成能力,正来源于对 E(M) 的娴熟掌握——能够为给定的语义 M(或隐式意图)生成无数符合语法和语境的序列 S_k。
2.6.2 前沿进展在2024-2025的三向分化图谱
当前前沿可清晰映射到对“序位关系”处理的不同维度上,如图1所示。
图1. 前沿AI进展在“序位”处理上的三向分化
[智的升维:空间智能]
(构建融合物理“能”与信息“智”的统一序位空间)
|
| 世界模型 (如Marble)
|
|
[智的横向普惠:效率优化] <---[核心:“序位”的处理]---> [智的纵向深化:复杂推理]
(降低承载/处理“序位”的成本) (信息世界的核心对象) (掌握高阶、严谨的“序位”链)
| |
| |
开源高效模型 (如DeepSeek) 复杂推理智能体 (如Gemini)
解读:该图谱揭示2024-2025后大模型时代AI发展的战略脉络。纵向深化(Gemini) 旨在攻克 R_C 中那最复杂、最严谨的子集(如数学证明 R_math),要求模型输出必须无限逼近:“序位关系唯一守恒”的理想状态。横向普惠(DeepSeek) 聚焦优化处理和存储 ∪R_C 这个庞大知识库的“能耗”与成本,通过稀疏化、蒸馏等技术,使“智”的载体更轻量化、更易传播。升维拓展(Marble) 是一次范式跃迁的尝试,它不再满足于处理纯信息世界的 R_C,而是要构建一个联合表征空间,其中的“序位关系”必须同时满足信息世界的语义约束和物理世界的时空、力学约束。这可以看作是在尝试建立 R_C_physical 与 R_C_semantic 之间的映射与统一。
3. 融智学分析:范式跃迁中“能”与“智”关系的重构基于第2章的技术梳理,本章运用融智学理论进行深层分析。
3.1 第一范式:“能”对固化“智”的僭越
深蓝的胜利,本质是物理世界之“能”(计算芯片的运算速度与功耗)对信息世界一种特定、固化的“智”(人类国际象棋知识体系)的碾压。人类棋手的“智”体现为对棋盘“序位”动态的直觉与策略性理解,但是这些被简化为一个固定的评估函数。系统本身不具有“序位”发现与“同义/同意”对应转换能力,其成功完全依赖于“能”的规模优势,对固定搜索空间的覆盖。这体现了“能”与“智”的初级结合,但“智”是僵死且外源的。
3.2 第二范式:“智”在交互中自主发现“序位”
AlphaGo的革命性在于,“智”的生成过程发生了转移。它利用“能”运行神经网络,从对弈数据(人类棋谱与自我对弈)中自主探索和发现围棋的“序位”奥秘。价值网络评估的是整体局面的“势位”,策略网络学习的是局部落子的优选“序位”。其通过强化学习,不断优化的过程,正是“序位关系”在其内部参数空间动态演化的过程。它开始具备初步的“同意转换”能力,能识别导致相似胜率结果的不同走法“序位关系”变换。此时,“能”是燃料,“智”是引擎自组织燃烧产生的动力。
3.3 第三范式:“智”作为宏观和微观融会贯通的“序位”结构网络的内化与涌现
大语言模型代表了一种范式跃升。其训练目标(预测下一个词)迫使它必须内化整个训练语料库中蕴含的、跨领域的、宏观和微观融会贯通的“序位”结构网络——从语法规则、事实逻辑到叙事模因。模型的千亿参数,本质上是一个压缩的、动态的“信智序位”宏微贯通的“序位”结构网络。它的强大能力,尤其是流畅的对话、创作、翻译与代码生成,直接源于对“同义/同意并列对应转换法则”的精通。它能够用无数种不同的“序位”(词句排列)表达相同或相似的语义核心即用户的选择用意。此时,“智”不再为特定任务而设,而是作为一种基础性、生成性的元能力涌现出来。“能”的规模(算力、大数据处理能力及其蕴含着融智学所述的“智”=信息处理+选择用意)是触发这种涌现的必要条件。
3.4 前沿分化:“智”的立体化发展
当前的三向分化,是“智”在不同维度上的深化:
纵向(Gemini):追求对更复杂、更严谨的“序位”链(如数学证明、程序逻辑)的理解与构建。这就要求模型逼近“序位关系唯一守恒定律”所描述的理想状态——对确定性问题给出唯一正确的推理路径。
横向(DeepSeek):通过优化“序位”处理的算法效率,降低“能”承载与传播“智”的成本,使“信智序位”理解的成果得以更高效地共享。这是“智”的普及运动。
升维(Marble):尝试为“智”建立一个基于物理约束的“序位”参考系。这是将第一次认知飞跃的“能”与第二次认知飞跃的“智”进行协同建模的首次大规模工程尝试。世界模型若成功,意味着AI的“智”将能理解“苹果在桌上”这一语言“序位”所对应的三维空间“序位”及其蕴含的物理(重力、支撑)含义“序位”约束。
3.5 各范式对“序位关系唯一守恒定律”的逼近程度
第一范式:试图用确定的评估函数 V(s) 直接定义 R_C。其“守恒性”强,因为公式固定;但其“唯一性”和“完备性”极差,因为它仅是 R_C 的一个极其粗略的、带有大量人工偏差的近似子集。它无法发现未知的 R_C 关系。
第二范式:通过神经网络 π(a|s) 和 v(s) 来学习 R_C。其学习的 R_C 比第一范式更丰富、更接近真实。但其“守恒性”体现在训练收敛后的网络参数中,而“完备性”受限于训练数据分布和网络容量。它能发现人类未显式总结的新关系(新定式),即拓展了人类认知的 R_C。
第三范式:通过预训练,模型内化了海量语境下的 ∪R_C。其“完备性”前所未有,涵盖了广阔的知识领域。但其“守恒性”面临挑战:模型在复杂推理中可能产生违背逻辑一致性的输出,即生成一个不属于正确 R_C 的序列。这表明当前模型对深层、复杂 R_C 的掌握仍不牢固,存在“幻觉”。
前沿纵向深化(Gemini):其研究方向正是为了提升对特定复杂领域 R_C(如科学、代码)的“守恒性”与“唯一性”保障,减少幻觉,使输出更可靠地符合 R_C。
3.6 “同义/同意并列对应转换法则”作为能力标尺
该法则的掌握程度是衡量AI“智”的流畅性与通用性的关键标尺。
第一范式:完全不掌握。无法理解不同走法序列可能在战略上等价。
第二范式:初步掌握。价值网络 v(s) 能够对导致相似胜率期望的不同局面(可能由不同走法序列导致)给出相近的评估,这是在结局价值层面上的“同意”识别。
第三范式:核心能力。生成式大模型是 E(M) 的生成大师。给定一个提示(隐含 M),模型能够流畅地生成 S_k ∈ E(M)。翻译、总结、改写等任务都是该法则的直接应用。
前沿升维拓展(Marble):将这一法则的应用范围从纯语言/符号域,扩展到了视觉-空间域。文本描述“一个宁静的林间小屋”(M),可以被转换为多个等价的、符合物理规律的3D场景序列(S_k,即不同的三维模型、纹理、光照方案)。这是在跨模态层面实现“同意转换”。
3.7 从“能-智”公式看计算路径的演化
我们可以用一个简化的公式来概念化地看待各范式的计算本质:
智能表现 = F(算法架构,数据,算力)
其中,F 代表整合方式。
第一范式:F 是硬编码的(搜索+评估)。算力是核心变量,直接线性提升搜索深度 d,从而提升智能。数据(棋谱)仅用于人工调整评估函数。
第二范式:F 是学习得来的(深度网络)。数据(交互经验)和算力(训练资源)共同驱动 F 的优化。算法架构(CNN/MLP)提供基础假设空间。
第三范式:F 是涌现于特定架构中的。Transformer架构(算法)、海量无标注数据、巨大算力三者缺一不可,且存在显著的协同缩放定律。F 的复杂性内化于模型参数 θ 中。
前沿横向普惠(DeepSeek):其工作是在维持 F 能力不变的前提下,极致优化“算力”项的 inference 成本,或优化“数据”项的利用效率(如更高效的训练)。
前沿升维拓展(Marble):其目标是定义和学习的 F,能够同时处理物理属性数据(点云、材质)和语义数据,输出符合两种约束的统一表征。
4. 讨论与展望:走向“能-智”统一的AGI之路融智学视角揭示了AI发展的内在逻辑:从依赖外源“智”,到学习“序位”,再到内化“序位”结构并寻求与物理“能”的融合。4.1未来的核心挑战与方向如下:
挑战:推理的可靠性与世界的“厚重性”。当前大模型在复杂推理上仍会犯错,违背“序位关系唯一守恒”;其对物理世界的理解仍是肤浅的符号关联,缺乏“厚重”的物理实在感。解决前者需要更先进的推理架构与训练范式;解决后者则依赖于世界模型的发展。实际上是等待物理学的质能时空和融智学的信智序位彼此之间必然统一的全域测序定位系统的出现。
方向一:神经符号融合。将符号系统(擅长可解释、确定性推理)与神经网络(擅长感知、泛化)相结合,可能是实现可靠、可解释高阶“智”的有效路径之一。这本质上是将人类显式的逻辑“序位”与模型隐式学习的统计“序位”进行融合。
方向二:人机互助新范式。在融智学看来,人类的优势在于定义价值、提出问题和创造全新的“序位”框架(如科学理论、艺术风格);AI的优势在于在海量“序位”空间中高效搜索、优化和实例化。未来的人机关系应是人类作为“序位”蓝图的设计师与指挥官,AI作为“序位”蓝图的超级执行者与探索者。
终极展望:统一的世界模型。真正强人工智能的最终形态,很可能就是一个能够无缝集成“质能时空”法则与“信智序位”规则的统一世界模型。它既能像物理引擎一样模拟世界的运行,又能像融智学家一样理解其中的意义与目的。这不仅是技术的终极挑战,也是对融智学理论的一次彻底实证。
4.2融智学框架与形式化模型为我们指明了AGI的可能路径:
可靠AGI必须满足“序位关系唯一守恒”:在任意给定领域,AGI的推理与输出必须高度自洽且符合客观逻辑(或物理定律)。当前大模型仍需在“守恒性”上取得突破。
具身AGI必须实现跨模态“同意转换”:真正的具身智能需要在其内部模型中,实现语言指令、视觉感知、运动规划之间的无缝“同意转换”。这正是世界模型要解决的核心问题。
统一理论的方向:未来的统一世界模型,可能追求一个能够将物理定律 L_physical 和信息规则 L_semantic 统一描述的元框架。其学习目标可能是最大化对多模态联合观测数据的预测能力,其内部表征 z 需要同时编码:“在时空位置 (x,y,z,t) 上,出现实体 A 的概率”以及“实体 A 与实体 B 的关系是 r”。这将是对 R_C_physical ∪ R_C_semantic 的联合学习。
参考文献[1] 邹晓辉. 融智学原创文集. 2007第一版,2018第二版.[2] 邹晓辉. 字本位与汉语形式化《字本位理论与应用研究》. 山东教育出版社, 2008.[3] Xiaohui, Zou. The Principles of Rongzhology & Introduction to Smart System Studied. Preprint, 2023.[4] Shannon, C.E. Programming a computer for playing chess. Philosophical Magazine, 1950.[5] Newell, A., et al. Chess-playing programs and the problem of complexity. IBM Journal, 1958.[6] Campbell, M., et al. Deep Blue. Artificial Intelligence, 2002.[7] Dreyfus, H.L. What Computers Still Can't Do. MIT Press, 1992.[8] LeCun, Y., et al. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998.[9] Sutton, R.S., & Barto, A.G. Reinforcement Learning: An Introduction. MIT Press, 1998.[10] Mnih, V., et al. Human-level control through deep reinforcement learning. Nature, 2015.[11] Silver, D., et al. Mastering the game of Go with deep neural networks and tree search. Nature, 2016.[12] Silver, D., et al. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science, 2018.[13] Vaswani, A., et al. Attention is all you need. NeurIPS, 2017.[14] Devlin, J., et al. BERT: Pre-training of deep bidirectional transformers for language understanding. NAACL, 2019.[15] Radford, A., et al. Improving language understanding by generative pre-training. OpenAI Technical Report, 2018.[16] Brown, T., et al. Language models are few-shot learners. NeurIPS, 2020.[17] Gemini Team, Google. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. Google Technical Report, 2024.[18] Gemini Team, Google. Gemini 2.0: Next-generation multimodal and reasoning capabilities. Google Technical Report, 2025.[19] DeepSeek-AI. DeepSeek-V3: Scaling Mixture-of-Experts to 10 Trillion Parameters. arXiv preprint arXiv:2406.11884, 2024.[20] World Labs. Marble: A Foundational World Model for 3D Simulation and Content Creation. Technical Report, 2025.[21] LeCun, Y. A Path Towards Autonomous Machine Intelligence. 2022.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-1-8 07:07
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社