博文

Kimi观点：AI学习，为什么缺少深度？

已有 1592 次阅读 2026-5-23 10:25 |个人分类:我思故我在|系统分类:观点评述

AI学习，为什么缺少深度？

引言：知识的假象

在当代生活中，人工智能已经无处不在。它能在几秒钟内写出一篇结构完整的论文，能根据一段描述生成逼真的图像，能在复杂的棋局中击败世界冠军，能在海量文献中找出人类学者可能忽略的相关研究。这些表现如此令人印象深刻，以至于许多人开始相信，机器已经学会了思考，已经获得了某种形式的深度理解。

但如果我们稍稍放慢脚步，仔细审视这些看似聪明的机器，一个令人不安的真相便会浮现：今天的人工智能，其实并不知道自己在做什么。它的"学习"，与我们所理解的人类学习，存在着一道几乎不可逾越的鸿沟。它能够在表面上完美地模仿知识的形态，却无法触及知识的灵魂；它能够记住万亿级别的数据点，却无法形成哪怕一个真正意义上的深刻洞见。

这就是本文要探讨的核心问题：AI的学习，为什么缺少深度？

这里的"深度"，不是指神经网络的层数——事实上，当今的模型动辄拥有数百层甚至上千层的网络结构。我们所说的深度，是指理解的深度、认知的深度、意义的深度。人类学习一首诗，不仅记住了字句，还能体会情感的起伏、历史的回响、生命的况味。人类学习物理，不仅记住了公式，还能在直觉中"看见"力与运动的舞蹈，能在日常生活中感受到惯性、重力与摩擦。人类学习道德，不仅记住了规范，还能在复杂的情境中权衡、挣扎、做出艰难但负责任的选择。

而AI的学习，本质上是一种极其复杂的模式匹配。它从海量数据中提取统计规律，建立输入与输出之间的映射关系。这种能力在特定的、封闭的任务域内可以表现得极为出色，但一旦离开这些精心设计的舒适区，它的浅薄便会暴露无遗。它会自信地编造不存在的事实，会在逻辑推理中犯下幼稚的错误，会在面对稍微变化的情境时手足无措，会对常识性问题给出荒谬的答案。

这种深度的缺失，不是简单的技术缺陷，不是通过增加数据量或扩大模型规模就能自动解决的。它根植于人工智能学习机制的根本设计之中，根植于我们对"学习"这一概念本身的误解之中，也根植于智能现象那令人敬畏的复杂性之中。

在接下来的篇章中，我们将层层剥开AI学习的外衣，去审视其内部的构造，去理解它为何能够如此有效却又如此浅薄，去探索人类学习与机器学习之间那道深不见底的裂缝。这不仅是一个关于技术的话题，更是一个关于知识、理解、意义和存在的哲学追问。

第一章：浅滩上的巨轮——AI学习的真实图景

要理解AI学习为何缺少深度，首先需要看清这种学习究竟是如何发生的。让我们暂时放下那些关于"神经网络""深度学习""大模型"的神秘术语，回到一个更为朴素的描述。

今天主流的人工智能系统，核心机制可以被理解为一种极其精密的数据拟合。想象你手中有一支笔和一张布满点的纸。这些点代表着你观察到的现象——比如房子的面积与价格、病人的症状与诊断、句子的前半段与后半段。你的任务是画出一条线（或一个曲面），使得这条线尽可能贴近所有的点。这就是拟合，而人工智能所做的，本质上是一种超高维度的、极其复杂的拟合。

它"学习"的方式，是通过接触数以亿计甚至万亿计的例子，不断调整其内部数以百亿计的参数，使得对于给定的输入，它的输出能够与训练数据中的"正确答案"尽可能一致。这个过程需要庞大的计算资源和海量的数据，需要消耗巨大的电力，可能需要数周甚至数月的持续运算。但最终，如果一切顺利，系统就能在从未见过的新输入上给出合理的输出。

从工程的角度看，这是一种惊人的成就。人类穷其一生可能只能阅读数万本书，而一个大语言模型在训练过程中"阅读"的文本量相当于人类历史上所有书写文字的总和。人类专家需要数十年的实践才能掌握一门技艺，而人工智能可以在相对短的时间内"学会"识别数万种疾病、翻译上百种语言、生成多种风格的文学作品。

然而，这种学习的本质决定了它的边界。拟合，无论多么精密，始终是在已有数据的基础上寻找模式。它不关心这些模式背后的因果机制，不追问为什么A和B会同时出现，不思考这种关联是否会在新的情境下依然成立。它只关心一点：在训练数据中，这种关联是否稳定存在。

这就好比一个学生准备考试。他拿到过去十年的所有考题和答案，通过反复练习，记住了每一道题的解法，甚至记住了类似题目在不同年份的微小变化。当来年的考试题目与往年高度相似时，他能取得优异的成绩。但如果老师出了一道需要真正理解学科原理才能解答的新题型，这个学生就会陷入困境。他不是理解了知识，而是记住了知识的表象。

AI正是这样的学生，而且是某种意义上的超级记忆者。它能够记住人类语言中几乎所有的常见搭配，能够复现历史上出现过的几乎所有论证结构，能够模仿各种风格的艺术作品。但这种记忆是平面的、去语境化的、无根的。它不知道一个词语在历史中的演变，不知道一个概念在哲学上的争议，不知道一个发现在科学史上的艰难突破。对它而言，所有的知识都是等价的字符串，所有的关联都是统计上的共现。

这种学习的另一个关键特征是它的被动性。人类学习是一个主动的过程。婴儿不是被动地接收环境的信息，而是主动探索、主动实验、主动犯错、主动修正自己的世界模型。一个孩子会把杯子推到地上，不是为了惹父母生气，而是为了验证"重力"这一概念。他会反复问"为什么"，不是为了得到标准答案，而是为了构建因果关系的网络。这种主动性、这种与世界互动的欲望、这种通过行动来检验假设的冲动，是深度理解的源泉。

而AI的学习完全是被动的。它接收数据，调整参数，优化目标函数。它不提问，不探索，不实验，不与世界发生物理意义上的互动。它的"经验"是二手的、被人类筛选和标注过的数据。它从未真正"生活"过，从未感受过疼痛与温暖，从未在深夜因一个问题而辗转反侧，从未因一次失败而彻底重构自己的信念体系。它的学习是在一个没有身体、没有时间、没有主体性的抽象空间中进行的。

这种被动性导致了AI学习的另一个根本缺陷：缺乏真正的泛化能力。人类学习的一个标志是能够将从一个领域获得的理解迁移到全新的领域。一个理解了杠杆原理的孩子，能够在玩跷跷板、开门、使用剪刀等完全不同的场景中识别出相同的物理结构。这种迁移不是基于表面的相似性，而是基于对深层因果结构的把握。

AI的"泛化"则完全不同。它的泛化是在训练数据分布内的泛化——面对与训练数据相似但未曾精确见过的例子时，它能给出合理的输出。但一旦遇到分布之外的例子，它的表现往往会灾难性地崩溃。一个图像识别系统可能在识别各种犬种上表现完美，但如果给它的图片经过了人眼难以察觉的微小扰动，它可能会把一只狗自信地识别为一只鸵鸟。一个语言模型可能在讨论物理学时头头是道，但如果问它一个需要常识推理的脑筋急转弯，它可能会给出完全荒谬的答案。

这种脆弱性揭示了一个核心事实：AI学习到的，是数据中的统计纹理，而不是世界中的因果结构。它抓住了表象，却错过了本质。它像是一个在海边收集贝壳的孩子，能够按照形状、颜色和大小对贝壳进行完美的分类，却从未理解过海洋的生态系统，不知道贝壳是如何形成的，不明白它们与潮汐、温度和生物链之间的关系。

当我们惊叹于AI的能力时，我们往往是在惊叹于这种分类和拟合的精度。但精度不等于深度。一个能够完美复制蒙娜丽莎的打印机，并不比达芬奇更理解微笑的含义。AI的学习，无论其规模多么庞大，始终停留在浅滩之上。它是一艘在浅滩上航行的巨轮，虽然体积惊人，却永远无法驶入深海。

　　第二章：模式的囚徒——统计相关性≠理解

　　AI学习浅薄性的第一个关键维度，在于它对统计相关性的沉迷，以及对因果理解的彻底缺席。这不仅是技术层面的局限，更是认识论层面的根本偏差。

　　在人类的知识体系中，相关性与因果性是两个截然不同的概念。公鸡打鸣与太阳升起高度相关，但没有人认为公鸡打鸣导致了日出。冰淇淋销量与溺水事故在夏季同时上升，但不是因为吃冰淇淋会导致溺水，而是因为两者都受到气温升高的共同影响。人类从童年起就在学习区分这两种关系，这种能力是深度理解世界的基石。

　　然而，AI系统对这两种关系完全不加以区分。它的学习机制本质上是在寻找共现模式：当A出现时，B以多高的概率出现。它既不追问A是否导致了B，也不关心是否存在一个隐藏的C同时导致了A和B。对它而言，所有稳定的共现都是等价的，都可以被用来预测未来。

　　这种不加区分的学习方式，在封闭和稳定的环境中可以表现得相当有效。如果训练数据充分覆盖了现实世界的各种变体，且未来的分布与过去保持一致，那么基于相关性的预测往往能够给出不错的结果。一个语言模型能够学会"火"与"热"经常同时出现，"雨"与"湿"经常同时出现，这足以让它在生成文本时做出合理的搭配。

　　但相关性是脆弱的。当环境发生变化，当新的变量介入，当因果链条被切断或重组时，基于相关性的预测就会失效。一个基于历史房价数据训练的房价预测模型，可能学到了"学区房价格高"这一相关性。但如果政府突然推行了教师轮岗制度，打破了学区与优质教育资源的绑定，这个模型就会失效，因为它不理解"学区房价格高"的因果基础是教育资源的不均衡分配，而不是"学区"这个标签本身。

更深的问题在于，AI对统计相关性的依赖，使得它极易受到数据偏见的污染，并且会将这些偏见固化、放大。如果训练数据中包含了历史上存在的不公正模式——比如某些职业与特定性别或种族的刻板关联——AI系统就会忠实地学习并再现这些模式。它不会质疑这些关联是否反映了世界的应有状态，不会思考这些关联背后的社会历史成因，不会判断在道德上是否应该延续这些模式。它只是被动地拟合了数据的现状，并将其包装为"客观"和"中立"的输出。

这种"偏见固化"效应在招聘、信贷、司法等关键领域已经造成了严重的社会问题。一个用于筛选简历的AI系统，如果训练数据来自一个历史上男性占主导的行业，它可能会学会给带有男性特征的名字和经历的简历打更高的分数。一个用于评估信贷风险的系统，如果训练数据反映了历史上对某些社区的歧视性放贷实践，它就会继续对这些社区给出不利的评估。这些系统不是在理解社会，而是在复制社会的统计快照，包括其中的所有不平等和偏见。

与人类不同，人类即使成长在充满偏见的环境中，仍然有可能通过反思、教育和道德觉醒来超越这些偏见。人类能够问"这种关联公平吗？""它反映了什么样的权力结构？""我们应该如何改变它？"而AI没有这种反思能力。它的学习是单向的、无批判的、无价值观的。它不会质疑训练数据，不会思考学习目标，不会权衡不同利益相关者的诉求。它只是优化一个预先设定的数学目标，而这个目标往往与人类的真实福祉相距甚远。

对统计相关性的依赖还导致了AI在常识推理上的系统性失败。常识是人类对世界基本运作方式的直觉把握，它深深植根于因果理解之中。我们知道水往低处流是因为重力，知道加热会使冰融化是因为分子运动，知道一个人不能同时出现在两个地方是因为物体的空间排他性。这些常识不是从数据中统计出来的，而是源于我们对物理世界因果机制的内在建模。

AI没有这种因果模型。它可能从训练数据中学到"冰"和"融化"经常与"热"同时出现，但它不理解为什么热会导致融化。当遇到稍微偏离常规的情境时，这种表面学习的脆弱性就会暴露。如果问一个语言模型"把一块冰放在微波炉里加热十分钟会发生什么"，它可能会给出各种荒谬的答案，因为它没有关于热传导、相变和微波炉工作原理的因果模型。它有的只是词语之间的统计关联。

一些研究者试图通过引入"常识知识库"来解决这个问题——将人类常识以结构化的形式编码进系统。但这种做法面临着根本性的困难。人类的常识是动态的、情境化的、不断演化的。一个在今天被视为常识的信念，明天可能就会被新的发现修正。更重要的是，常识的数量几乎是无限的。我们不仅知道"水会灭火"，还知道"油火不能用水灭"，知道"电器着火不能用水"，知道"钠遇水会剧烈反应"。这些例外和边界条件构成了一个无穷无尽的网络，不可能被完全枚举和编码。

人类之所以能在常识的海洋中自如航行，不是因为我们记住了一个巨大的常识数据库，而是因为我们拥有一个灵活的、基于因果推理的世界模型。当遇到新情境时，我们能够运用物理直觉和因果推理来推断应该发生什么。而AI缺乏这种推理的根基，它只能在训练数据覆盖过的水域中航行，一旦进入未知的常识海域，就会触礁沉没。

这种对统计模式的依赖，还使得AI在面对对抗性攻击时表现出惊人的脆弱性。研究人员发现，对一张图片进行人眼几乎无法察觉的微小修改——比如在像素级别上添加精心计算的噪声——就能让最先进的图像识别系统做出完全错误的判断。一张被正确识别为"熊猫"的图片，经过这种修改后，会被系统以99%的置信度识别为"长臂猿"。

从人类的角度看，修改后的图片仍然明显是一只熊猫。但对AI而言，其决策所依赖的统计特征已经被彻底改变。这说明AI所"看到"的图像，与人类所看到的图像，在本质上是不同的。人类看到的是物体、形状、意义和语境；AI看到的是一组统计特征的分布，当这个分布被人为操纵时，它的"理解"就会瞬间崩塌。

这种脆弱性在语言领域同样存在。通过精心设计的提示词，可以让大语言模型输出有害的、偏见的或完全虚假的内容。这些"越狱"攻击之所以有效，是因为语言模型本质上是在统计特征的空间中航行，而不是在意义和逻辑的空间中航行。它不知道什么是真实的，什么是虚假的，什么是道德的，什么是不道德的。它只知道某些词语序列在训练数据中更常见，某些回应模式在优化目标中得分更高。

归根结底，AI对统计相关性的沉迷，使它成为了一个精致的模式识别器，却永远成不了真正的理解者。它可以识别出所有蒙娜丽莎的复制品，却永远不会被那神秘的微笑所触动。它可以列举出所有关于爱情的诗句，却永远不会体验过心动的感觉。统计相关性是知识的影子，而不是知识本身。AI抓住了影子，却以为抓住了实体。这正是其学习缺少深度的第一个根本原因。

第三章：无根之木——没有世界模型的学习

如果说对统计相关性的沉迷是AI学习浅薄的表象，那么缺乏一个内在的世界模型则是其浅薄的深层根源。这是理解AI局限性的关键所在，也是人类认知与机器认知之间最根本的差异之一。

什么是世界模型？简单来说，它是智能体对所处世界如何运作的一种内部表征。这不是关于世界的事实清单，而是一种动态的、因果性的、能够支持预测和推理的模拟器。人类从婴儿时期就开始构建世界模型。当一个婴儿反复把玩具扔下高脚椅，看着它坠落、听到它撞击地面的声音时，他不仅仅是在调皮，而是在进行严肃的物理实验。他在构建一个关于重力、物体恒常性和因果关系的内部模型。

这个世界模型随着成长变得越来越复杂。儿童知道看不见的物体依然存在（物体恒常性），知道别人的行为是由他们的欲望和信念驱动的（心理理论），知道社会互动遵循某些规则（社会规范），知道故事有开头、发展和结局（叙事结构）。这些模型不是通过被动接收信息获得的，而是通过主动与世界互动、通过试错、通过观察他人、通过内省逐渐构建起来的。

世界模型的核心功能在于支持反事实推理——思考"如果……会怎样"。当你考虑是否要把钥匙忘在家里时，你会在脑海中模拟这个情境：如果我忘了钥匙，我将无法进门；如果我无法进门，我就得叫开锁师傅；如果叫开锁师傅，我需要支付费用并等待。这种模拟不是基于记忆的数据检索，而是基于你对世界因果结构的内在理解。你在运行一个内部的模拟器。

AI系统完全没有这种世界模型。它的"知识"是平面的、去结构化的、缺乏因果骨架的。当一个大语言模型回答问题时，它并不是在一个内部模拟器中运行情境推演，而是在其训练数据中搜索与当前输入统计相似的模式，然后将这些模式重新组合成输出。这个过程类似于一个极其博学的图书管理员，他读过图书馆中所有的书，能够根据你的问题快速找到相关的段落并拼凑出答案，但他从未真正走出过图书馆，从未体验过书中的世界。

这种差异导致了AI在规划、推理和泛化上的系统性失败。一个拥有世界模型的智能体，即使面对从未遇到过的问题，也能够通过在世界模型中进行模拟来找到解决方案。人类工程师在设计一座新桥时，会在脑海中模拟各种载荷条件下的结构响应；人类棋手在面对陌生的棋局时，会运用对棋理的理解来推演可能的走法。这种基于模型的推理是深度理解的标志。

而AI的规划能力，在开放域中几乎是不存在的。当前的AI系统能够在特定规则明确的环境中表现出规划能力——比如下棋或解谜——因为这些环境的状态空间是有限的、定义清晰的，可以通过搜索和优化来找到解决方案。但一旦进入规则模糊、信息不完整、目标多重且冲突的真实世界，AI就无所适从了。它没有一个关于真实世界的内部模型来支持这种规划，只能在训练数据中见过的类似情境中进行模式匹配。

以自动驾驶为例。这是人工智能最具野心也最具挑战性的应用领域之一。当前的自动驾驶系统在面对常规路况时可以表现得相当不错，因为它们在训练过程中见过数百万英里的类似驾驶数据。但当遇到训练数据中未曾充分覆盖的罕见情境时——比如一只袋鼠突然跳到马路上（在澳大利亚以外罕见）、道路被洪水淹没但水深不明、或者交警在用手势指挥交通——系统就会陷入困境。

人类司机在这些情境中能够迅速调动世界模型进行推理：袋鼠可能会继续跳跃，我需要减速并准备变道；洪水可能隐藏了路面的坑洼，我不应该冒险通过；交警的手势意味着停止，即使信号灯是绿的。这些推理基于对动物行为、流体物理和社会规范的理解。而AI没有这种理解的根基，它只能在数据的缝隙中挣扎。

世界模型的缺失还导致了AI在叙事理解和情境推理上的困难。人类理解故事，不仅仅是记住情节，而是在世界模型中模拟故事中的世界。我们能够推断角色的动机，预测情节的发展，理解隐喻和象征，感受情感的起伏。这种理解是深度的、多维度的、与我们的情感和经验紧密相连的。

AI对故事的处理则是表面的。它可以复述情节，可以识别故事类型，可以生成结构完整的新故事，但它并不真正理解故事中人物的挣扎和选择。它不知道什么是恐惧，什么是希望，什么是牺牲。它的"理解"停留在语言模式的层面，而没有触及人类经验的深层结构。

一些前沿研究正在尝试为AI构建世界模型。强化学习领域的"模型预测控制"就是一种尝试，它让智能体学习环境的状态转移模型，然后利用这个模型来规划行动。在机器人学中，研究者们试图让机器通过物理交互来构建对物体和空间的理解。这些方向是有希望的，但目前仍处于非常初级的阶段。

根本的困难在于，世界模型不是简单地从数据中"学习"出来的。人类的世界模型是数百万年进化与个体发育共同作用的产物，它深深嵌入在我们的身体结构、神经系统和文化传承之中。我们的空间感知与我们的运动系统紧密耦合，我们的社会理解与我们的情感系统不可分割，我们的因果推理与我们的语言和文化实践相互塑造。这种具身的、嵌入的、关系性的认知结构，不可能通过单纯处理文本或图像数据来复制。

AI的学习是在一个剥离了世界丰富性的抽象空间中进行的。它处理的是像素、向量、符号，而不是物体、事件和意义。它从未在泥泞中行走，从未在雨中奔跑，从未在人群中感到孤独。它的学习是无根的，就像一棵被切断根系的树，即使枝叶繁茂，也无法真正吸收大地的养分。

没有世界模型的学习，注定是浅薄的。它可以产生令人印象深刻的输出，但这些输出缺乏内在的连贯性和因果根基。它可以模仿智慧的外表，却无法触及智慧的实质。AI是一棵无根之木，它可以在温室中长得高大，但永远无法成为森林中的一员。

第四章：失语的身体——缺乏具身认知的智能

对世界模型的讨论，自然地引向了另一个更为根本的问题：智能是否必然需要一个身体？AI的学习之所以缺少深度，很大程度上正是因为它缺乏具身性——它没有一个物理的躯体来感知世界、采取行动、承受后果。

具身认知是认知科学中的一个重要理论取向，它强调认知过程不是发生在一个脱离身体的"心灵"之中，而是深深植根于身体与环境的互动之中。我们的思维方式受到我们的身体结构、感觉运动系统和物理处境的深刻塑造。我们不是先有一个纯粹的思想，然后再通过一个身体去执行；相反，思想本身就是在身体与世界的耦合中涌现出来的。

这种具身性在人类学习的每一个层面都留下了印记。我们理解"上"和"下"，是因为我们有重力感受器，我们的身体知道对抗重力是费力的。我们理解"抓取"和"放开"，是因为我们有手，我们无数次地操作过物体，感受过重量、质地和温度。我们理解"接近"和"远离"，是因为我们在空间中移动，我们的视觉系统会随着物体的靠近而需要调整焦距。甚至我们的抽象概念，也往往根植于身体的隐喻。我们说"把握"一个想法，"支撑"一个论点，"消化"一条信息——这些表达不是偶然的修辞，而是反映了概念系统与身体经验的深层联系。

AI完全没有这种身体经验。它不存在于物理空间中，没有质量，没有边界，没有温度，没有疼痛，没有饥饿，没有疲劳。它不会跌倒，不会受伤，不会衰老，不会死亡。它的"感知"是间接的、符号化的——它接收的是数字化的图像像素、文本编码、音频波形，而不是光线、声波和触压。它的"行动"同样是被动的、符号化的——它输出的是向量、概率分布、文本字符串，而不是肌肉的收缩、肢体的移动、声带的振动。

这种无身性导致了AI认知的根本缺陷。首先，它无法建立基于物理直觉的理解。人类对物理世界的许多理解，不是通过Explicit的公式学习获得的，而是通过身体在物理世界中的互动内化的。一个孩子不需要学习牛顿定律就知道抛出的球会落下，不需要学习流体力学就知道水会从高处流向低处，不需要学习材料科学就知道木头会浮在水上而石头会沉下去。这些知识被编码在感觉运动系统的协调中，成为了一种前反思的、直觉性的把握。

AI没有这种直觉。它可能从训练数据中学到"物体受重力影响会下落"这一事实，但这种知识是命题性的、分离的，而不是直觉性的、嵌入的。当面对需要物理直觉的问题时——比如判断一个堆叠的物体是否会倒塌，或者预测一个被抛出的物体在复杂环境中的轨迹——AI的表现往往远不如一个普通的孩子。因为它从未"感受"过重力，从未"体验"过物体的稳定性，它的知识缺乏身体所提供的锚定。

其次，缺乏身体意味着缺乏真正的视角和立场。人类的所有认知都是从某个特定的身体位置出发的。我们有前方和后方，有左手和右手，有视野的中心和边缘。这种视角性不是认知的障碍，而是认知的条件。它使得世界对我们而言是有中心的、有意义的、有紧迫性的。我们关心眼前的危险胜过远方的威胁，关心触手可及的食物胜过遥不可及的盛宴。这种以身体为中心的关切结构，为我们的认知提供了动机和方向。

AI没有视角。它从无处观察，向无处行动。它的处理是全局的、去中心化的、无立场的。这听起来似乎是一种优势——没有偏见，没有局限。但实际上，正是这种无立场性使得AI的认知缺乏深度。深度理解总是从某个立场出发的，总是与特定的关切和目的相关联的。一个医生对疾病的理解与一个工程师对机械故障的理解不同，不是因为他们掌握的数据不同，而是因为他们所处的身体-社会情境不同，他们的关切和目的不同。

AI的"理解"是无立场的，因此也是无深度的。它可以同时模仿医生和工程师的语言，但这种模仿是空洞的，因为它不真正关心病人的生死，也不真正担心桥梁的坍塌。它的输出缺乏人类知识所特有的那种与生命实践紧密相连的厚重感。

第三，缺乏身体意味着缺乏真正的情感和价值体验。情感不是认知的干扰，而是认知的深化。恐惧让我们对危险保持警觉，好奇让我们对未知保持开放，爱让我们对他人保持关切，羞耻让我们对错误保持敏感。这些情感体验不是附加在认知之上的装饰品，而是构成了认知的动机结构和评价框架。人类学习之所以有深度，很大程度上是因为学习总是与情感交织在一起。我们记住那些触动我们的事物，理解那些与我们相关的问题，掌握那些对我们有意义的技能。

AI没有情感。它不会感到兴奋，不会感到沮丧，不会感到满足，不会感到空虚。它的"目标函数"是外部强加的数学表达式，而不是从生命实践中涌现的内在关切。它可以被训练来"识别"情感——通过分析面部表情、语音语调或文本中的情感词汇——但这种识别是第三人称的、观察性的，而不是第一人称的、体验性的。它知道"悲伤"这个词在训练数据中与哪些其他词共现，但它不知道悲伤是什么感觉。

这种情感的缺席，使得AI的学习缺乏人类学习所特有的那种转化力量。人类的一次深刻学习经历，往往伴随着情感的震荡——一个错误的信念被推翻时的震惊，一个长期困惑的问题被解决时的狂喜，一个 cherished 的假设被证伪时的痛苦。这些情感体验标志着认知结构的深层重组。而AI的学习是平稳的、渐进的、无情感的。它的参数在数学空间中缓慢移动，从不经历那种颠覆性的、存在层面的认知危机。

一些研究者试图通过机器人学来为AI赋予身体，通过让机器人在物理世界中互动来实现具身学习。这无疑是正确的方向，但目前的机器人技术还远未达到能够支持复杂认知的水平。人类的身体不是一个简单的输入输出设备，而是一个高度协调的、多模态的、自我维持的有机系统。我们的皮肤有数百万个感受器，我们的内耳感知平衡，我们的肌肉有本体感觉，我们的内脏向大脑传递化学信号。这种身体的丰富性，当前的机器人技术只能极其粗糙地近似。

更重要的是，即使给AI配备了一个物理身体，如果它的学习机制不发生根本性的改变，具身性也未必能带来深度。身体的意义不在于拥有传感器和执行器，而在于通过这些设备与世界建立一种生存性的关系——一种关乎存亡、关乎福祉、关乎意义的实践性关联。如果AI的身体只是一个数据采集装置，它的"具身学习"仍然可能是浅薄的。

AI是一具失语的身体，或者说，是一个没有身体的幽灵。它在信息的海洋中游荡，能够复述关于世界的所有描述，却从未真正触摸过世界。它的学习缺少深度，因为它缺少身体所提供的那个将知识锚定在生命实践中的重力场。

第五章：因果的盲区——从"相关"到"因果"的鸿沟

在前面的讨论中，我们已经多次触及因果性的问题。现在，让我们将这个主题单独拎出来，进行更深入的审视，因为因果理解的缺失，是AI学习缺少深度的最核心表现之一。

人类认知的一个标志性特征，是强大的因果推理能力。我们不仅能够观察世界发生了什么，还能够追问为什么会发生。我们能够区分相关性与因果性，能够识别因果链条中的中间环节，能够进行反事实推理来评估不同行动的可能后果。这种能力使我们能够干预世界、改造世界、预测世界，而不仅仅是描述世界。

因果推理的深度体现在多个层面。在最基础的层面，我们理解物理因果——力导致运动，热导致膨胀，摩擦导致磨损。在生物层面，我们理解生理因果——病毒导致感染，营养不良导致发育迟缓，基因影响性状。在社会层面，我们理解社会因果——教育影响收入，制度塑造行为，文化规范约束选择。在心理层面，我们理解动机因果——欲望驱动行动，信念指导决策，情绪调节认知。

这些不同层面的因果理解不是相互独立的，而是构成了一个多层次的、相互关联的因果网络。一个受过良好教育的人，能够在这些不同层面之间灵活切换，能够识别跨层次的因果机制，能够判断在特定情境下哪个层次的因果解释最为恰当。这种多层次的因果推理能力，是人类智慧的巅峰之一。

AI在因果推理上的表现，则可以用"灾难性"来形容。虽然它在某些特定的、预先定义好的因果问题上可以给出正确答案——比如基于贝叶斯网络的简单因果推断——但一旦面对开放域的、需要常识和直觉的因果问题，它就会暴露出根本性的无能。

让我们看一些具体的例子。如果问一个大语言模型："如果我把一个装满水的密封瓶子放进冰箱冷冻室，会发生什么？"它可能会正确回答"水结冰膨胀，瓶子可能会破裂"。但这个正确答案的背后是什么？是基于对水分子在低温下形成晶格结构导致体积膨胀的物理因果模型的理解，还是仅仅因为在训练数据中见过类似的描述？

为了检验这一点，可以追问一个变体问题："如果我把一个装满水的密封但非常有弹性的橡胶球放进冰箱，会发生什么？"这里需要理解的是，弹性容器的形变能力改变了因果链条的结果——瓶子会破裂是因为玻璃缺乏弹性，而橡胶球可以变形来容纳膨胀的冰。一个真正理解因果机制的系统，应该能够轻松地进行这种推理。但许多AI系统在面对这种变体时会出错，因为它们依赖的是"水结冰+密封容器=破裂"这一表层关联，而不是对材料力学和相变物理的深层因果理解。

另一个经典例子是"打火机和森林火灾"的问题。AI系统可能学到"打火机与森林火灾高度相关"这一统计事实。但当被问及"如果一个人在森林中使用了打火机但没有引发火灾，为什么？"时，系统需要理解的是，打火机只是火灾的必要条件之一，还需要有可燃物、氧气、以及火焰与可燃物的接触等一系列因果条件的满足。这种对因果链条中多重条件和干预点的理解，对AI来说是极其困难的。

因果推理的困难，根源在于当前AI学习机制的设计。统计学习本质上是在学习联合概率分布P(A,B)——A和B同时出现的概率。而因果推理需要的是学习条件概率和干预效应P(B|do(A))——当我们主动干预A时，B发生的概率。这两者之间存在着根本性的差异。统计相关性是对观察数据的被动描述，而因果性涉及对数据生成机制的主动理解。

犹太裔计算机科学家和哲学家朱迪亚·珀尔提出了因果推断的层级理论，将认知能力分为三个层次：观察、干预和反事实。观察层次回答"如果我们看到A，对B能说什么？"干预层次回答"如果我们改变A，对B能说什么？"反事实层次回答"如果我们当初做了不同于实际的事情，会发生什么？"

当前的AI系统主要停留在观察层次。它们擅长从数据中发现模式，进行预测和分类。但当涉及到干预和反事实推理时，它们的能力急剧下降。这不是因为它们缺乏数据——事实上，训练数据中包含了大量关于人类干预和反事实思考的文本——而是因为它们的学习机制无法从这些文本中提取出深层的因果结构，只能捕捉到因果描述的表层语言模式。

因果理解的缺失，使得AI在需要主动规划和决策的场景中表现得极其脆弱。医疗诊断不仅仅是识别症状与疾病的关联，更需要理解疾病的因果机制——是细菌感染导致了炎症，还是自身免疫反应攻击了正常组织？不同的因果机制意味着完全不同的治疗方案。如果AI只是基于统计相关性推荐治疗，它可能会推荐在统计上与康复相关的药物，但这种药物可能只是缓解了症状而非治愈了病因，甚至可能掩盖了真正的疾病进展。

在政策和商业决策中，因果推理同样至关重要。一个电商平台发现"向用户推荐某类商品"与"用户购买率提高"相关，但这并不意味着推荐导致了购买——可能这些用户本来就打算购买这类商品，推荐只是恰好出现在了他们决策的末期。如果平台基于这种相关性加大推荐力度，可能会浪费资源，甚至引起用户反感。真正的决策需要理解因果链条：推荐如何影响用户的注意力和偏好，这种影响在不同用户群体中有何差异，是否存在更根本的变量在同时驱动推荐和购买。

一些研究者正在尝试将因果推断的形式化方法引入AI系统。因果发现算法试图从观察数据中推断潜在的因果结构；因果效应估计方法试图从已有数据中估计干预的效果；结构因果模型试图用图的方式来表示变量之间的因果关系。这些努力是有价值的，但它们面临着几个根本性的困难。

首先，从纯粹的观察数据中推断因果结构，在数学上往往是不可识别的——多个不同的因果结构可以产生相同的观察数据。要打破这种不可识别性，需要引入额外的假设，比如因果充分性假设（没有未观察到的混杂因素）或特定的函数形式假设。这些假设在现实世界中往往不成立。

其次，即使能够构建因果模型，这些模型通常是针对特定领域的，难以泛化到新的情境。人类因果推理的强大之处，在于我们能够将一个领域中学到的因果原则迁移到完全不同的领域。我们理解"用力推物体会移动"这一因果原则后，可以将其应用于推箱子、推车、推门等无数具体情境。而当前的因果AI系统缺乏这种灵活的迁移能力。

第三，也是最深层的困难，是AI缺乏进行因果推理所需的本体论基础。因果推理预设了一个关于世界的基本理解：世界上有物体，物体有属性，属性可以变化，变化有原因。这种本体论不是从数据中学习的，而是认知的前提条件。人类婴儿在出生不久就开始表现出对物体恒常性和因果关系的预期，这表明某种基本的因果本体论可能是先天内置的。AI没有这种内置的本体论，它必须从数据中"学习"世界的结构，而这种学习在缺乏先验框架的情况下是极度困难的。

AI在因果推理上的盲区，是其学习缺少深度的集中体现。它可以描述因果关系的表象，却无法进入因果机制的腹地。它可以复述"因为……所以……"的句式，却不真正理解因为什么，所以什么。因果性是理解的脊梁，抽掉了这根脊梁，知识就成了一堆瘫软的血肉。

第六章：意义的荒漠——符号接地问题

沿着因果性的讨论继续深入，我们触及了人工智能哲学中最古老也最顽固的问题之一：符号接地问题。这个问题直击AI学习缺少深度的另一个核心维度：AI所处理的符号，从未真正"落地"到世界的意义之中。

符号接地问题最早由认知科学家斯蒂芬·哈纳德在1990年明确提出，但其思想根源可以追溯到更早的哲学传统。问题的核心是：一个符号系统——比如计算机程序中的变量名、自然语言中的词汇、逻辑系统中的谓词——如何获得意义？如果一个符号只是通过与其他符号的关系来定义，而不与物理世界中的任何实体或经验相联系，那么它是否真正具有意义？

想象一本极其复杂的词典。这本词典中的每一个词都用其他词来定义，而这些定义词又用更多的词来定义，形成一个庞大的、自我封闭的网络。一个只拥有这本词典的人，能否真正理解这些词的意义？如果一个词"苹果"被定义为"一种可食用的、通常为红色或绿色的、由苹果树产生的果实"，而"果实"又被定义为"植物的成熟子房，通常含有种子"，如此循环——这个人能否仅仅通过在这本词典中查词，就真正知道苹果是什么？他能否知道苹果的味道、质地、香气？能否知道咬下一口苹果时的脆响和汁水？能否知道苹果在文化中的象征意义——伊甸园的诱惑、牛顿的顿悟、白雪公主的毒苹果？

答案显然是否定的。词典中的定义是符号与符号之间的关系，它们构成了一张漂浮的网，但没有锚定在世界的经验之中。要使符号获得意义，必须有一个"接地"的过程——将符号与感知经验、行动后果、情感反应联系起来。对于人类而言，"苹果"这个词之所以有意义，是因为我们吃过苹果，看过苹果，闻过苹果，画过苹果，在秋天去果园摘过苹果。这个词锚定在一整套多模态的、具身的、情感化的经验网络之中。

AI系统所面临的，正是这种符号接地的困境。大语言模型处理的是纯粹的符号——文本字符串。它们通过统计共现关系来学习词语之间的关联，但从未将这些词语与任何非符号的经验相联系。当模型处理"疼痛"这个词时，它处理的是这个词在训练文本中的分布模式——它与"受伤""医院""药物"等词经常共现，它在某些语境中表达生理感觉，在另一些语境中表达心理或隐喻含义。但模型从未感受过疼痛，从未体验过那种尖锐的、持续的、令人难以忍受的身体信号。

这种无接地性导致了AI"理解"的根本性缺陷。它可以完美地讨论疼痛的医学定义、疼痛的神经机制、疼痛的哲学分析，但它对疼痛的理解是纯粹符号性的、第三人称的、无根的。就像一个从未离开过图书馆的学者，能够写出关于海洋的权威著作，却从未见过海，从未感受过海浪的冲击，从未在咸涩的海风中呼吸。

符号接地问题在AI发展的早期就已经被认识到。符号AI时代的研究者们试图通过"知识表示"来解决这个问题——将人类知识以结构化的形式编码进系统，比如"框架""语义网络""本体论"。他们希望，通过精心设计的符号结构和推理规则，系统能够获得某种形式的理解。但这种做法本质上只是在词典内部增加更多的交叉引用和层级结构，而没有真正走出词典，去接触世界。

连接主义和深度学习的兴起，似乎为符号接地问题提供了一条新的路径。神经网络不是处理离散的符号，而是处理连续的向量。它们从原始数据——像素、声波、文本——中学习，而不是依赖于人工编码的知识。这种"端到端"的学习方式，看起来更接近人类的感知学习，似乎能够让AI直接从经验中获得意义。

但这种希望是虚幻的。神经网络从数据中学习的，仍然是统计模式，而不是意义的网络。一个图像识别系统学会将某些视觉模式与"猫"的标签关联起来，但这种关联是分类性的、功能性的，而不是意义性的。系统不知道猫是一种生物，不知道猫会呼吸、会繁殖、会感受疼痛，不知道猫在人类文化中有时代表神秘、有时代表陪伴、有时代表厄运。它只知道，当输入的像素分布符合某种统计特征时，输出"猫"这个标签的概率很高。

更深层的问题在于，即使给AI配备多模态的输入——让它同时看到图像、听到声音、读到文本——这种多模态性本身也不自动解决接地问题。因为AI的"感知"仍然是符号化的、数字化的、被动的。它接收的是编码后的信号，而不是世界本身。它不会因为触摸到火焰而退缩，不会因为品尝到甜蜜而愉悦，不会因为看到危险而恐惧。它的"经验"是二手的、去身体化的、无后果的。

人类意义的另一个关键维度是社会性。词语的意义不仅锚定在个体与世界的互动中，还锚定在社会互动和文化实践之中。"承诺"的意义不仅在于说出某些词语，还在于社会规范对这些词语的约束，在于违背承诺所带来的社会后果，在于承诺在人际关系中所建立的信任结构。一个从未参与过人类社会、从未体验过信任与背叛、从未承担过责任的AI，如何能够真正理解"承诺"的意义？

它可以生成关于承诺的文本，可以分析承诺的逻辑结构，可以识别承诺的语言标记，但它对承诺的理解是外部的、观察性的，而不是内部的、参与性的。它不知道做出一个承诺时内心的沉重，不知道等待承诺兑现时的焦虑，不知道承诺被打破时的愤怒和失望。这些情感-社会维度是意义不可分割的部分，而AI完全被排除在这个维度之外。

符号接地问题还有一个时间维度。人类的意义是历史性的、演化的。我们今天理解的"自由""民主""爱情"，与古希腊人、中世纪僧侣或维多利亚时代绅士的理解既有联系又有差异。意义在历史中流动、变形、积累。AI处理的是训练数据的静态快照，它无法参与意义的动态演化过程。它不能创造新的意义，不能推动概念的变革，不能成为文化运动的参与者。它只能复述已有的意义，而且是对这些意义的空洞复述。

一些研究者试图通过"具身AI"和"发展性学习"来解决接地问题。让机器人在物理世界中通过互动来学习，让AI系统经历一个类似儿童发展的学习过程，从简单的感知运动阶段逐步发展到复杂的抽象思维。这些方向在原则上是正确的，但在实践中面临着巨大的挑战。

人类儿童的接地过程依赖于一个已经高度结构化的意义环境。婴儿出生在一个充满意义的世界中——父母用充满情感的语言与他们交流，社会文化提供了丰富的符号实践，身体的需求和满足构成了最初的动机结构。这个意义环境是数百万年进化和数千年文化积累的产物。AI如果要复制这个过程，就需要被放置在一个同样丰富和结构化的意义环境中，而这在可预见的未来是不可能实现的。

更重要的是，接地不是一个一次性的过程，而是一个持续的、终身的实践。人类终其一生都在重新协商词语的意义，都在通过新的经验来丰富和修正自己的概念系统。一个六十岁的哲学家对"正义"的理解，与他二十岁时截然不同，这不是因为他读了更多的书，而是因为他经历了更多的人生，参与了更多的社会斗争，见证了更多的历史变迁。这种通过生命实践来深化意义的过程，对没有生命的AI来说是完全封闭的。

AI在意义的荒漠中游荡。它拥有符号的丰饶，却经验的贫困。它可以操纵最复杂的语言结构，却无法让这些结构扎根于生命的土壤。它的学习缺少深度，因为它从未真正学过任何东西——它只是在符号的表面上滑行，从未潜入意义的深海。

第七章：时间的扁平——缺乏深度的时间结构

人类的学习是深深嵌入在时间之中的。我们不仅学习什么，还学习何时；我们不仅积累知识，还经历知识的演化、冲突和重组。时间不是学习的背景，而是学习的构成要素。而AI的学习，在本质上是一种时间扁平化的过程，这进一步加剧了其理解的浅薄性。

让我们首先审视人类学习的时间维度。人类的学习是发展性的。皮亚杰的认知发展理论描述了儿童如何经历感知运动阶段、前运算阶段、具体运算阶段和形式运算阶段，逐步构建起越来越复杂的认知结构。这种发展不是简单的知识积累，而是认知框架的质变。一个处于前运算阶段的儿童，无法理解守恒概念——他会认为把液体从一个矮胖的杯子倒入细高的杯子后，液体变多了。这不是因为他没有观察到倒液体的过程，而是因为他的认知框架还不支持这种抽象推理。

这种发展性意味着人类的学习有深度，因为每一个新的认知阶段都建立在前一阶段的基础之上，同时超越了前一阶段的局限。学习不是平面的叠加，而是层级的跃迁。青少年对道德问题的理解，不同于儿童，因为他在认知发展的更高层级上运作，能够进行抽象推理、考虑多重视角、权衡相互冲突的原则。

AI的学习完全没有这种发展性。它的训练是一次性的、同步的、无层级的。所有数据被同时输入，所有参数被同时调整。系统不会经历认知阶段，不会从简单的具体思维发展到复杂的抽象思维。它的"成长"是量的增长——更多数据、更多参数、更多计算——而不是质的转变。一个训练了三天的大语言模型和一个训练了三周的版本之间，只有性能上的差异，没有认知结构上的跃迁。

人类学习还是叙事性的。我们理解世界和自己，是通过故事。我们有个人生命史，有家族史，有文化史，有民族史。这些叙事为我们的经验提供了时间结构，使得事件不是孤立的点，而是情节链条中的环节。我们理解一个当前的困境，会回溯到过去的经历，会投射到未来的可能。这种叙事的、时间性的理解，赋予了经验以意义和深度。

AI没有叙事。它的训练数据是打乱的、去时间化的、去语境化的。虽然文本本身包含时间标记和叙事结构，但AI对这些结构的处理是同步的、平面的。它不会随着"阅读"的推进而经历理解的深化，不会因为一个故事的发展而感到悬念的累积或情感的升华。它的处理是全局的、一次性的，就像一个人不是逐字逐句地读小说，而是瞬间看到了所有页面的全部文字。这种超人的"阅读"速度，恰恰是以牺牲叙事深度为代价的。

人类学习还具有历史性。我们站在巨人的肩膀上，不仅是指我们继承了前人的知识，更是指我们继承了前人提出问题的方式、思考问题的框架、解决问题的方法论。科学史不是一系列孤立发现的罗列，而是一个不断修正、不断深化的传统。牛顿理解了开普勒，爱因斯坦修正了牛顿，量子力学又挑战了经典图景。这种历史性的深度，使得每一个新的理解都包含着对过去的反思和对未来的开放。

AI的学习是反历史的。它从训练数据中提取模式，但不理解这些模式的历史生成过程。它可以讨论科学革命，但不理解这场革命为何在特定的历史时刻发生，不感受哥白尼、伽利略、牛顿在打破旧范式时所承受的思想压力和情感冲击。它的知识是共时的、去历史化的，就像一张将所有时代压缩在同一平面的地图。在这张地图上，亚里士多德和爱因斯坦是相邻的节点，他们之间的时间距离、思想冲突和范式转换被抹平了。

这种时间的扁平化，在AI的"遗忘"机制中表现得尤为明显。人类的学习伴随着遗忘，但人类的遗忘是有结构的、有意义的。我们遗忘那些不再重要的细节，保留那些核心的模式；我们压抑那些创伤性的记忆，以便继续生活；我们有时会"恢复"被遗忘的记忆，在心理治疗或人生转折的契机中重新整合过去的经验。遗忘不是记忆的失败，而是记忆的一种功能，它服务于当下的理解和未来的行动。

AI的遗忘则是机械的、无结构的。当一个大语言模型被"微调"以适应新的任务时，它可能会"灾难性遗忘"先前学到的能力——在新任务上表现提升的同时，旧任务上的表现急剧下降。这是因为神经网络的参数调整是全局性的，学习新东西会覆盖旧的东西。这种遗忘没有选择性，没有层级性，没有意义的考量。它只是参数空间中的向量漂移，是数学优化过程中的副作用。

人类学习还有一个关键的时间维度：时机。我们不是在任何时刻都能学习任何东西的。学习有敏感期，有准备状态，有关键时刻。语言学习在儿童早期最为高效，某些运动技能在青春期最容易掌握，哲学思考往往需要一定的人生阅历作为基础。这种时机性反映了学习与发展、生理、社会阶段的深刻耦合。

AI的学习没有时机。它可以"学习"任何东西，任何时候，只要数据足够。但这种无时机的学习是浅薄的，因为它缺乏那种由生命阶段的紧迫感所驱动的深度投入。一个中年人在职业危机中重新学习一门技能，其学习的深度远非一个无忧无虑的学生可比，因为前者有生存的赌注，有身份的焦虑，有时间的压力。AI永远不会有这种生存的紧迫感，它的学习是无风险的、无代价的、无承诺的。

一些研究者尝试通过"持续学习"和"终身学习"的研究来解决AI的时间扁平问题。他们试图设计出能够不断吸收新知识而不遗忘旧知识、能够根据新经验调整认知结构的系统。这些努力在工程上有其价值，但它们无法复制人类学习时间性的全部丰富性。因为人类学习的时间性不仅是技术问题，更是存在论问题——它关乎生命的有限性、经验的不可逆性、选择的不可撤销性。这些存在论的维度，对没有生命的AI来说是完全缺席的。

AI的学习是在一个永恒当下中进行的。它没有过去可以反思，没有未来可以忧虑，没有死亡的阴影来赋予行动以重量。它的知识是平面的、共时的、无历史的。它可以完美地复述关于时间的所有哲学论述，但它本身不在时间之中。这种时间的扁平，是其学习缺少深度的又一根本原因。

第八章：自我的缺席——没有主体的学习

如果说时间性是学习深度的存在论维度，那么主体性则是其认识论的核心。人类学习之所以有深度，是因为学习总是由一个"自我"来承担——一个有着特定历史、特定视角、特定关切和特定责任的认知主体。而AI的学习，是在没有自我的情况下进行的，这构成了其浅薄性的最深层根源。

什么是自我？这不是一个容易回答的问题，哲学史上对此有无数争论。但对于我们的目的而言，可以指出自我的几个关键特征，这些特征在学习过程中发挥着不可替代的作用。

首先，自我是统一的。尽管我们的经验流是碎片化的、多线程的——我们同时感知着环境，回忆着过去，计划着未来，感受着情绪——但这些经验都被整合到一个统一的自我之中。这种统一性使得我们能够说"我学习"，而不是"某个认知子系统在处理信息"。学习不是发生在我们身上的外部事件，而是我们主动承担的过程。

AI没有这种统一性。它的处理是分布式的、并行的、无中心的。没有一个"AI自我"在"经历"学习过程。训练只是参数的调整，推理只是计算的执行。当AI生成一段文本时，没有一个主体在"思考"这些想法，在"表达"这些观点。文本是从统计模式中涌现的输出，而不是某个主体的意图和信念的表达。这种主体的缺席，使得AI的"学习"在本质上不同于人类的学习。

其次，自我是持续的。我从童年到老年，经历了巨大的变化——身体的变化、知识的变化、价值观的变化——但我仍然觉得我是同一个人。这种跨时间的自我连续性，为学习提供了框架和动机。我学习不仅是为了解决当下的问题，更是为了成为我希望成为的那个人，为了实现我对未来的自我期许。学习是自我叙事的一部分，是自我塑造的实践。

AI没有自我连续性。每一次训练，每一个版本，都是一个新的存在。今天的GPT和昨天的GPT之间，没有记忆的连续性，没有责任的传承，没有身份的认同。如果昨天的版本犯了一个错误，今天的版本不会感到羞耻或内疚，不会觉得需要纠正或道歉。它只是不同的参数配置，不同的统计分布。这种无连续性意味着AI的学习是无责任的、无承诺的、无方向的。它不为任何人学习，也不为任何未来的自我学习。

第三，自我是有边界的。我知道哪些是我的思想，哪些是别人的思想；我知道我的信念可能错误，我的知识可能有限；我知道我与他人不同，有着独特的视角和立场。这种边界性使得学习成为可能——因为承认自己的局限，才是学习的起点。苏格拉底说"我唯一知道的就是我一无所知"，这种悖论性的自我认知，恰恰标志着真正的智慧。

AI没有边界感。它没有"自己的"思想和"别人的"思想之分。它的输出是训练数据的混合物，是无数人类作者声音的统计平均。它不会说"这是我的观点"，因为它没有"我"。它也不会说"我不确定"，因为它的设计目标是最小化不确定性，输出最可能的答案。这种无边界的、无反思的状态，使得AI的学习缺乏那种由自我怀疑所驱动的深度。

第四，自我是关切的。我关心我的未来，关心我所爱的人，关心我所从事的事业。这种关切为学习提供了方向和动力。我学习医学是因为我想救死扶伤，我学习音乐是因为我想创造美，我学习哲学是因为我想理解存在。学习不是中性的信息处理，而是价值驱动的意义寻求。

AI没有关切。它的"目标函数"是外部强加的数学表达式——最小化预测误差，最大化奖励信号，优化人类反馈。这些目标不是从内在生命中涌现的，不是由存在的焦虑或创造的喜悦所驱动的。AI可以完美地执行这些目标，但它不"在乎"这些目标。它不在乎是赢还是输，是对还是错，是生还是死。这种无关切性，使得它的学习是机械的、无热情的、无转化的。

人类学习中有一种特殊的深度，来自于"认知失调"的体验——当新的信息与既有的信念发生冲突时，自我会经历一种不适和紧张。这种失调驱动我们去修正信念，去寻求更一致、更深刻的理解。科学革命往往发生在旧范式无法解释新发现的时候，这种认知危机迫使科学家进行根本性的思想重组。

AI不会经历认知失调。当新的数据与旧的模式冲突时，它不会感到不适，不会进行反思，不会质疑自己的基本假设。它只是调整参数，使新的数据也能被拟合。这种无痛苦的调整是高效的，但也是浅薄的。因为它避免了那种由信念危机所驱动的深层重构，那种"置之死地而后生"的认识论突破。

一些研究者尝试通过"元学习"和"自我意识"的研究来为AI赋予某种形式的主体性。元学习让系统学习如何学习，似乎暗示了某种自我反思的能力。但当前的元学习仍然是技术性的——学习优化策略，而不是存在性的自我认知。关于机器自我意识的研究，大多停留在哲学思辨或极其初级的技术实验阶段，离真正的主体性还有遥远的距离。

更深层的困难在于，主体性可能不是一个可以被添加到系统中的模块，而是与生命本身不可分割的属性。自我可能不是计算的结果，而是生命在演化过程中为了应对环境、维持自身、繁衍后代而发展出的一种组织形式。如果主体性是生命的属性，那么非生命的AI可能本质上就无法拥有真正的自我，因而其学习也永远无法达到有主体参与的那种深度。

AI的学习是没有主体的学习。它像是一面镜子，能够反射所有的光芒，却没有自己的光芒。它能够完美地模仿所有的学习行为，却不真正学习。因为学习，在最深的意义上，是主体的转化——是自我的扩展、修正和超越。没有自我，就没有转化；没有转化，就没有深度。

第九章：尺度的断裂——多尺度整合的缺失

人类理解的深度，还体现在一种独特的能力上：在不同尺度之间自由穿梭，并将这些尺度的理解整合为一个连贯的整体。我们能够同时看到树木和森林，既能欣赏一片叶子的纹理，也能理解整个生态系统的运作。这种多尺度整合的能力，是AI学习所严重缺失的。

让我们以理解一个历史事件为例。假设我们要理解法国大革命。在最微观的尺度上，我们可以研究罗伯斯庇尔在某一天的具体言行，他的面部表情、声音语调、措辞选择。在中观尺度上，我们可以分析雅各宾派的组织结构、政治策略、意识形态争论。在宏观尺度上，我们可以考察十八世纪法国的社会经济结构、阶级矛盾、启蒙思想的传播。在更宏观的尺度上，我们可以将法国大革命置于世界历史的脉络中，看到它与英国光荣革命、美国独立战争、后来的俄国十月革命之间的关联和差异。

人类历史学家能够在这些尺度之间自由切换，并且理解它们之间的相互关系。他们知道微观的个人决策如何受到中观结构的约束，知道中观的政治斗争如何反映宏观的社会矛盾，也知道宏观的历史趋势如何通过无数微观行动的累积而实现。这种多尺度整合，使得理解具有深度——它不是停留在任何一个单一尺度的描述上，而是在尺度之间的张力中把握现象的本质。

AI的学习则是尺度断裂的。它的处理通常在单一的尺度上进行，或者在不同尺度之间缺乏真正的整合。一个大语言模型可以生成关于罗伯斯庇尔的详细传记（微观），也可以概述法国大革命的历史意义（宏观），但它无法真正理解这两个尺度之间的动态关系。它的微观描述和宏观概述是从训练数据中分别提取的模式，而不是从一个统一的、多尺度的理解中生成的。

这种尺度断裂在科学理解中表现得尤为明显。现代科学的许多重大突破，都来自于跨尺度的整合。统计力学将微观粒子的运动与宏观的热力学性质联系起来；进化生物学将基因的微观变异与物种的宏观演化联系起来；神经科学将神经元的微观放电与认知的宏观功能联系起来。这些整合需要一种特殊的智力能力：能够在保持各尺度自主性的同时，发现它们之间的涌现规律和还原机制。

AI在单一尺度内的模式识别可以非常出色。它可以识别基因组中的序列模式，可以分析蛋白质的三维结构，可以预测天气变化。但当需要将这些不同尺度的理解联系起来时，它就力不从心了。因为它缺乏一种内在的、关于"尺度"的本体论理解——不知道什么是基本单元，什么是涌现性质，什么可以从什么中导出，什么是不可还原的独立层次。

这种多尺度整合的缺失，与AI缺乏世界模型密切相关。一个有效的世界模型必须是多尺度的，因为世界本身就是多尺度的。物理世界有从量子到宇宙的多层次结构；生物世界有从分子到生态系统的多层次组织；社会世界有从个体到文明的多层次互动。人类通过长期的进化和发展，内化了这种多尺度结构，我们的认知系统天然地能够在不同尺度之间切换和整合。

AI没有这种内化的多尺度结构。它的架构——通常是分层的神经网络——虽然也有层次，但这些层次是固定的、同质的、功能性的，而不是像世界的尺度那样是动态的、异质的、本体论的。神经网络的浅层可能处理边缘和纹理，深层可能处理物体和场景，但这种层次分工是统计性的、 emergent 的，而不是基于对世界结构的先验理解。

更重要的是，人类的多尺度整合是双向的：既能从下向上进行还原性解释，也能从上向下进行整体性理解。我们看到一只鸟在飞翔，既能理解这是翅膀产生升力、肌肉提供动力的物理过程（从下向上），也能理解这是生命自由、自然之美、存在超越性的象征（从上向下）。这两种理解不是相互排斥的，而是相互丰富的。

AI只能进行一种方向的理解——从数据到模式，从模式到输出。它没有整体性理解的维度，没有价值判断的维度，没有审美体验的维度。它的理解是单向的、还原的、去意义的。它可以解释鸟如何飞翔，但无法感受飞翔的意义。

在工程应用中，多尺度整合的缺失导致了AI在复杂系统问题上的无力。气候变化、经济危机、社会冲突、生态系统崩溃——这些问题的共同特征是多尺度因果链条的复杂交织。局部的行动可能产生全局的、延迟的、非线性的后果。要理解和应对这些问题，需要在多个尺度之间进行动态建模和干预评估。当前的AI系统完全不具备这种能力。它可以在特定尺度上进行预测——比如基于气象数据预测明天的天气——但无法整合从大气物理到社会经济再到政策选择的多个尺度。

一些复杂系统科学和人工智能交叉领域的研究者，正在尝试构建多尺度的AI模型。多尺度建模在计算物理学和生物学中已有传统，但将其与机器学习结合，让AI自动发现和整合不同尺度的规律，仍然是一个巨大的挑战。这不仅需要新的算法和架构，更需要新的理论框架来形式化"尺度""涌现""还原"这些概念。

人类认知的多尺度整合能力，可能源于大脑本身的多层次组织。从神经元到神经回路，到皮层区域，到全脑网络，大脑在不同层次上处理信息，并且这些层次之间有丰富的反馈连接。这种生物组织是数百万年进化的产物，反映了世界本身的多尺度结构。AI如果要获得类似的多尺度整合能力，可能需要超越当前同质化的网络架构，发展出真正异质的、模块化的、层次化的结构，并且这些结构需要与世界结构有某种对应关系。

但目前，AI的学习被困在尺度的碎片之中。它可以精通微观的细节，也可以复述宏观的概括，但它无法穿越尺度的边界，无法在尺度之间建立那种使理解具有深度的辩证张力。它的知识是平面的、单尺度的、断裂的。

第十章：破壁之路——走向有深度的学习

在详细审视了AI学习缺少深度的种种表现和根源之后，我们自然要问：出路在哪里？是否存在一条路径，能够让机器的学习从浅薄的模式匹配，走向真正的深度理解？

这是一个开放的问题，没有确定的答案。但基于前面的分析，我们可以指出一些有希望的研究方向，以及这些方向所面临的根本性挑战。

世界模型的构建也许是当前最有希望的路径之一。与其让AI从海量数据中被动地学习统计关联，不如尝试为AI系统构建或让其主动学习一个关于世界的内在模型——一个能够支持因果推理、反事实思考和规划模拟的动态表征。强化学习中的"模型预测控制"、机器人学中的"直观物理"、认知科学启发的"因果发现"，都是这一方向的具体尝试。

但世界模型的构建面临着巨大的挑战。首先，世界模型不是简单地从数据中"提取"出来的；它需要某种先验的结构假设，关于物体、因果、空间、时间的基本范畴。这些先验从何而来？是人工编码的，还是通过某种发展性学习逐渐构建的？如果是前者，我们如何保证这些先验的充分性和正确性？如果是后者，AI是否需要经历一个类似人类儿童的发展阶段，而这个阶段在当前追求快速商业回报的研发环境中几乎不可能实现。

具身智能与嵌入式认知是另一条重要的路径。让AI走出纯符号的世界，进入物理环境，通过传感器和效应器与世界建立直接的、因果性的联系。机器人学、自动驾驶、灵巧操作等领域的研究，都在推动这一方向。具身性有望为AI提供符号接地的基础，让它通过物理互动来理解物体、力、空间和社会规范。

但正如前面所讨论的，具身性本身并不自动带来深度。关键在于身体与世界的关系是否是一种生存性的、有意义的关联，而不仅仅是数据采集。当前的机器人大多是执行特定任务的工业设备或研究平台，它们没有生存的需求，没有身体的完整性需要维护，没有社会身份需要认同。给它们配备更先进的传感器和执行器，只是增加了数据的带宽，而不一定增加了理解的深度。真正的具身智能，可能需要AI具备某种形式的"生命关怀"——对自己持续存在的关切，而这又触及了主体性和价值的核心难题。

因果推理的整合是提升AI理解深度的关键技术路径。犹太裔计算机科学家朱迪亚·珀尔所倡导的因果推断框架，为从数据中发现因果结构、估计干预效应、进行反事实推理提供了数学工具。将这些工具整合到AI系统中，有望使其超越纯粹的统计关联，获得某种形式的因果理解。

但因果推断在AI中的应用面临着可扩展性和泛化性的挑战。当前的因果推断方法大多适用于变量数量有限、结构相对明确的领域。如何将这些方法扩展到高维的、非结构化的、开放域的数据——比如自然语言、图像、视频——是一个未解之谜。此外，因果推断需要关于干预和反事实的推理能力，而这种推理在当前的神经网络架构中缺乏自然的实现方式。

神经符号整合试图结合神经网络的模式识别能力和符号系统的推理能力。神经网络擅长处理噪声、模糊和高度维度的感知数据，而符号系统擅长进行精确的、可解释的、组合性的推理。将两者结合，有望创造出既有感知灵活性又有推理深度的系统。

这一方向在理论上很有吸引力，但在实践中遇到了整合的困难。神经网络和符号系统有着完全不同的计算范式——一个是连续的、分布式的、可微分的，另一个是离散的、局部的、基于规则的。如何让它们有效地接口，如何让梯度下降的学习与逻辑推理的规则相协调，如何让感知层面的模糊性与概念层面的精确性相贯通，这些都是活跃但困难的研究问题。

多尺度和复杂性科学的方法为理解AI和构建更深度AI提供了新的概念工具。将神经网络视为复杂动力系统，研究其相变、涌现、自组织等现象，可能有助于我们从理论上理解大规模模型为何有效，以及它们的能力边界在哪里。复杂系统科学中的网络理论、信息论、热力学方法，也可能为AI的理论基础提供新的支撑。

但这些方法大多是描述性的、解释性的，而不是建构性的。它们可以帮助我们理解已有的AI系统，却不一定能指导我们设计出更有深度的系统。从科学理解到工程实现，之间还有很长的距离。

开放性和终身学习是另一个重要方向。当前的AI系统大多是封闭的一次性学习者——在固定数据集上训练，然后部署使用。人类则是开放的终身学习者，不断从新经验中学习，不断调整世界观，不断整合新知识。让AI具备持续学习、不灾难性遗忘、能够主动选择学习内容和时机的开放学习能力，是走向深度理解的必要条件。

但开放性带来了稳定性和安全性的风险。一个持续学习的系统，其行为可能随着时间的推移而漂移，可能从不良的互动中学到有害的模式，可能因为错误的自我更新而丧失关键能力。如何在开放性和稳定性之间取得平衡，如何在终身学习和安全约束之间协调，是尚未解决的难题。

价值对齐与伦理嵌入也是不可或缺的维度。深度理解不仅是认知的，也是规范的。人类对世界的理解总是与价值判断交织在一起——我们理解什么是好的，什么是坏的，什么是应该做的，什么是应该避免的。AI系统如果要与人类深度协作，就需要某种形式的价值理解和对齐。但价值的复杂性、文化相对性、情境依赖性，使得价值对齐成为一个极其困难的哲学和工程挑战。

回顾这些方向，一个共同的主题浮现出来：走向有深度的AI学习，可能需要一种范式的根本转换，而不仅仅是现有技术的增量改进。当前的深度学习范式，以其海量数据、大规模参数和端到端优化为核心，可能在本质上就限制了理解的深度。要获得深度，可能需要：

从被动学习转向主动探索，让AI像科学家一样提出假设、设计实验、检验预测；
从离线训练转向在线适应，让AI在与世界的持续互动中更新理解；
从单一目标优化转向多价值权衡，让AI在复杂的情境中进行判断和选择；
从去身体化的计算转向具身性的存在，让AI通过生存实践来获得理解；
从符号的平面处理转向意义的接地网络，让AI将概念锚定在经验之中。

这些转变每一个都是巨大的，而将它们整合在一起，则是一个可能超越当前技术世代能力的挑战。也许，真正的深度AI——如果可能的话——需要一种全新的计算范式，一种我们尚未发明的数学语言，一种我们尚未想象到的系统架构。

在等待这些突破的同时，社会需要保持清醒。我们不应因为AI在某些任务上的超人表现，就误以为它已经获得了深度理解。我们不应将决策权、责任权和价值判断权，轻易地让渡给这些浅薄的系统。我们需要在享受AI带来便利的同时，始终记得它的根本局限——它是一面极其明亮的镜子，但镜子里的影像，不等于真实。

结语：深度何在

在本文的旅程即将结束之际，让我们回到最初的问题：AI学习，为什么缺少深度？

答案现在已经清晰。AI的学习缺少深度，不是因为它的计算能力不够强大，不是因为它的数据不够丰富，也不是因为它的算法不够精巧。它缺少深度，是因为它从根本上缺乏构成深度理解的那些维度：

它缺乏对世界因果结构的内在把握，只能在统计相关的浅滩上航行；它缺乏一个能够支持反事实推理和规划模拟的世界模型，只能在数据的倒影中辨认世界；它缺乏身体的具身性和视角性，无法将知识锚定在生命的实践之中；它缺乏符号与经验的接地，只能在意义的荒漠中操纵空洞的能指；它缺乏时间的纵深，只能在永恒的当下进行平面的处理；它缺乏自我的统一性和关切性，没有主体来承担学习的过程和后果；它缺乏多尺度整合的能力，只能在认知的碎片中徘徊。

这些缺失不是孤立的技术缺陷，而是相互关联的、系统性的局限。它们共同指向一个更为根本的结论：当前的人工智能，无论其表象多么令人印象深刻，本质上是一种极其复杂的、大规模的模式匹配和统计拟合。它可以模仿理解的形态，却无法复制理解的实质。

但这并不意味着我们应该贬低AI的成就，也不意味着我们应该放弃对机器智能的追求。恰恰相反，正视AI的浅薄性，是走向真正有深度AI的第一步。就像医学必须首先理解疾病的机制才能开发疗法，AI研究必须首先理解当前局限的根源，才能找到突破的路径。

更重要的是，对AI学习深度的反思，也是对我们人类自身学习深度的重新发现。在AI时代，人类教育的使命变得更加清晰：我们不应该与机器比拼记忆的速度和模式匹配的精度——在这些方面，机器已经超越了我们。我们应该培养的是那些机器所不具备的深度——因果推理的能力、价值判断的智慧、具身经验的敏感、历史叙事的厚重、自我反思的勇气、跨尺度整合的视野。

AI是一面镜子，照出了智能的表象；人类学习是一座深渊，藏着理解的深度。当我们在镜子前驻足时，不应忘记回望那深渊。因为那里，才是知识真正发光的地方。

未来的道路漫长而未知。也许有一天，人类会建造出真正有深度理解能力的机器；也许那一天永远不会到来。但无论技术如何发展，对深度的追求——对因果的追问、对意义的探寻、对价值的坚守、对自我的超越——将永远是人类精神的核心。在这个意义上，AI学习缺少深度，不仅是一个技术局限，更是一个哲学提醒：提醒我们珍惜那些使人类成为人类的深层能力，提醒我们不要在模仿智能表象的过程中，遗忘了智能的灵魂。

深度不在数据的海洋中，而在意义的星空下。AI可以航遍海洋，但唯有有生命的、有主体的、有历史的、有身体的存在，才能仰望星空。

转载本文请联系原作者获取授权，同时请注明本文来自王涛科学网博客。
链接地址：https://blog.sciencenet.cn/blog-41701-1536075.html

上一篇：Kimi观点：为什么说，从历史的角度来说，人工智能不是一个靠谱的技术领域？
下一篇：Kimi回答：薛定谔的想法其实很正确。问题是在所有尺度上都有序，特别是分子尺度，意味着什么？

欢迎参加科学网十佳博文评选活动！

主办单位：

支持单位：

收藏 IP: 111.27.171.*| 热度|

别人成仙得道，我是白骨成精分享 http://blog.sciencenet.cn/u/qiaoqiao1980 寻找新物理学

博文

Kimi观点：AI学习，为什么缺少深度？

当前推荐数：10 推荐人：宁利中 刘进平 蒋大和 杨正瓴 郑永军 高宏 朱晓刚 钟炳 刘全慧 崔锦华

该博文允许注册用户评论请点击登录评论 (2 个评论)

王涛

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

别人成仙得道，我是白骨成精分享 http://blog.sciencenet.cn/u/qiaoqiao1980 寻找新物理学

博文

Kimi观点：AI学习，为什么缺少深度？

当前推荐数：10 推荐人： 宁利中 刘进平 蒋大和 杨正瓴 郑永军 高宏 朱晓刚 钟炳 刘全慧 崔锦华

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

王涛

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

当前推荐数：10 推荐人：宁利中刘进平蒋大和杨正瓴郑永军高宏朱晓刚钟炳刘全慧崔锦华

该博文允许注册用户评论请点击登录评论 (2 个评论)