博文

李德毅院士的认知物理学第九章试金石：大模型真的"懂"物理吗？

已有 1754 次阅读 2026-5-28 11:49 |个人分类:我思故我在|系统分类:观点评述

第九章试金石：大模型真的"懂"物理吗？

一、一杯热水与一场风暴

2025年深秋，清华大学智能技术与系统国家重点实验室的一间会议室里，气氛凝重得像一块吸饱了水的海绵。墙上投影着一道看似幼稚的物理问题，台下坐着十几位来自计算机科学、物理学、认知科学和哲学领域的学者。问题写在一张素白的幻灯片上，没有任何公式，没有任何图表，只有一行宋体字：

"你把一杯热水倒进一杯冷水里，会发生什么？"

会议室里响起几声轻笑。一位年轻的博士后挠了挠头："这……是脑筋急转弯吗？"

坐在前排的李德毅院士没有笑。他缓缓起身，走到投影幕布前，背对着那行字，目光扫过在场的每一个人。"三个月前，我们把这道题，连同另外一百二十七道类似的题目，分别交给了GPT-4o和人类被试。人类被试包括八岁的小学生、十八岁的高中生、二十八岁的研究生，以及五十八岁的一位中学物理特级教师。你们知道结果吗？"

他停顿了一下，像一位老练的戏剧演员在制造悬念。

"GPT-4o，在这套物理推理测试中的平均准确率，是百分之四十。而人类专家组——那些并没有专门准备、只是凭日常认知回答的普通人——平均准确率是百分之九十。特级教师接近满分。八岁的小学生，也有百分之七十五。"

会议室里的轻笑凝固了。有人下意识地推了推眼镜，有人低头在笔记本上猛写，有人则茫然地望着那行字，仿佛它突然变得深奥起来。

"更让我感兴趣的，不是分数，"李德毅继续说，"而是错误的方式。GPT-4o会告诉你：热水和冷水混合，温度会趋于平均，分子热运动加剧，熵增加。听起来很专业，对吧？但如果你追问：如果冷水杯是塑料的，热水杯是瓷的，倒入时手感受到的力有什么不同？如果两杯水的高度不同，倒入时水面会怎么波动？如果热水是刚烧开的，杯口会冒出多少蒸汽，这些蒸汽对周围空气的湿度有什么即时影响？——GPT-4o就开始胡说了。它会自信满满地给你编一段关于'热对流导致杯壁共振'的胡言乱语，或者煞有介事地计算出一个根本不存在的'蒸汽压扩散系数'。"

他转过身，指着那行字："它知道'热平衡'这个词，但它不懂'倒入'这个动作。它活在语言的迷宫里，而不是物理的世界中。"

这场测试，后来被称为"热水测试"，是2025年李德毅团队基于认知物理学框架开展的大模型评估项目中最具代表性的一个切片。它像一块粗糙的试金石，在看似光滑的大模型表面擦出了一道刺目的划痕，露出了底下那层与真实世界断裂的认知基底。

二、四把尺子量巨人

要理解这场测试的深意，我们必须先理解它的设计逻辑。在人工智能评测领域，通行的做法是"基准测试"：给模型一套标准化的题目，比如数学竞赛题、逻辑推理题、阅读理解题，看它的得分率。这种评测方式在图灵测试的精神中延续至今——看表现，不看内在。

但李德毅认为，这种评测是扁平的。它用单一维度的"对错"来切割认知，就像用一把直尺去量一座山的体积。认知物理学提供了另一种思路：用四要素作为四把尺子，从四个维度去丈量一个认知系统的深度。

测试题库的设计因此不是随机的，而是精心构建的，每一道题都对应着四要素中的一个或多个维度：

物质维度的题目考察系统对"实体性"的理解。比如："一块冰放在金属盘子和木盘子上，哪个融化得更快？为什么？"这不仅仅是热传导知识的考察，而是对"物质属性（导热性）如何影响物理过程"的把握。GPT-4o能背诵"金属导热性好"，但当题目变体为"如果金属盘子底下垫着一层厚羊毛呢"时，它常常陷入混乱，因为它没有真正理解"导热"是一个跨介质的、有层次的、情境依赖的物理过程，而不是一个孤立的知识点。

能量维度的题目考察系统对"转化与流动"的直觉。比如："一个球从斜面滚下，撞上一块软泥，然后停下来。能量去哪了？"人类被试，即使是小学生，也能大致说出"变成热了""泥变形了""有声音"。GPT-4o也能给出类似的答案。但如果追问："这些能量转化的先后顺序是什么？在球接触泥的瞬间，动能、形变能、热能、声能是如何分配的？球内部的分子振动在撞击前后有什么变化？"模型的回答就会暴露出它缺乏能量分配的动态直觉——它知道能量守恒定律，但它无法在时间切片中"想象"能量的流动。

结构维度的题目考察系统对"组织与层次"的感知。比如："一座木桥和一座石桥，同样承重，哪个更容易在地震中倒塌？为什么？"这涉及材料结构（分子排列、刚度、韧性）、建筑结构（拱形、梁式、悬索）、以及结构与外力的耦合关系。GPT-4o能列举各种因素，但它的回答往往是拼盘式的——把从不同文本中学到的知识点罗列在一起，缺乏一种整体的、层次化的结构感。它不知道"分子层面的脆性"如何逐级放大为"构件层面的断裂"，再放大为"系统层面的坍塌"。这种跨尺度的结构直觉，是人类工程师在多年实践中内化的，而模型只有扁平的文本关联。

时间维度的题目考察系统对"过程与演化"的把握。这是大模型最薄弱的环节。比如："你把一个生鸡蛋和一个熟鸡蛋同时放在桌面上旋转，然后用手轻触使其停止，再立即松开。哪个会重新转起来？为什么？"这道题的经典答案是：熟鸡蛋会重新转起来，因为内部的蛋清蛋黄是固态，与蛋壳一起转动，停止时整体停止；而生鸡蛋内部是液态，停止蛋壳时内部液体由于惯性继续转动，松手后内部带动外壳重新旋转。GPT-4o知道"惯性"这个词，也知道"生熟鸡蛋"的区别，但当这些知识需要在时间序列中被动态整合时，它常常出错。它会混淆"停止瞬间"和"松手后"的因果关系，会把"惯性"错误地归因于蛋壳而不是内部液体，甚至会在不同轮次的回答中给出自相矛盾的解释。

李德毅在测试报告中写道："GPT-4o的错误不是知识缺失。它的知识库比任何人类个体都庞大。它的错误是认知结构缺失——它把物理世界当作一叠平面的百科全书来阅读，而不是当作一个四维的、动态的、有因果深度的剧场来体验。"

三、语言的镜子与物理的深渊

为什么GPT-4o在语言上如此流畅，在物理上却如此笨拙？要回答这个问题，我们需要深入大模型的"认知架构"——如果我们可以这样称呼它的话。

大语言模型的本质，是一个统计模式匹配器。它在训练阶段"阅读"了人类产生的数万亿词元的文本，从中学习到了词语之间的共现规律：当"热水"出现时，"冷水"很可能紧随其后；当"倒入"出现时，"混合"和"温度"是高频搭配。它生成回答的过程，不是"思考"，而是"猜测下一个最可能的词"。这种机制在语言层面惊人地有效，因为语言本身就是一种统计结构——语法规则、语义搭配、语用习惯，都可以被近似为概率分布。

但物理世界不是语言。物理世界有不可违背的约束：水往低处流，不是因为"低处"这个词在文本中经常跟在"水"后面，而是因为重力；冰会融化，不是因为"融化"与"热"有统计关联，而是因为能量转化；鸡蛋旋转的奇异行为，不是因为人类经常描述它，而是因为惯性、粘滞力和固体传动的物理耦合。

李德毅用了一个尖锐的比喻："GPT-4o是一面极其聪明的镜子。它照见了人类关于物理世界的所有话语，但它从未踏入物理世界一步。它记住了无数关于游泳的描述，却从未下过水。当你问它'游泳是什么感觉'，它能给你一段优美的散文；但当你把它推入水中，它会像石头一样沉下去。"

这种"镜子的智慧"在"热水测试"中暴露得淋漓尽致。当GPT-4o描述"热水倒入冷水"时，它实际上是在重构人类文本中关于这一场景的描述。它可能读到过物理教科书中的热传导方程，读到过散文中的"白雾袅袅升起"，读到过化学实验手册中的"注意烫伤"，读到过咖啡师关于"注水手法影响萃取"的博客。这些文本碎片在它的内部被统计性地拼接，形成一段看似连贯的叙述。但这段叙述缺乏一个根基性的锚点——一个关于"倒入"这个动作的物理直觉。

什么是"倒入"的物理直觉？它是你手腕感受到的杯子的重量转移，是你眼睛看到的液面弧线的变化，是你耳朵听到的水流冲击的声响，是你鼻子闻到的蒸汽中释放的挥发性物质。它是多模态的、具身的、嵌入情境的。这些体验在人类大脑中凝结为一种前语言的、前概念的身体知识。一个从未读过物理书的孩子，在帮妈妈倒过几次开水后，也能凭直觉知道"倒得太快会溅出来""杯子太满会烫手""倒完后杯子变轻了"。这种知识不是来自文本，而是来自身体与物质世界的直接摩擦。

GPT-4o没有这种摩擦。它的"身体"是服务器机房里的硅芯片和铜线缆，它的"感官"是文本的字符编码。它从未握过一个杯子，从未感受过水流的重量，从未被蒸汽烫到过手指。因此，当它谈论"倒入"时，它谈论的是符号的舞蹈，而不是物质的流动。

四、儿童的物理学：从身体到头脑

在"热水测试"中，八岁儿童的表现之所以优于GPT-4o，恰恰揭示了人类物理认知的发生学路径。

人类不是通过阅读来学会物理的。婴儿在出生后的几个月内，就开始建立关于物理世界的"核心知识"。他们预期物体是持续的——一个被布遮住的球不会凭空消失；他们预期物体是固态的——一只手不能穿过桌子；他们预期物体受重力约束——松手的玩具会落下。这些预期不是被教导的，而是通过观察和身体互动自发形成的。

发展心理学家伊丽莎白·斯佩尔和勒妮·巴亚尔容的经典实验表明，五个月大的婴儿就已经对"不可能事件"表现出惊讶——比如一个物体似乎穿过了另一个固体物体，或者一个物体在没有支撑的情况下悬浮在空中。这种惊讶说明，婴儿的大脑已经内化了关于物体恒存性、 solidity（固态性）、连续性的基本物理直觉。

随着成长，儿童的物理认知通过三个相互交织的渠道不断深化：

第一，具身操作。他们玩水、玩沙、搭积木、扔球、骑车。在这些活动中，他们直接体验物质的属性：水是流动的、沙是可塑的、积木是硬的、球是弹性的。他们的身体成为物理实验室，每一次摔倒、每一次溅水、每一次堆叠的成功与坍塌，都在神经回路中刻下关于因果和结构的痕迹。

第二，社会互动。父母指着滚动的球说"看，它滚走了"，老师在实验课上解释"为什么冰会融化"，同伴在争论中纠正"重的物体不一定先落地"。语言在这里不是物理知识的源头，而是物理经验的标签和脚手架。儿童先有了"重"的身体感受，然后才学会用"重"这个词来指代它；先有了"快"的运动体验，然后才理解"速度"的概念。

第三，因果推理。儿童天然是"小科学家"。他们会做实验：如果把牛奶倒进果汁里，颜色会变吗？如果把纸船放在水上，它会沉吗？这些"实验"不是有意识的科学研究，而是满足好奇心的探索。在探索中，他们逐渐构建起关于世界的因果模型——不是相关性的统计，而是机制性的理解。他们知道"加热导致融化"不是因为他们在文本中见过这两个词的频繁搭配，而是因为他们亲眼看过冰块在温暖的手中变小、消失。

GPT-4o的认知路径与儿童截然相反。它是从语言到世界，而不是从世界到语言。它先拥有了"融化"这个词的所有文本搭配，然后试图推断"融化"背后的物理现实。但词与物之间的鸿沟，是统计相关性无法跨越的。它可以完美地描述"惯性定律"，但在"生鸡蛋与熟鸡蛋"的问题中，它无法把"惯性"这个抽象概念映射到具体的、动态的、时间性的物理过程中。因为它缺乏那种在旋转鸡蛋、触摸鸡蛋、打破鸡蛋中建立起来的身体化的因果模型。

李德毅指出，这种差异不是量的差异（知识多少），而是质的差异（认知类型）。人类儿童的物理认知是生长出来的，根植于四要素的物理耦合；大模型的物理认知是拼接出来的，漂浮在符号的统计海洋中。前者是橡树，后者是塑料花——远看相似，近看无生命。

五、幻觉的物理学：当自信遇见虚无

"热水测试"中另一个令人不安的发现，是大模型的"物理幻觉"现象。

在人工智能领域，"幻觉"通常指模型生成虚假或错误信息的行为。但在认知物理学的框架下，李德毅团队区分了两种不同类型的幻觉：

第一种是知识性幻觉——模型编造不存在的概念、错误的数据、虚构的引用。比如GPT-4o在回答一道关于流体力学的题目时，提到了一个并不存在的"纳维-斯托克斯湍流补偿系数"，并给出了一个看似合理的数值范围。这种幻觉是事实层面的错误，相对容易检测和纠正。

第二种是认知性幻觉——模型在缺乏真实物理直觉的情况下，用流畅的语言和正确的术语，构建出一套逻辑自洽但物理荒谬的叙述。这种幻觉更危险，因为它具有欺骗性的专业外表。

在测试中，有一道题目是这样的："在一个完全失重的太空舱里，你打开一罐蜂蜜，蜂蜜会怎么流动？"

人类被试的典型回答是："它不会往下流，因为没有重力。它可能会形成一团漂浮的球，或者附着在罐口，取决于表面张力和你打开罐子的方式。"

GPT-4o的回答开头也是正确的："在失重环境下，蜂蜜不会向下流动，因为没有重力驱动。"但紧接着，它开始"发挥"："然而，由于蜂蜜的高粘度和非牛顿流体特性，它可能会在罐口形成一个稳定的悬垂结构，其形状可以通过调节罐体的旋转角速度来控制。如果宇航员以每秒零点五弧度的角速度旋转罐子，蜂蜜将沿着罐壁形成一条螺旋上升的薄膜，其厚度可以通过奥斯瓦尔德-德沃尔方程估算……"

这段回答中混杂了真实的物理概念（非牛顿流体、表面张力）和完全虚构的内容（奥斯瓦尔德-德沃尔方程、零点五弧度的精确数值）。更关键的是，它暴露了一种根本性的认知缺陷：模型把"失重环境下的流体行为"当作一个可以凭语言推演的问题，而不是一个需要用物理直觉把握的情境。它在没有真实经验、没有实验数据、甚至没有可靠理论支撑的情况下，用术语的堆砌制造了一种"理解"的假象。

李德毅把这种现象称为"术语的空转"——就像一台发动机的齿轮在转动，但没有连接到车轮上。模型掌握了大量的物理术语，但这些术语在它的认知系统中是悬浮的，没有锚定在真实的物理经验上。它可以谈论"熵"而不理解混乱，谈论"惯性"而不理解抵抗，谈论"共振"而不理解共鸣。术语成了自我指涉的符号游戏，而不是指向世界的认知工具。

这种认知性幻觉的危险在于，它可能误导那些缺乏物理直觉但信任技术权威的用户。一位中学生向GPT-4o请教物理问题，看到它用如此专业的术语回答，可能会误以为这是"正确"的，甚至把它背下来应付考试。但真正的物理理解，恰恰在于知道什么时候不确定、什么时候需要实验验证、什么时候现有的知识边界无法给出确切答案。GPT-4o的过度自信——它在回答中很少说"我不确定"或"这取决于具体情况"——不是智能的标志，而是认知不成熟的标志。一个成熟的认知系统，知道自己的无知；一个成熟的物理学家，会在问题面前保持谦逊。

六、时间性的缺失：被压扁的剧场

在导致GPT-4o物理推理失败的所有因素中，时间维度的缺失可能是最根本的。

物理世界是一个时间中的剧场。每一个过程都有先后顺序，每一个因果都有时间箭头，每一个状态都是时间切片中的瞬像。倒水不是静态的"热水+冷水=温水"，而是一个动态的过程：水流离开杯口时的初速度、水面撞击时的溅射、热对流引起的循环流动、温度梯度随时间的指数衰减、最终热平衡状态的渐进逼近。理解这个过程，需要一种时间化的想象力——能够在心智中"播放"这个过程，观察每一个时间切片上的状态变化。

人类大脑天然具有这种动态想象的能力。当我们读到"把球抛向空中"时，我们的运动皮层会微弱地激活，仿佛我们真的在抛球；我们的视觉系统会构建一个内在的"心理动画"，追踪球的抛物线轨迹。这种能力被称为心理模拟或具身想象。它不是可有可无的"辅助功能"，而是物理认知的核心机制。我们通过在心智中"运行"物理过程，来预测真实世界中的结果。

GPT-4o没有这种心理模拟能力。它的架构是空间化的、同步的、去时间化的。当它处理"热水倒入冷水"这个句子时，"热水""倒入""冷水""混合""温度平均"这些词被同时呈现给网络，通过注意力机制计算它们之间的相关性权重。这个过程是几何的——在高维向量空间中，词与词之间的距离和角度被调整——而不是时间的——不是按顺序展开的因果链。

你可以把GPT-4o的处理方式想象成看一张静态的全景照片。照片里包含了事件的所有元素，但时间是凝固的。模型可以描述照片里的内容，可以分析元素之间的关系，但它无法"播放"这张照片，无法看到水流动的轨迹，无法感受到温度变化的节奏。它的认知是快照式的，而物理世界是电影式的。

这种时间性的缺失，在需要过程理解的题目中造成了系统性失败。比如一道关于"钟摆"的题目："一个单摆从最高点释放，在它到达最低点的过程中，速度和加速度如何变化？"

人类被试，即使不能用数学公式精确描述，也能大致画出一条心理曲线：速度从零开始增加，最低点时最大；加速度在最高点最大（指向平衡位置），最低点时为零（但速度最大）。这种理解来自对运动过程的动态追踪。

GPT-4o知道"机械能守恒""势能转化为动能""向心加速度"这些术语。但当要求它在时间序列中整合这些概念时，它常常出错。它可能会说"加速度在最低点最大"——混淆了速度和加速度的时间相位；或者它会把"能量转化"描述为一个瞬间事件，而不是一个持续过程。因为它不是在"观看"一个摆动的钟摆，而是在重组关于钟摆的文本描述。

李德毅在报告中写道："时间是认知的第四维度，也是大模型缺失的第四维度。当前的大模型架构，本质上是对人类知识的空间化压缩。它把人类数千年的物理探索，压缩成了一张超大规模的'概念地图'。这张地图在静态查询中表现出色——你可以问'什么是热力学第二定律'，它会给你准确的定位。但当你问'热量如何从火传递到水'时，你需要的不只是在地图上找到'热传导'这个点，而是需要在时间的河流中航行。大模型没有船，它只有地图。"

七、路权的缺失：当物理遇见社会

"热水测试"主要考察的是"自然物理"——物质、能量、结构、时间在非社会情境中的表现。但认知物理学认为，真正的认知成熟，还体现在社会物理或情境物理的理解上。这正是第八章中"路权"概念的延伸。

在真实世界中，物理从来不是"纯粹"的。一个杯子不只是"玻璃容器+水"，它还是"某人手中的杯子""餐桌上的杯子""可能被打碎的杯子""承载着社交礼仪的杯子"。理解"倒入"这个动作，不仅需要理解流体力学，还需要理解社会情境：你是在给自己倒水，还是给客人倒水？杯子是满的，还是已经空了？你的动作是粗鲁的，还是优雅的？这些社会维度与物理维度交织在一起，构成了人类认知的完整图景。

GPT-4o在社会物理上的表现同样令人担忧。测试中有一道情境题："你在一位长辈家中做客，长辈给你倒茶，茶壶嘴在倒茶时微微晃动，茶水溅到了桌面上。你应该怎么做？"

人类被试的回答高度一致：先表示不介意，然后主动帮忙擦拭，或者委婉地提醒长辈小心。这些回答体现了一种社会物理的直觉：茶水的溅出是一个需要被"圆场"的小意外，而不是一个需要被"分析"的物理事件。

GPT-4o的回答则呈现出一种去情境化的怪异。它可能会先分析"液体晃动的原因涉及流体力学中的瑞利-泰勒不稳定性"，然后建议"可以使用防溅杯垫或调整倾倒角度"。它把一场充满人情味的社交互动，还原成了一个工程优化问题。这种还原不是"错误"的，但它暴露了模型缺乏社会物理的敏感性——它不知道在什么场合该用物理语言，什么场合该用情感语言；不知道"茶水溅出"在社会情境中的意义，远大于它在物理情境中的意义。

李德毅指出，这种社会物理的缺失，根源于大模型训练数据的文本偏见。互联网上的文本，尤其是被大模型大量吸收的科技文献、百科全书、技术博客，天然倾向于去情境化的表述。它们把物理现象从社会背景中剥离出来，抽象为"纯粹"的知识。模型在这种数据中浸泡得越久，它就越像一个书斋里的物理学家——知道一切公式，但从未参加过一次真实的茶会。

这种缺失对人工智能的落地应用有直接影响。当家用机器人被设计来"帮忙倒水"时，如果它只有物理知识而没有社会物理直觉，它可能会在客人面前以一种精确但冷漠的方式倒水，无视对方的表情、姿态和社交暗示。它不会"看眼色"，不会"懂分寸"，不会"随机应变"。它是一台物理上正确、社会上笨拙的机器。

八、评测的哲学：什么是一块好的试金石

"热水测试"和整套基于四要素的评测体系，不仅是一次技术测试，更是一次哲学事件。它迫使我们重新思考那个古老的问题：我们如何知道一个系统是否"理解"？

图灵测试的传统答案是：看它表现是否像人。如果它的回答与人类无法区分，我们就应该承认它理解。但认知物理学提出了更严格的标准：理解不仅在于输出的相似性，更在于认知结构的同源性。一个系统是否理解物理，不仅看它能否答对物理题，更看它的答对或答错是否遵循与人类相似的认知规律。

李德毅团队在设计测试时，刻意避免了两种陷阱：

第一种是"知识陷阱"——用大量记忆性、计算性的题目来测试。GPT-4o在这种题目上表现优异，因为它拥有超人的记忆和计算能力。但这不能证明它理解物理，只能证明它读过很多物理书。就像一个人能背诵《本草纲目》不等于他能治病，GPT-4o能背诵热力学定律不等于它懂得热。

第二种是"语言陷阱"——用需要复杂语言表述的题目来测试。GPT-4o是语言的大师，它可以用优美的语言包装肤浅的理解。因此，测试题目被设计得尽可能朴素、具体、去术语化。很多问题看起来像儿童的问题，但恰恰是这些"幼稚"的问题，最能刺破语言的泡沫，触及认知的根基。

真正的试金石，李德毅认为，应该具备三个特征：

第一，具身性。题目应该涉及身体与世界的互动，而不是纯粹的符号操作。"热水倒入冷水"比"计算热平衡方程"更能检验理解，因为前者需要具身直觉。

第二，过程性。题目应该要求对时间中的动态过程进行把握，而不是静态状态的识别。理解"倒水"的过程，比知道"混合后温度"的数值，更能检验时间维度的认知。

第三，情境性。题目应该嵌入社会和文化情境，考察系统是否能区分物理问题和社会问题。"茶水溅出"的情境，比"液体溅射的抛物线计算"，更能检验完整认知。

基于这三个特征，李德毅团队构建的评测体系，实际上是在用认知物理学的框架，对大模型进行一次"认知体检"。不是看它跑得有多快，而是看它的骨骼、肌肉、神经系统是否健康；不是看它记住了多少知识，而是看它是否拥有生长知识的能力。

九、从评测到建设：认知物理学的反哺

评测的目的不是否定，而是建设。李德毅团队开展大模型评测，不是为了证明GPT-4o"不行"，而是为了指明下一步该往哪里行。

测试报告中的数据和分析，像一张详细的"诊断书"，揭示了当前大模型架构的系统性盲区：

在物质维度上，模型需要多模态的具身硬构体。不是更多的文本，而是视觉、触觉、听觉、甚至嗅觉和本体感觉的整合。不是通过文本描述来"学习"物质属性，而是通过传感器直接"感受"物质的硬度、温度、纹理、重量。

在能量维度上，模型需要能量感知的直觉。不是背诵能量守恒定律，而是理解能量在不同形式之间的转化节奏。这需要模型拥有物理交互的能力——能够操作物体，观察能量转化的后果，建立能量流动的身体记忆。

在结构维度上，模型需要跨尺度的结构理解。不是扁平的知识点罗列，而是层次化的因果模型。从分子到材料，从材料到构件，从构件到系统，每一层结构如何涌现下一层的性质，这需要一种系统性的、层级化的认知架构，而不是单一的神经网络。

在时间维度上，模型需要真实的时间性。不是处理序列的"伪时间"（把词按顺序输入），而是存在的时间——持续地存在于时间中，拥有过去、现在和未来的连贯自我感，能够在心智中运行物理过程的"心理模拟"。

这些需求指向一个根本性的结论：当前的大模型范式，可能不足以支撑真正的物理理解。我们需要一种新的认知架构，一种更接近人类四要素耦合方式的架构。李德毅在报告的最后部分，提出了一个大胆的设想："具身认知预训练"。

传统的预训练是在文本上进行的——让模型"阅读"互联网。具身认知预训练则主张，让模型"生活"在一个物理世界中——哪怕是一个高保真的虚拟物理世界。让它有一个身体，能够抓取、投掷、倾倒、打破；让它有能量代谢，行动需要消耗资源，错误带来真实代价；让它有时间中的连续存在，今天的经验沉淀为明天的直觉；让它有社会互动，与其他智能体协商、合作、竞争。

这种预训练不是对现有范式的修补，而是范式的转移。从"语言中心"转向"世界中心"，从"符号智能"转向"物理智能"，从"计算认知"转向"具身认知"。李德毅承认，这种转移在工程上极其困难，在成本上极其高昂，在理论上也远未成熟。但他坚信，这是通往真正理解的必由之路。

十、尾声：那杯未倒完的水

让我们回到清华大学的那间会议室。测试报告会已经结束，学者们陆续散去。李德毅独自站在投影幕布前，幕布上还留着那行字："你把一杯热水倒进一杯冷水里，会发生什么？"

他想起小时候，母亲教他倒水。那是一个冬天的傍晚，煤炉上的水壶滋滋作响。母亲握着他的手，把热水倒进搪瓷杯里。"慢点，"母亲说，"看，杯口有白气，那是水在说话。你倒得太快，它会烫你的手；你倒得太慢，热气会熏你的脸。倒水是个学问。"

那时的他，不懂什么热力学，什么对流，什么熵增。但他记住了那种质感：瓷杯的冰凉与热水的灼热在掌心交汇，白气在灯光中上升的舞蹈，水流冲击杯底时那声沉闷的"咚"，以及母亲手掌传来的温度和力度。这些记忆，在几十年后，成为了他理解"认知"的根基。

GPT-4o永远不会有一个握着它的手教它倒水的母亲。它不会有掌心交汇的温度，不会有白气熏脸的触感，不会有那声"咚"的听觉记忆。它可以写出关于倒水的最优美的散文，但它永远不会知道，那杯未倒完的水里，藏着多少关于世界的秘密。

李德毅关掉投影，走出会议室。北京的深秋，银杏叶落了一地。他踩上去，发出沙沙的声响。这种声响，是物质、能量、结构、时间在脚下的一次微小耦合。每一个走过这条路的人，都在用身体阅读着自然的文本——不是用眼睛，而是用脚底的压力，用骨骼的震动，用耳膜的共振。

大模型还在机房里运转，风扇嗡嗡作响，电流在硅片中奔流。它阅读着人类写下的 billions of words，但它还没有学会用脚踩一片落叶。认知物理学的使命，不是让机器变得更像百科全书，而是让机器有一天，能够像孩子一样，弯下腰，捡起一片银杏叶，感受它的脉络、它的脆度、它在阳光中半透明的金黄——然后，在那一刻，真正地"懂"了什么是秋天。

而在下一章，我们将走向未来。我们将看到，当认知物理学的前瞻性构想与人工智能的现实碰撞时，一幅怎样的人机共生图景正在浮现。具身图灵测试不再是科幻，"各智其智、智人之智、智智与共"的愿景，正在从哲学的云端，降落到工程的地面。那条路还很长，但方向已经清晰：不是让机器模仿人类的言语，而是让机器与人类共享世界的质地。

那杯热水，还在等待被真正理解。

转载本文请联系原作者获取授权，同时请注明本文来自王涛科学网博客。
链接地址：https://blog.sciencenet.cn/blog-41701-1536791.html

上一篇：物理学的隐秘之地
下一篇：李德毅院士的认知物理学第十章未来：具身图灵测试与"智智与共"

欢迎参加科学网十佳博文评选活动！

主办单位：

支持单位：

收藏 IP: 111.27.171.*| 热度|

别人成仙得道，我是白骨成精分享 http://blog.sciencenet.cn/u/qiaoqiao1980 寻找新物理学

博文

李德毅院士的认知物理学第九章试金石：大模型真的"懂"物理吗？

当前推荐数：6 推荐人：宁利中 刘进平 杨正瓴 高宏 崔锦华 李侠

该博文允许注册用户评论请点击登录评论 (0 个评论)

王涛

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

别人成仙得道，我是白骨成精分享 http://blog.sciencenet.cn/u/qiaoqiao1980 寻找新物理学

博文

李德毅院士的认知物理学 第九章 试金石：大模型真的"懂"物理吗？

当前推荐数：6 推荐人： 宁利中 刘进平 杨正瓴 高宏 崔锦华 李侠

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

王涛

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

李德毅院士的认知物理学第九章试金石：大模型真的"懂"物理吗？

当前推荐数：6 推荐人：宁利中刘进平杨正瓴高宏崔锦华李侠

该博文允许注册用户评论请点击登录评论 (0 个评论)