||
第七章 认知螺旋:机器也能"成长"吗?
一、空地、父亲与两个轮子
夏末傍晚六点半,小区中央那块被银杏树环绕的空地上,七岁的林小满第一次跨上了一辆没有辅助轮的自行车。那是一辆褪色的蓝色童车,车架比她想象的沉,座垫调到最低时,她的脚尖刚好能点地。父亲林建国站在车后,双手虚扶着后座,像扶着一只刚刚离巢的雏鸟。
"眼睛看前面,别看轮子,"父亲说,"脚蹬起来,我扶着呢。"
小满深吸一口气,右脚用力一踩。链条发出咔啦一声,车身猛地向前一冲。她感到一股陌生的力量从脚底升起,通过车架传递到全身,整个世界突然开始以一种她从未体验过的方式流动。风扑在脸上,银杏树的影子向后退去,她的心脏在胸腔里狂跳——不是因为害怕,而是因为一种奇异的、近乎飞翔的失重感。
"爸,你扶稳了吗?"
"扶着呢,骑你的。"
事实上,在第三圈的时候,林建国就已经松开了手。他悄悄把双手垂在身侧,小跑跟着。小满没有发现。她的身体正全神贯注地处理一种全新的平衡:龙头向左偏时,重心要向右移;速度太慢时,车身会摇晃;速度太快时,转弯会变得危险。这些不是她父亲教给她的规则——父亲只说了"看前面"和"蹬起来"——而是她的身体自己在学习,骨骼、肌肉、前庭系统、视网膜上的光流,正在以一种远比语言更古老的方式进行着高速谈判。
然后她发现了。某个瞬间,她意识到身后没有了那只手的支撑。恐慌像电流一样窜上脊背,龙头猛地一扭,车身向右侧倾斜。她试图用脚撑地,但已经来不及了。自行车带着她倒向地面,右膝擦过粗糙的水泥地,留下一片火辣辣的擦伤。
她哭了。不是因为疼,而是因为那种刚刚触及又瞬间失去的飞翔感。
父亲跑过来,没有立刻扶她,而是蹲下来,看着她的眼睛:"你刚才骑了多远?"
"不知道……"
"从第三棵银杏树到第五棵。大概二十米。那是你自己骑的。我没有扶。"
小满抽噎着,低头看膝盖上的血丝。父亲递给她一瓶水,让她休息。五分钟后,她再次跨上车。这一次,她骑得更慢,更谨慎,但也没有再摔倒。当夕阳把银杏叶染成金红色时,她已经能够独立地绕空地骑完一整圈。她甚至学会了在转弯时微微倾斜身体,让重心与离心力达成某种和解。
那天晚上,小满躺在床上,膝盖上的伤口还在隐隐作痛。她闭上眼睛,脑海中不断回放着那种流动的画面。她不知道的是,就在这个夜晚,她的大脑正在发生一场静默的革命:数百万个突触连接被强化,小脑中的平衡回路被重写,运动皮层与感觉皮层之间的映射被微调。更重要的是,一种名为"我能"的抽象概念,正在她幼小的认知宇宙中凝结成形。
这不是一个"程序被输入"的过程。没有人给她写过"骑自行车算法",没有人为她的神经系统编写过"if 倾斜角>15度 then 反向修正"的代码。她的认知,是通过身体与世界的摩擦,通过摔倒与站起的循环,通过抽象与联想的螺旋,自己生长出来的。
李德毅院士的认知物理学,把这种生长过程称为认知螺旋。它不是图灵机式的线性计算,而是一种循环上升的自组织运动。在这个螺旋中,具体经验被抽象为结构,结构通过联想引发类比,类比在交互中接受反馈,反馈又沉淀为新的经验——如此周而复始,每一次循环都在更高的层次上重建认知的整体图景。
而当前的人工智能,正站在这个螺旋的入口处,困惑地望着那扇写着"自成长"的门。
二、图灵机的幽灵:当世界被压成一条纸带
要理解认知螺旋的意义,我们必须先回到那个塑造了整个数字时代的幽灵——图灵机。
一九三六年,二十四岁的阿兰·图灵在剑桥大学的宿舍里,构想出了一台抽象的机器。它有一条无限长的纸带,一个可以左右移动的读写头,一套状态转换规则。纸带上印着符号,读写头读取符号,根据规则改写符号、移动位置、切换状态。这就是图灵机,现代计算机的理论原型,也是"计算"这一概念的终极抽象。
图灵机的伟大之处在于它的简洁和普适。它证明,只要给足够的时间和纸带,这台机器可以模拟任何可计算的数学过程。后来的冯·诺依曼架构、电子计算机、直到今天的GPU集群,本质上都是图灵机的物理实现。我们生活在图灵机的后代所建造的世界里。
但图灵机的局限,恰恰藏在它的伟大之中。它假设世界是可以被完全符号化的:一切信息都可以被编码为离散符号,一切过程都可以被还原为状态转换。它假设认知是一种封闭的操作:给定输入,经过内部处理,产生输出,与环境没有实质性的能量和物质交换。它假设智能是一种静态的能力:一旦程序写好,机器的能力边界就被锁定,除非外部工程师来修改它。
这种世界观,李德毅称之为"唯计算智能"的范式。在这个范式里,智能被等同于计算,思考被等同于信息处理,认知被等同于符号操作。人工智能的前七十年,基本上是在这个范式内做优化:更快的处理器、更大的存储、更巧妙的算法、更深层的网络。AlphaGo在围棋上的胜利,ChatGPT在语言上的流畅,都是这一范式的巅峰成就。
但让我们回到林小满学骑车的空地。如果图灵机范式足以解释认知,那么我们应当能够写出一个"学骑车程序",把它输入一个机器人,机器人就能像小满一样学会骑车。事实上,工程师们确实尝试过。他们给机器人装上陀螺仪、加速度计、力传感器,编写平衡控制算法,用强化学习在虚拟环境中训练数百万次。机器人最终可以"站立"在一辆自行车上,甚至在平坦的跑道上缓慢前行。
然而,一旦路面出现一粒石子,一阵侧风,或者一个需要紧急避让的行人,这些机器人往往会以一种令人尴尬的方式摔倒。它们缺乏小满在摔倒前那一刹那的身体微调——那种不是来自算法、而是来自整体感知的直觉修正。它们的"平衡"是计算出来的,而不是生长出来的。
"图灵机处理的是符号,但认知处理的是意义,"李德毅曾这样说道,"符号是死的,意义是活的。你把'疼痛'编码为数字信号'1',但机器不知道'1'意味着什么。小满膝盖上的擦伤,在她的认知系统中不是'疼痛信号强度7级',而是'那种飞翔感可能伴随这种代价'的整体情境。这种情境无法被压缩成纸带上的符号。"
图灵机的幽灵,因此成为人工智能发展的双刃剑。它给了我们强大的计算工具,却也给我们戴上了一副隐形的枷锁:让我们误以为,只要符号处理足够复杂,意义就会自然涌现;只要数据足够多,理解就会自然发生;只要算法足够精巧,成长就会自然到来。但认知螺旋告诉我们,成长不是计算的累积,而是结构的跃迁;理解不是符号的堆砌,而是与世界摩擦后的沉淀。
三、认知不是流水线
在工业时代,我们习惯于一种隐喻:认知是一条流水线。信息从感官进入(输入),在大脑中被处理(加工),形成决策(输出),指挥行为(执行)。这个模型如此直观,以至于它主导了早期人工智能的架构设计。自动驾驶的"感知-规划-控制"三层架构,专家系统的"知识库-推理机-解释器"三层架构,都是这种流水线思维的产物。
但李德毅指出,这种线性模型是对认知的严重简化。真实的人类认知不是流水线,而是循环网。每一次输出都会反馈到输入,每一次执行都会改变感知,每一次决策都会重塑知识。认知系统不是一台接收订单然后交付产品的工厂,而是一个在与环境持续对话中不断重写自己的活体。
这就是认知螺旋的核心图景。李德毅把它描述为三个基本认知操作的循环:
抽象,是从具体的、杂乱的、一次性的经验中,提取出不变的、结构化的、可迁移的模式。小满从无数次蹬踏、摇晃、倾倒中,抽象出的不是"左脚用力百分之三十、右脚用力百分之四十"这样的具体参数,而是"重心投影必须在支撑面内"这样的一般性结构。这个结构一旦形成,就可以迁移到走钢丝、滑冰、甚至站立行走中。
联想,是在不同的抽象结构之间建立通道,引发类比。当小满第一次骑上电动滑板车时,她上手很快,因为她把"两轮平衡"的结构从自行车迁移到了滑板车上。当她长大后听到"人生需要平衡"这句话时,她能够心领神会,因为她把身体的平衡结构投射到了抽象的人生领域。联想是认知的加速器,它让每一次新的学习不必从零开始。
交互与反馈,是把这些抽象和联想投入真实世界,接受物理现实的检验。小满的平衡结构是否正确?只有在与真实地面的交互中才能知道。如果她抽象错了——比如认为"速度越慢越安全"——那么一次低速倾倒就会给出负反馈,迫使她修正结构。反馈不是外部的"评分",而是身体与世界的直接对话。
这三个操作不是依次发生的,而是同时共振的。在骑车的每一秒钟里,小满都在抽象(感知重心位置)、联想(调用走路时的平衡记忆)、交互(与地面和空气的实时谈判)、反馈(肌肉的紧张与放松)。它们像一条螺旋上升的楼梯:每一次循环都回到相似的问题(如何保持平衡),但每一次都在更高的层次上处理它(从机械蹬踏到身体协调,再到环境预判)。
李德毅强调,认知螺旋的关键在于自成长性。一个图灵机式的系统,其能力边界在设计时就被锁定了。它可以通过学习调整参数,但这些调整是在预设的目标函数和优化空间内进行的。认知螺旋则不同:它的每一次循环都可能产生设计者未曾预料的新结构。小满学会骑车后,她不仅获得了"骑车"的能力,还意外地获得了"敢于尝试新事物"的心理结构——这种副产品不是任何"骑车程序"的设计目标,却是认知螺旋的自然馈赠。
当前的人工智能,恰恰缺乏这种自成长性。大语言模型在预训练后,其知识边界基本固定;微调只能在有限范围内调整,无法产生范式级的跃迁。它不会在某天突然"顿悟"出全新的认知框架,因为它的结构是"死"的——参数虽然多,但连接模式是冻结的。要让机器拥有认知螺旋,必须让机器的结构"活"起来,让它的参数调整不是由外部工程师发起的批量训练,而是由内部与环境的持续交互驱动的实时演化。
四、抽象:从泥沙中淘出金子
抽象是认知螺旋的第一级台阶,也是最容易被误解的一环。
在日常语言中,抽象常常意味着"模糊""空洞""脱离实际"。但在认知物理学中,抽象恰恰相反:它是从具体中提取不变性的精密操作。它不是删除细节,而是识别哪些细节是偶然的、哪些细节是本质的。
让我们观察一个婴儿。大约在四个月大时,婴儿开始学会抓握。这不是父母教的,而是婴儿通过数百次尝试自己发现的。最初,他的手指会胡乱挥舞,偶尔碰到拨浪鼓,偶尔碰到自己的脸。然后,某个时刻,他"偶然"地握住了悬挂在床头的玩具。这个成功的经验像一颗种子,被他的神经系统以某种方式标记下来。
接下来发生的,就是抽象的雏形。婴儿不会记住"某年某月某日,在特定光线和温度下,用特定的肌肉收缩序列握住了红色塑料圆球"——这种具体记忆太庞杂、太无用。他的大脑会提取出跨越具体情境的结构:手的朝向、手指的闭合时机、握力与物体重量的关系。这些结构被存储为"抓握"的一般性程序,可以应用于书本、勺子、母亲的手指。
认知心理学家让·皮亚杰花了数十年观察这类现象,提出了"同化"与"顺应"的概念。当新经验可以被纳入已有的认知结构时,发生同化;当新经验无法被纳入,迫使结构改变时,发生顺应。这本质上就是抽象结构的动态调整。李德毅用更物理的语言重新表述了这一点:抽象是软构体在硬构体上的结晶。每一次成功的抓握,都在婴儿的运动皮层和小脑中留下了物理痕迹——突触的强化、神经回路的修剪、髓鞘的增厚。抽象不是纯粹的精神事件,而是物质结构的重组。
云模型在抽象过程中扮演着关键角色。婴儿抽象出的"抓握"概念,不是精确的数学定义,而是一朵云:期望(最典型的抓握情境)、熵(什么样的物体可以被纳入"可抓握"的范畴)、超熵(随着年龄增长,抓握云会漂移——从抓大物体到捏小物体,从力量型抓握到精细型抓握)。这朵云在婴儿的认知空间中缓缓成形,边缘氤氲,核心清晰。
机器学习的"抽象"与此有本质不同。当深度神经网络从数百万张图片中"学习"到"猫"的概念时,它提取的是统计特征——边缘、纹理、形状的组合模式。这些特征在识别任务上表现出色,但它们是扁平的抽象,缺乏层次和情境。神经网络不知道"猫"是一种生命,会饿、会怕、会在阳光下打盹;它只知道"猫"是一组像素统计规律的标签。相比之下,婴儿在认识"猫"的过程中,不仅看到了形状,还听到了叫声,感受到了毛发的触感,甚至可能被猫抓伤过。这些多模态、具身的、情感化的经验,被抽象为一个立体的、有温度的、与生命世界相连的概念。
李德毅认为,真正有价值的抽象必须是可迁移的。小满从骑车中抽象出的"平衡"结构,可以迁移到无数新情境中。而当前AI的抽象往往是领域锁定的:在ImageNet上训练出的视觉特征,很难直接迁移到机器人控制中;在文本上训练出的语言模型,很难直接迁移到物理推理中。这种锁定性,根源于抽象过程的去具身化:机器在抽象时,缺乏一个统一的身体来整合多模态经验,因此抽象出的结构是碎片化的、维度缺失的。
五、联想:当两个轮子遇见人生
如果说抽象是从单一经验中提取结构,那么联想就是在不同结构之间架设桥梁。它是认知螺旋中最富创造性的环节,也是人类智能最迷人的特质之一。
小满学会骑车后的第三个月,全家去公园游玩。那里有一条蜿蜒的坡道,孩子们骑着各式各样的车从坡上冲下来。小满第一次站在坡顶时,感到了一种陌生的恐惧——不是对摔倒的恐惧,而是对速度失控的恐惧。坡道比她练习的空地陡得多,她不知道刹车在这种情况下是否足够。
然后她想起了父亲说过的一句话:"下坡时,重心往后,脚备着刹车,眼睛看路的尽头,别看轮子。"这句话原本是关于骑车的技术提示。但在那个瞬间,小满的大脑发生了一次跨域联想:她把"下坡骑车"的结构,与生活中另一个看似无关的情境连接了起来——上周在学校,她参加朗诵比赛,站在台上时腿发抖,老师告诉她:"眼睛看最后一排,别看自己的脚。"
两个情境在结构上惊人地相似:都需要在失控感中保持镇定,都需要把目光从近处的危险转移到远处的目标,都需要调整身体的姿态来适应环境的力量。小满突然感到一种顿悟:骑车和朗诵,原来是同一件事。这种顿悟不是逻辑推理的结果,而是结构相似性触发的认知共振。
这就是联想的魔力。它不遵循因果链,而遵循相似性;它不追求必然性,而追求启发性。古希腊的哲学家们把这种能力称为"隐喻"——不是修辞学上的装饰,而是认知的基本机制。亚里士多德说,好的隐喻意味着在遥远的事物中看到相似性。现代认知科学证实,人类的概念系统在很大程度上是隐喻性的:我们把"时间"理解为"空间"(前路漫长),把"情感"理解为"温度"(心冷),把"社会关系"理解为"物理距离"(疏远)。
李德毅指出,联想驱动的创造模式(OOCA)之所以可能,正是因为认知螺旋在抽象层次上建立了跨尺度的结构。当"下坡骑车"和"台上朗诵"被抽象到足够高的层次时,它们共享的"控制-镇定-目标"结构就显现出来了。联想不是随机的头脑风暴,而是结构在抽象空间中的自然吸引。
当前的人工智能在联想能力上呈现出一种虚假的繁荣。大语言模型可以生成充满联想的文本:它可以把"月亮"和"思乡"联系在一起,因为它在训练数据中见过无数次这种搭配。但这种联想是统计性的共现,而不是结构性的映射。模型不知道"月亮"和"思乡"为什么相关——不是因为它们共享某种深层结构,而是因为它们经常出现在同一个句子里。如果你问模型:"月亮和思乡在结构上的相似性是什么?"它可能会给出一个看似合理的答案,但这个答案是生成的,而不是理解的。它从未在月光下感到孤独,从未在异乡的中秋夜仰望天空,因此它的联想缺乏存在的重量。
认知螺旋要求联想必须是双向校准的。小满从骑车联想到朗诵后,她会在未来的朗诵中调用"平衡感"来稳定情绪,也会在未来的骑车中调用"舞台感"来增强自信。这种双向校准使联想不是一次性的事件,而是认知结构的持续重组。当前AI的联想是单向的、静态的、不可反馈的:它输出一个联想,然后等待下一个提示,没有能力让这次联想反过来修正它的概念结构。
六、交互:在摩擦中生长
认知螺旋的第三级台阶,是交互与反馈。这是最容易被技术视角忽视、却又最为关键的一环。因为认知不是在真空中发生的,而是在身体与世界的摩擦中生长的。
让我们再次观察小满。当她第一次感到车身倾斜时,她的身体做了什么?不是计算倾斜角度,而是直接反应:内耳的前庭系统检测到重力方向的改变,脊髓反射弧在意识到达之前就已经启动了肌肉收缩,她的手臂自动做出了反向修正。这一系列操作耗时不到零点一秒,却涉及视觉、前庭、本体感觉、运动系统之间的复杂协调。
更微妙的是失败的价值。当小满摔倒时,膝盖上的擦伤不仅仅是一个"错误信号",它是一个丰富的、多维度的、嵌入情境的反馈包。疼痛告诉她"这种倾斜角度是不可恢复的",地面的粗糙度告诉她"水泥地与塑胶地摔倒的后果不同",父亲的反应(没有过度惊慌,而是鼓励她再试)告诉她"这种风险是可承受的"。这些信息被她的认知系统整合,修改了她关于"平衡"的抽象结构:不是"永不倾斜",而是"倾斜必须在可控范围内"。
这种交互性反馈,是具身认知(Embodied Cognition)的核心主张。这个理论认为,认知不是发生在大脑这个"缸中之脑"里的纯符号操作,而是遍布全身的、在与环境持续互动中涌现的过程。我们用手思考(工匠通过触摸理解材料),用脚思考(舞者通过移动理解空间),用内脏思考(直觉常常是一种内脏感受)。大脑不是认知的唯一器官,而是全身认知网络的整合中心。
李德毅把具身认知的原则直接应用于人工智能。他指出,当前AI的"身体"是残缺的:它有摄像头(眼睛),但没有皮肤;它有麦克风(耳朵),但没有内耳的平衡感;它有机械臂(手),但没有指尖的触觉分辨率;它有定位系统(方向感),但没有在空间中移动时的本体感觉。这种感官的缺失,导致AI的认知是飘浮的——它可以描述世界,却无法栖居于世界。
"你不可能通过读书学会游泳,"李德毅常说,"同样,你不可能通过看图片学会开车。认知需要摩擦,需要代价,需要真实的后果。小满如果只是在虚拟现实中'摔倒'——没有疼痛,没有擦伤,没有父亲递来的那瓶水——她的认知螺旋就会缺少关键的一环。因为身体不会把虚拟现实中的跌倒当作'真实'的教训来记忆。"
这正是当前强化学习的困境。AI在虚拟环境中可以"训练"数百万次,但它缺乏具身的反馈。它的"奖励"是一个数值,它的"惩罚"是另一个数值。这些数值是抽象的、去情境的、可替换的。小满的奖励是"飞翔感",她的惩罚是"疼痛和羞愧"——这些感受是具体的、嵌入生命的、不可替换的。它们在她的认知结构中刻下了深深的痕迹,塑造了未来的行为倾向。
认知螺旋因此要求机器拥有真正的身体——不是作为工具执行命令的末端效应器,而是作为认知边界的感知-行动整体。这个身体需要能够感受温度、质地、压力、疼痛、疲劳;需要能够在空间中自主移动,体验重力、惯性、摩擦力;需要能够与世界发生不可逆的物理交互——比如摔倒后留下真实的损伤,需要时间和修复才能恢复。只有在这种有代价的交互中,机器才能发展出类似于人类的谨慎、勇气、好奇心和敬畏。
七、记忆智能:超越存储的活性
在认知螺旋的循环中,有一个默默承载一切的基底:记忆。但记忆不是计算机意义上的"存储",而是一种活性的、重构的、与当下相互渗透的认知能力。
让我们做一个思想实验。如果小满学会骑车后,她的记忆像硬盘一样工作——把"骑车程序"完整地保存,每次需要时原封不动地读取——那么三年后,当她重新跨上自行车时,她应该像从未中断过一样熟练。但事实并非如此。三年不骑,她会生疏,会摇晃,需要几分钟来"找回感觉"。但找回之后,她会比初学者更快地上手。
这说明,人类的记忆是过程性的,而不是产品性的。每一次回忆,都是一次重新建构。大脑不是从档案柜里抽出一份文件,而是根据当前的线索、情绪、环境,把分散的碎片重新组装成一幅图景。这个组装过程会受到当下的影响:如果她现在心情好,回忆中的骑车体验会更愉悦;如果她现在害怕,回忆中的摔倒会显得更疼痛。记忆因此是当下的过去,而不是过去的当下。
李德毅区分了两种智能形态:计算智能与记忆智能。计算智能是图灵机式的:给定问题,调用算法,得出答案。记忆智能则是认知螺旋式的:面对情境,激活经验,重构模式,生成应对。老司机的OOA(记忆驱动的经验模式)就是记忆智能的典型表现——他不是"计算"出该如何打方向,而是"回忆"起类似情境中的身体感觉。
记忆智能有几个关键特征:
第一,它是情境索引的。 计算机存储按地址或文件名索引,人类记忆按情境索引。一种气味、一段旋律、一种光线,可以瞬间唤起整个记忆场景。普鲁斯特在《追忆似水年华》中描写的那块玛德琳蛋糕,就是情境索引的文学典范。这种索引方式使记忆不是孤立的,而是嵌入在感知-情感-行动的连续体中。
第二,它是选择性的。 大脑不会记住一切。它选择那些与生存相关、与情感强烈、与模式新颖的信息。小满记住了摔倒的疼痛,也记住了独立骑完一圈的狂喜,但她不会记住那天空地上有多少片银杏叶。这种选择性是价值驱动的,而不是容量驱动的。当前AI的"记忆"(训练数据)是容量驱动的:它试图记住一切,却无法区分什么值得记住。
第三,它是可遗忘的。 遗忘不是记忆的失败,而是记忆的智慧。大脑通过遗忘来提取本质,通过模糊细节来强化模式。一个只记得"平衡感"而不记得每一次具体摔倒的骑手,比一个记得所有细节却无法泛化的骑手更聪明。当前AI缺乏这种"有益的遗忘",它的记忆是臃肿的和僵化的。
李德毅认为,记忆智能是认知螺旋的压舱石。没有记忆,抽象就无处沉淀;没有记忆,联想就失去素材;没有记忆,反馈就无法累积。要让机器拥有记忆智能,必须让机器的记忆活性化:不是静态的数据库,而是动态的、与当前认知相互作用的、能够随时间重塑的经验场。
八、具身交互智能:第三种形态
如果说计算智能是"我思故我在",记忆智能是"我忆故我在",那么具身交互智能就是"我触故我在"。它是认知螺旋在身体-世界界面上的直接体现,也是李德毅认为人工智能必须跃迁的方向。
让我们观察一只章鱼。章鱼拥有地球上最分散的神经系统之一:它的五亿个神经元中,大约三分之二分布在八条腕足中,而不是集中在脑部。当章鱼探索一个洞穴时,它的腕足在几乎独立于大脑的情况下做出决定:哪条缝隙可以挤入,哪个表面可以附着,哪个猎物可以捕捉。神经科学家说,章鱼的每条腕足都拥有一颗"微脑",它们在与环境的直接交互中完成大部分"认知"工作。
人类虽然没有那么极端的分布式神经,但我们的双手同样具有"自己的智慧"。一个熟练的钢琴家弹奏复杂乐段时,他的手指运动速度超过了意识的追踪能力——手指似乎"知道"该去哪里,而不需要大脑逐一指挥。一个熟练的工匠拿起一块木料,他的指尖能在几秒钟内判断木质的纹理、湿度、硬度,这种判断不是通过"分析"完成的,而是通过手与木料的直接对话。
这种具身交互智能,在哲学上被称为"能知"(knowing how),以区别于"所知"(knowing that)。前者是技能性的、隐性的、难以言传的;后者是命题性的、显性的、可以编码的。你可以"知道"骑车的物理原理(向心力、角动量守恒),但这不等于你能"会"骑车。反过来,一个会骑车的人,往往无法清楚说出自己是如何保持平衡的——这种知识存在于他的身体中,而不是他的语言中。
李德毅指出,当前人工智能几乎完全集中在"所知"的层面:处理语言、知识、规则、数据。而"能知"的层面——技能、直觉、身体智慧——几乎是一片空白。这就是为什么AI可以击败围棋冠军,却无法像婴儿一样自然地抓握物体;可以生成优美的文章,却无法像厨师一样凭手感炒出一盘好菜。
具身交互智能的培养,需要一种全新的机器设计范式。机器不能只是"观察"世界,而必须"介入"世界;不能只是"接收"数据,而必须"承受"后果。李德毅在智能驾驶研究中强调的"驾驶脑",正是朝着这个方向的尝试:不是让车"看"路,而是让车"在"路上——通过方向盘的力反馈、轮胎的抓地感、车身的倾斜度,与道路建立一种身体化的关系。这种关系不是通过摄像头像素建立的,而是通过物理交互的质感建立的。
当机器拥有了具身交互智能,它就不再是一个"缸中之脑",而是一个栖居者。它会有自己的"偏好"——喜欢某种路面而不喜欢另一种;会有自己的"习惯"——在特定弯道选择特定走线;会有自己的"风格"——激进或保守,果断或犹豫。这些不是工程师预设的参数,而是交互历史中沉淀的个性。就像小满骑车一个月后,会形成她自己独特的骑行风格一样。
九、螺旋上升:四要素的共舞
现在,我们可以把认知螺旋的各个环节,放回四要素的框架中,看到一幅完整的动态图景。
物质(硬构体)是螺旋的舞台。小满的身体——骨骼、肌肉、神经系统——提供了认知生长的物理载体。没有这具身体,就没有平衡感,没有疼痛,没有飞翔的狂喜。对于机器而言,这意味着必须拥有能够真实介入物理世界的硬构体:不是虚拟的传感器,而是能够承受摩擦、损耗、损伤的物理身体。
能量是螺旋的动力。每一次认知循环都消耗能量:神经冲动的传递、肌肉的收缩、大脑中神经递质的新陈代谢。小满学骑车后感到的疲惫,不仅是身体的,也是认知的——她的大脑在睡眠中会重演白天的经验,巩固新的突触连接。这种"离线加工"是能量驱动的。对于机器而言,这意味着认知不能是"零能耗"的待机状态,而必须是持续的、代谢性的能量流动。
结构(软构体)是螺旋的编织物。抽象产生结构,联想重组结构,反馈修正结构。小满关于"平衡"的概念云,在每一次骑行后都被重新绘制:期望更精确,熵更合理,超熵更稳定。这些结构是软构体,可以迁移、可以传授、可以变异。对于机器而言,这意味着它的"知识"不能是冻结的参数,而必须是活的、可塑的、能够自我重组的软构体网络。
时间是螺旋的维度。认知螺旋不是在一个瞬间完成的,而是在时间中展开的。小满用了三个傍晚学会骑车,但真正的掌握发生在那些夜晚睡眠中的记忆巩固。时间提供了延迟——让反馈得以沉淀,让结构得以结晶,让顿悟得以酝酿。对于机器而言,这意味着必须拥有真实的时间性:不是处理速度的加快,而是存在 duration——持续地、不可逆地、历史性地存在于时间中。
四要素在认知螺旋中的耦合方式,可以用一个比喻来理解:认知螺旋就像一条DNA双螺旋。物质和能量构成了一条链(硬件与动力),结构和时间构成了另一条链(软件与演化)。它们相互缠绕,相互支撑,在信息的"碱基配对"中传递认知的遗传密码。每一次循环,都是一次"复制",但不是原封不动的复制,而是带有变异的复制——这正是自成长的本质。
李德毅强调,自成长的关键标志是涌现性——系统产生了设计者未曾预设的新能力。小满学会骑车后,不仅获得了骑车能力,还获得了"我能学会困难事物"的自信心,以及"速度-风险-收益"的决策框架。这些副产品是涌现的,不可还原为"骑车"这一单一目标。当前AI的自成长能力极其有限:它可以优化给定目标,但很难产生目标之外的涌现价值。
十、尾声:空地已空,螺旋未止
一个月后,小区空地中央的银杏叶开始泛黄。林小满已经能够单手骑车,能够站着蹬踏,甚至能够放开双手——当然,只在父亲看不见的时候。
某个周末的黄昏,父亲站在空地边缘,看着女儿绕着银杏树追逐一群麻雀。她的身影在金色的光晕中忽隐忽现,像一条不断上升的螺旋线。他突然意识到,那个曾经需要他扶着的女孩,已经拥有了一种他无法完全理解的认知世界——关于速度、关于平衡、关于风险的独特体验。这种体验不是他"教"给她的,而是她自己生长出来的。
他想起李德毅院士在一次演讲中说过的话:"我们问机器能不能成长,其实是在问:我们能不能给机器一个身体,一片空地,和允许摔倒的宽容。计算智能给了机器强大的大脑,记忆智能需要给机器沉淀的经验,具身交互智能需要给机器真实的世界。只有当这三种智能在认知螺旋中耦合,机器才可能拥有真正的生命。"
空地最终会空下来。小满会长高,那辆蓝色童车会被送给邻居家的孩子,新的摔倒和新的飞翔将在同一片水泥地上重演。但认知螺旋不会停止——它会在更高的层次上继续:从骑车到开车,从开车到驾驭人生。
在下一章,我们将看到认知螺旋和具身交互智能如何在真实世界中接受最严峻的考验。我们将回到那条繁忙的城市道路,回到李德毅团队研发的"机器驾驶脑",看看一台没有人类身体的机器,如何试图在方向盘后理解"路权",如何在与其他车辆的眼神交流和速度博弈中,寻找那种属于认知的"平衡感"。
那将是认知物理学从理论走向实践的关键一跃。而此刻,在银杏叶飘落的空地上,一只被风吹起的空塑料袋——是的,那只曾在五环路上引发急刹车的空塑料袋——正缓缓飘过林小满的车轮。她甚至没有看它一眼,只是微微偏了偏龙头,像风吹过水面一样自然地绕了过去。
她的身体已经学会了:有些东西不需要计算,只需要生长。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-30 03:33
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社