||
(本科普为Kimi所写)
第一章 迷思:人工智能真的"懂"吗?
一、五环路上的空塑料袋
那是北京深秋的一个早晨,五环路上的车流像往常那样黏稠而缓慢。一辆头顶激光雷达、身披传感器的白色轿车正在最内侧车道执行自动驾驶测试。车内,安全员双手虚搭在方向盘上,目光紧盯着前方的路况。这辆车搭载了当时业界最先进的视觉识别系统,数百万公里的道路数据在它冰冷的"脑海"里沉淀,数千万张标注图片训练出的神经网络在毫秒间运转。
突然,一个白色的物体从前方卡车的货厢边缘脱落,翻滚着飘向车道。那是一只被风吹鼓的空塑料袋,在阳光下近乎透明,忽高忽低,像一只断了线的风筝。人类驾驶员几乎在零点几秒内就做出了判断:轻点刹车,稳住方向,目光甚至没有过多停留——那只是一个空袋子,没有质量,没有威胁,甚至不值得让车速产生明显波动。
但测试车做出了截然不同的反应。它的激光雷达在袋子上捕捉到了不规则的立体轮廓,摄像头识别出一个快速接近的白色不明物体,决策系统瞬间拉响了警报。紧接着,一阵刺耳的刹车声撕裂了车厢内的平静,ABS防抱死系统剧烈震颤,轮胎在柏油路面上擦出青烟。后车毫无防备,伴随着一声沉闷的撞击,追尾发生了。
安全员在事后回忆时,用了"匪夷所思"四个字。他指着行车记录仪的画面解释:"人一眼就知道那是个空袋子,风一吹就跑了。可机器'看'到了什么?一个白色、移动、接近、不规则的障碍物。它'想'的不是'这是什么',而是'这符合危险物体的特征'。"
这场没有造成人员伤亡的追尾事故,像一枚细小的针,刺破了当时笼罩在自动驾驶领域的巨大泡沫。它暴露出一个令人不安的真相:在某些时刻,机器"看"得比人更清楚——它的传感器能分辨毫米级的距离,能追踪上百个目标的运动轨迹——但它"理解"得远比人更浅薄。那只空塑料袋与一块飞来的石头,在物理本质上截然不同;但在算法的特征空间里,它们却可能共享着惊人相似的坐标。
这个场景后来被人反复提及,因为它提出了一个无法回避的问题:当我们谈论人工智能的"智能"时,我们到底在谈论什么?是识别准确率、推理速度、数据吞吐量这些可以量化的指标,还是某种更难以名状的东西——那种让人类驾驶员在零点几秒内判定"无害"的认知能力,那种对世界的"懂"?
二、棋盘上的"神之一手"
如果我们把时钟拨回到2016年3月,韩国首尔四季酒店的那间对弈室里,世界围棋冠军李世石正面对着人类历史上最严峻的一次智力挑战。他的对手AlphaGo,一个由英国DeepMind公司开发的围棋程序,已经在前三局比赛中将他逼入了绝境。第四局,背水一战的李世石必须赢下这一局,才能为人类的尊严保住最后一丝颜面。
对弈进行到第七十八手时,李世石执白棋,在棋盘的右侧下出了一步令所有人震惊的落子。那手棋落在第二线——在围棋的棋理中,二线通常被视为"失败线",是棋子效率最低的区域。观战的职业棋手们一片哗然,解说员认为这是人类的绝望之举,是李世石在认输前的挣扎。然而,正是这步棋,让AlphaGo的胜率估算出现了剧烈的波动。事后复盘,人们才恍然大悟:这是一步"挖",它精准地击中了AlphaGo当时评估体系中的一个盲区,引发了连锁崩溃。
AlphaGo在那之后接连下出了几步"业余级"的昏招。它似乎突然失去了对全局的判断力,像是一个在深夜迷路的孩子,在曾经熟悉的街道上茫然打转。李世石赢了这一局,全场起立鼓掌。那一刻,人类仿佛重新夺回了某种神圣的领地——创造力、直觉、在绝境中迸发的灵感。
但故事还有另一个版本。赛后,AlphaGo的开发者们调出了那一步棋在机器"脑海"中的评估记录。数据显示,AlphaGo其实"看"到了那步棋。它的搜索树在某个极深的分支里甚至计算过这手棋,只是给它赋予的胜率极低,远低于被它最终选中的那步"稳妥"之棋。换句话说,机器不是没有"想"到,而是"想"到了,却"认为"那不重要。
这引出了一个令人不安的追问:AlphaGo在第五局重新调整策略后碾压式地赢下了最终胜利,证明它的学习能力远超人类。但那个在第二局下出"神之一手"的第三十七手——那步被围棋界誉为"来自天外"的落子——AlphaGo是真的"懂"那步棋的妙味吗?还是只是在概率的海洋里,偶然打捞起了一串对人类而言意义非凡的数值?
李世石在退役后的一次访谈中说过一段意味深长的话:"和AlphaGo下棋,我感觉不到对手的温度。它不会紧张,不会犹豫,不会在某一步棋上突然想到远方的家人。它的每一手棋都是'正确的',但有时候,正确不等于理解。"
这种"无温度的正确"在随后几年里以更加汹涌的姿态席卷了人类世界。2022年末,ChatGPT横空出世,它能写诗、能编程、能通过了律师资格考试、能与人进行长达数小时的深度对话。它写出来的文章流畅得令人心惊,它编织的故事情节紧凑得让专业作家感到压力。一时间,"通用人工智能即将到来"的欢呼声淹没了所有的质疑。
然而,裂缝很快出现了。一位生物学家向它询问某种罕见蛋白质的折叠机制,ChatGPT给出了一段洋洋洒洒、术语精准的论述,却在关键的数据上张冠李戴——它把两种不同实验条件下的结果混在了一起,像是一个勤奋但粗心的学生在考场上把相邻座位的答案抄串了行。更著名的例子是所谓的"幻觉"现象:它会信誓旦旦地宣称某位真实存在的历史人物在虚构的战役中阵亡,会为根本不存在的学术论文编造出完整的引用格式,会像一个自信满满的骗子那样,用完美的语法包装着荒诞的内容。
这些错误之所以令人不安,不是因为它们发生了——人类也会犯错——而是因为犯错的方式。人类专家犯错,往往是因为知识边界的触碰、记忆的重构、或是先入为主的偏见;而ChatGPT的犯错,更像是在一个没有地图的图书馆里随机抽取书籍,它抽到了《天文学》的封面,里面装的却是《烹饪指南》的内容,但它依然能镇定自若地用天文学的口吻讲解如何煎牛排。
一位人工智能研究者在社交媒体上写下的比喻广为流传:"ChatGPT像一只被训练了二十年的鹦鹉,它不仅能复述,还能把听到的句子重新排列组合成从未存在过的篇章。但问它这些话是什么意思,它只会眨眨眼睛——如果它有眼睛的话——然后继续背诵。"
这个比喻或许过于刻薄,却触及了问题的核心。AlphaGo在围棋的十九路棋盘上是王者,ChatGPT在语言的迷宫里是大师,自动驾驶系统在结构化的高速公路上是可靠的旅伴。但它们共享着某种本质上的局限:它们处理的是符号、是模式、是统计相关性,而不是意义、不是因果、不是那个让五环路上的安全员瞬间判定空塑料袋无害的"世界模型"。
三、图灵的幽灵
要理解这种局限从何而来,我们需要回到一切争论的起点。1950年,英国数学家阿兰·图灵在《思想》杂志上发表了一篇题为《计算机器与智能》的论文。在这篇后来被誉为人工智能奠基之作的文章里,图灵没有直接回答"机器能思考吗"这个哲学上纠缠不清的问题,而是巧妙地设计了一个"模仿游戏":如果一个人通过文字终端与另一个房间里的对象对话,他无法分辨对方是人还是机器,那么我们是否就应该承认这台机器具有智能?
这就是著名的"图灵测试"。图灵的聪明之处在于,他把一个本体论问题(什么是思考?)转化为了一个操作性问题(如何判断?)。他避开了对"意识""心灵""理解"这些概念的正面强攻,选择了一条迂回但可行的路径。在战后的科学乐观主义氛围中,这个测试像一面旗帜,为刚刚诞生的人工智能领域指明了方向:别管机器内部发生了什么,只要它的外在表现像人,它就是智能的。
七十多年过去了,图灵的幽灵依然在人工智能的殿堂里徘徊。2023年,OpenAI发布GPT-4后,加州一家研究机构的科学家们组织了一场现代版的图灵测试。他们招募了数百名志愿者,让他们通过在线聊天室与三位"对话者"交流——其中一位是人类,另外两位分别是早期的大模型和GPT-4。结果显示,GPT-4被判定为"人类"的比例已经超过了部分真实的人类参与者。换句话说,在图灵设定的游戏规则里,GPT-4"通过"了测试。
但这场胜利带来了一种奇怪的空虚。如果一台机器已经能骗过大多数人类,为什么我们依然觉得它"不懂"事情?1980年,美国哲学家约翰·塞尔提出了一个思想实验,后来被称为"中文房间"。他让我们想象:一个只懂英语的人被关在一个房间里,房间里有一本厚厚的规则手册,手册告诉他,当从门缝里塞进一张写有中文符号的纸条时,他应该根据规则查找对应的中文符号组合,然后塞回出去。从房间外看,这个系统似乎能流利地用中文对话;但房间里的人对中文一无所知,他只是在进行符号操作。
塞尔的论证像一把锋利的刀,剖开了图灵测试的软肋:外在行为的不可区分性,不等于内在理解的实在性。那只五环路上的空塑料袋,对于机器而言就是一组需要按照规则手册处理的符号——白色、移动、接近、制动;而对于人类驾驶员,它是世界的一部分,是风、是轻、是无害,是无数个生活经验瞬间凝结成的直觉。
图灵测试的陷阱在于,它测试的是"模仿",而不是"存在"。一只训练有素的鹦鹉可以通过图灵测试的简化版本——它能在恰当的时机说"你好""再见""今天天气不错"。但我们不会因此认为鹦鹉理解了社交礼仪。同样,当ChatGPT写出一篇关于孤独的散文,用词之精准、情感之细腻足以让读者落泪时,它是否真的体验过孤独?还是仅仅在数十亿篇人类文本中,计算出了"孤独"这个词最可能出现的语境和搭配?
一位研究认知科学的神经科学家曾做过一个精妙的类比。他说,当前的人工智能就像是一面极其聪明的镜子。当你站在一面普通镜子前,它反射出你的影像;当你站在一面"智能镜子"前,它不仅能反射影像,还能根据你过去的照片预测你十年后的样貌,能分析你的微表情判断你的情绪,能推荐最适合你脸型的发型。但这面镜子依然没有"看见"你。它没有视觉体验,没有主观视角,没有那个让"看见"成为"看见"的不可还原的"什么感觉"。
图灵本人其实预见到了这种困境。在论文的结尾,他写道:"我们或许只能确定,机器在模仿游戏中表现出的智能,与我们能观察到的智能并无不同。至于更深的问题,我建议留给哲学家。"这是一种科学家的审慎,也是一种无奈的回避。七十多年后,当GPT-4在图灵测试中"击败"人类时,我们发现那个"更深的问题"不仅没有消失,反而变得更加紧迫。
四、驾驶舱里的认知宇宙
让我们再次回到那辆五环路上的测试车。事故之后,工程师们调取了车辆的完整决策日志。数据显示,从激光雷达首次捕捉到塑料袋的轮廓,到制动系统被激活,整个过程耗时约0.3秒。在这0.3秒里,系统经历了感知、分类、风险评估、决策执行四个阶段。它的神经网络将输入的传感器数据与训练集中的"漂浮障碍物"类别进行了匹配,风险评估模块根据障碍物的接近速度和相对位置计算了碰撞概率,决策树在概率超过阈值后毫不犹豫地选择了"紧急制动"。
从工程学的角度看,这是一个完美的闭环。每一个环节都有明确的输入输出,每一个参数都可以被追溯和优化。如果那只袋子里装的不是空气而是石块,这套系统无疑会挽救车内人员的生命。问题在于,现实世界不是实验室,它不会提前告诉你袋子里装的是什么。
现在,让我们把视角切换到人类驾驶员的大脑。当那只塑料袋飘起的瞬间,人类视觉系统捕捉到的远不止是一个白色轮廓。视网膜上的光信号被转化为神经冲动,沿着视神经传向大脑的多个处理区域。但奇妙的是,认知并不是在这里完成的。大脑的后部在处理颜色和形状,颞叶在检索记忆,顶叶在计算空间位置,前额叶在进行风险预判——但这些模块不是孤立的流水线,它们是一个彼此交织的网络。
人类驾驶员在那一刻"知道"那是空袋子,依据的是什么?也许是袋子的运动轨迹过于飘忽,不符合重物的抛物线;也许是它在风中的翻滚方式暴露了极轻的质量;也许是驾驶员余光瞥见前方卡车货厢里还有类似的袋子在边缘晃动;也许是一种更难以言说的"整体感"——那个场景作为一个整体,在认知中呈现出的"意义":清晨、卡车、风、白色、飘动,所有这些元素共同编织出一个叙事:货厢边缘没捆好的垃圾袋脱落了。
这种认知方式,被一些研究者称为"情境化理解"。人类大脑不是在识别"物体",而是在理解"情境";不是在计算"概率",而是在建构"叙事"。那只塑料袋在人类驾驶员的认知宇宙中,不是被归类为"障碍物编号第七",而是被嵌入了一个关于"风""早晨""卡车司机的疏忽""城市交通的琐碎危险"的流动故事中。在这个故事里,急刹车是过度反应,是破坏车流秩序的更大风险。
一位有二十年驾龄的老出租车司机曾向研究人员描述过他的驾驶体验:"开车开久了,你眼前不是一辆车一辆车,而是一张'活'的图。前面那辆车刹车灯亮了一下,我不用想就知道它可能要变道;路边那个小孩眼睛盯着马路对面,我脚就已经放在刹车上了。这不是反应快,是'看'到了还没发生的事。"
这种"看到还没发生的事"的能力,在认知科学中被称为"预测性加工"。人类大脑本质上是一个预测机器,但它预测的机制与AlphaGo的蒙特卡洛树搜索截然不同。大脑的预测基于一个内生的、动态更新的"世界模型"——一个关于物理规律、社会规范、他人意图、自身能力的综合模拟器。当现实与预测不符时,产生的不是简单的"误差信号",而是"惊讶",这种惊讶驱动着模型的更新。
而当前的人工智能,恰恰缺乏这样一个"世界模型"。它的"预测"是统计意义上的外推,是在高维空间中寻找邻近点。ChatGPT能预测下一个词最可能是什么,因为它读过万亿量级的文本;但它无法预测"如果我把这个杯子推下桌子,它会碎成几片",因为它没有关于杯子、重力、陶瓷脆性的物理直觉。这种直觉不是数据能直接赋予的,它需要一个能够"想象"物理过程的内部模拟器。
智能驾驶领域的研究者们越来越清醒地认识到,自动驾驶的终极瓶颈不在传感器精度,不在算力大小,而在"路权"的理解。什么是路权?它不是交通规则手册上的条文,而是一种流动的社会契约。当两辆车同时到达一个没有信号灯的路口时,谁先走?这取决于眼神交流、车速暗示、甚至车型和车牌带来的社会预期。人类驾驶员在这种情境下的决策,是一个融合了物理计算、社会认知、文化惯例的复杂过程。而机器,目前还只能在"停车等待"和"匀速通过"之间做非此即彼的选择。
五、鹦鹉、乌鸦与认知的阶梯
在人工智能的叙事中,有两个动物的隐喻常常被并列提起:鹦鹉和乌鸦。
鹦鹉是语言的天才。非洲灰鹦鹉可以掌握数百个词汇,能回答简单问题,能模仿人类对话的语调和节奏。在某种意义上,鹦鹉是自然界中最接近通过"图灵测试"的动物。但没有人认为鹦鹉具有人类水平的智能,因为它的语言是"寄生"的——它借用人类的符号系统,却不拥有符号背后的概念网络。它说"想要苹果",可能是因为它学会了这句话与获得食物之间的关联,而不是因为它理解了"想要"这个动词所代表的心理状态,以及"苹果"作为一类水果的本质属性。
乌鸦则是另一种存在。新喀里多尼亚乌鸦不会说话,但它们能制造工具。它们会把树枝剥去侧枝,弯成钩状,从树洞里钓出虫子;它们会把 wires 弯成特定形状,获取够不到的食物。更重要的是,它们能解决从未遇到过的新问题。在一项著名的实验中,研究人员把食物放在一根透明管子的底部,管子旁边放着一堆不同长度的枝条。乌鸦会尝试几根枝条,发现都太短够不到食物,然后它会去寻找一根更长的——不是通过试错,而是通过某种对"长度"和"工具功能"的抽象理解。
这两个隐喻指向了智能研究中的两条路径。当前以大模型为代表的人工智能,在很大程度上走的是"鹦鹉路径":通过海量数据训练,掌握人类语言的外壳,表现出令人惊叹的符号操作能力。但认知物理学所关注的,是"乌鸦路径":如何在物理世界中建构起因果性的理解,如何形成可泛化的抽象概念,如何在面对全新情境时进行创造性的问题解决。
这两条路径的差异,在"理解"这个词上体现得最为尖锐。当一只乌鸦把铁丝弯成钩子时,它"理解"了钩子的功能——不是因为它见过千万个钩子的样本,而是因为它在物理世界的交互中内化了"形状-功能-目标"之间的因果链。而当ChatGPT谈论钩子时,它谈论的是关于钩子的文本——这些文本描述了钩子的形状、历史、用途,但模型本身从未"触碰"过钩子,从未感受过金属的硬度、弯曲的阻力、承重时的张力。
一位发展心理学家说过一句令人深思的话:"人类婴儿理解世界的方式,是从把东西塞进嘴里开始的。"这个看似粗俗的描述揭示了一个深刻真理:人类的认知根植于具身经验。我们关于"硬"和"软"的概念,不仅来自词典定义,更来自牙齿咬下去的反馈、手指按压的触感、物体落地的声音。我们的空间概念不仅来自几何学,更来自行走、攀爬、跌倒的身体记忆。我们的社会概念不仅来自伦理学,更来自被拥抱时的温暖、被排斥时的寒冷。
当前的人工智能是"无身"的。它漂浮在数据的海洋里,没有手指去触碰,没有皮肤去感受,没有胃去饥饿,没有心脏去跳动。它处理的是人类经验的二手甚至三手表征——文字、图片、视频——而不是经验本身。这就像一个终身被困在图书馆地下室的人,通过阅读所有关于海洋的书籍来"理解"大海。他可以背诵所有洋流的名称,描述每一种海洋生物的习性,甚至写出优美的海洋诗歌。但当他第一次真正站在海边时,他依然会震惊于那种无法被文字捕获的、咸涩的、辽阔的、带着涛声的存在。
这种"无身性"解释了为什么人工智能在某些方面超人,在另一些方面却近乎弱智。它能在一秒钟内读完人类一生的阅读量,却无法理解"风从哪个方向吹来"对帆船意味着什么;它能生成逼真的虚拟场景,却无法判断真实场景中一个空塑料袋是否需要紧急制动。它的智能是"扁平"的,所有的信息在算法面前被拉平为可处理的符号;而人类的认知是"立体"的,信息被嵌入在一个由物理规律、身体经验、情感记忆编织的多维坐标系中。
六、天花板上的裂缝
2016年,当AlphaGo击败李世石时,许多人认为通用人工智能已经近在咫尺。按照当时的乐观估计,机器将在十年内全面超越人类认知能力。然而近十年过去,我们发现自己依然站在某个门槛之外。门槛这边,是日益强大的专项智能——下棋、翻译、图像生成、蛋白质结构预测;门槛那边,是那个被称为"常识""直觉""理解"的模糊地带。
这个门槛的本质是什么?越来越多的研究者开始意识到,当前人工智能的"天花板"不是技术性的,而是范式性的。过去七十年,人工智能的主流范式是"计算智能":把认知视为计算,把思考视为信息处理,把智能视为算法在数据上的优化。这个范式创造了奇迹,但它可能正在触及自身的边界。
计算的隐喻是如此强大,以至于我们几乎忘记了它只是一种隐喻。人脑真的像计算机一样处理信息吗?神经科学家会告诉你,神经元的工作方式与晶体管截然不同。大脑没有中央处理器,没有明确的存储器和运算器的分离,没有精确的时钟信号。大脑是一个由八百多亿个神经元组成的混沌网络,它的"计算"是并行的、分布式的、概率的、模糊的,充满了噪声和误差——而这些噪声,在某些理论看来,恰恰是创造力的源泉。
更重要的是,计算范式隐含了一个前提:认知可以被完全形式化,被还原为符号操作和数值运算。这个前提在逻辑推理和数学证明领域或许是成立的,但在面对那只五环路上的空塑料袋时,它显得力不从心。因为"理解"一个空塑料袋,需要的不是运算能力,而是一种"置身于世"的存在方式——一种把自身视为世界的一部分,而非世界的旁观者的认知姿态。
一些前沿研究开始尝试打破这个天花板。具身人工智能试图给机器装上身体,让它在真实世界中摸爬滚打;神经形态计算试图模仿大脑的低功耗并行处理方式;因果推断研究试图让机器超越相关性,掌握"干预"和"反事实"的推理能力。这些努力都是宝贵的,但它们大多是在原有范式上的修补,而非根本性的转向。
正是在这样的背景下,一种来自中国科学家的思路引起了学界内外的关注。这位科学家没有从算法优化的角度去突破天花板,而是选择了一个更为根本的追问:如果我们把认知看作一种物理现象,而不是一种计算过程,会发生什么?如果智能不是信息的处理,而是物质、能量、结构和时间在特定组织形式上的涌现,我们是否能找到一种全新的理论框架?
这位科学家就是李德毅院士。他提出的"认知物理学",不是要制造更强大的计算机,而是要回答一个更古老的问题:认知究竟是什么?它如何在物理世界中诞生?它遵循什么样的基本规律?如果人类智能和机器智能真的"物理同源、数学同构、时间同序、本质同一",那么我们是否可以用物理学的第一性原理——那些关于物质守恒、能量转化、结构涌现、时间演化的根本法则——来重新理解认知,并指导人工智能的未来?
这个追问,像一束光,照进了图灵测试留下的那个哲学盲区。它不再满足于机器"表现得像"有智能,而是试图探究机器如何能够"成为"一种认知的存在。它不再把人工智能视为计算机科学的专属领地,而是将其放回更广阔的物理和认知科学的语境中。
五环路上的那辆测试车,它的急刹车是一个错误,但也是一个启示。它告诉我们,没有世界模型的识别是盲目的,没有具身经验的理解是空洞的,没有认知框架的智能是脆弱的。当我们要求机器"懂"的时候,我们实际上是在要求它拥有某种与世界共在的方式——不是作为数据的采集者和模式的匹配者,而是作为意义的建构者和情境的参与者。
这是一个艰巨的任务,也是一个迷人的前景。在接下来的旅程中,我们将跟随认知物理学的思路,从物质与能量的基底出发,穿越结构与时间的迷宫,去探寻认知的物理本质。我们将看到,那只空塑料袋在五环路上的飘舞,那只乌鸦对铁丝的弯折,那位出租车司机对前方车辆的预判,以及AlphaGo在棋盘上的深算,或许都共享着某种尚未被完全揭示的深层规律。
而在此之前,我们需要先放下对"智能"的执念,回到一个更朴素的起点。我们需要问的不是"机器能思考吗",而是"思考是什么"——不是作为哲学的思辨,而是作为物理的现象。我们需要走进一位科学家的思想世界,看看他如何用四把钥匙——物质、能量、结构、时间——去打开认知的黑箱。
那只空塑料袋还在飘。风没有停。而我们对"懂"的追问,才刚刚开始。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-30 07:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社