|
近年来,一场名为“具身智能”的风暴正席卷而来。当机器学习系统从虚拟走向现实,试图操控物理世界时,一个古老而尖锐的问题再次浮现:控制已死?
面对日新月异的AI演示,许多控制学人感到了前所未有的焦虑:我们建立在严谨数学之上的“屠龙之技”,是否真的正在被似乎大力出奇迹的数据模型所替代?本文正试图从这场焦虑出发,梳理从深度学习到世界模型的技术演进,剖析传统控制在泛化需求下面临的困境和机遇。本文的核心观点是:当AI越接近物理执行,“黑盒”模型越试图包揽一切时,我们对“安全”的需求就越刚性。AI的角色是高层“规划”,而控制理论的角色则是底层的“安全基底”与“执行闭环”。除此之外,面对日益复杂的被控对象和场景,我们控制理论也有自己的仗要打,我们将从AI的挑战谈起,以生物(鱼群)的启示作喻,最终试图探讨一个核心问题:在智能的新范式下,控制理论将如何演化?它不是要死亡,而是要在一个“AI-Control”协同的新架构中,扮演不可或缺的角色。
一、“控制已死”的又一次兴起先不管前几次的兴起因为什么原因,近两年来,看着各种机器人的演示demo,让多少控制理论研究者心神俱震,“控制已死”的声调越来越高。
遥想当年深度学习刚出来的时候,虽然也有类似的话,但各个控制大组稳坐钓鱼台,继续操练着比如各种攻击机制的改进,那个时候要是说XX组转了深度学习,那是新闻。 这两年,只要是参与相关学术会议,最常听到的是什么呢?“你听说了没,XX组转去具身智能了”。对于这种现象,有人会说,那是因为搞这个能申请到经费。但你要说深度学习突起的那几年,怎么就没有呢?
站在今天的角度回头看,大概率因为 深度学习只是一个“新工具”,解决的是感知(Perception)和拟合(Fitting)问题。控制学者们迅速发现了深度学习的价值,但属于拿来主义:作为超级传感器和高级拟合器。诚然在诸如无模型控制和系统性能分析上起到了一些推进,但不至于全部梭哈。
这些年来,我们看到各种名词层出不穷,眼花缭乱,但对于控制界的人来说,除了红极一时的神经网络控制,可能更多的是看看推送,直到计算机学界的主要焦点从纯虚拟环境到试图操控现实。为了更清楚的展开论述,我们先来回顾一下名词的演变。
这场风暴(具身智能),是技术演进与高质量需求交织下的必然结果。
我们可以清晰地看到一条主线:
神经网络 (NN):其起因是模仿生物大脑,优点是实现了非线性拟合。但缺点是模型浅层,受限于“维度诅咒”和梯度消失,只能处理简单、结构化的数据。
深度学习 (DL):起因是算力(GPU)和大数据解决了NN的训练难题。其优点(例如CNNs/RNNs)是成为了强大的“模式识别引擎”,在感知(Perception)上(如看和听)取得了超越人类的性能。但其缺点是,它本质上仍是一个“高级拟合器”,缺乏常识推理能力,且需要海量的标注数据。
大语言模型 (LLM):起因是Transformer架构解决了长程依赖问题,其“注意力机制”和“缩放定律”(Scaling Law)使其得以吸收海量文本数据。其优点是涌现出了强大的“零/少样本”的常识推理和生成能力,成为了一个通用的“文本大脑”。但其缺点也极其明显:它是“缸中之脑”,不接地气,无法感知多模态信息,更无法与物理世界交互。
VLA (视觉-语言-动作) 模型:起因正是为了解决LLM的“缸中之脑”困境,使其“具身”。因此,VLA正成为这场风暴的中心,它们试图将(来自DL的)视觉感知、(来自LLM的)语言理解和(新加入的)动作执行统一到同一个大模型框架中。优点是它终于让AI“手眼协同”,能理解并执行物理任务。缺点是其“动作”部分是最大的短板:它要么是简单的“行为克隆”,需要海量的(动作)数据,且在未见过的场景下极其“脆弱”(Brittle);要么它只是生成“文本规划”,严重依赖底层的控制器。它缺乏对物理动力学的深度理解。
世界模型 (World Model):起因正是为了解决VLA的“数据饥渴”和“泛化脆弱”问题。因此,这场演变正从大语言模型(LLM)和VLA向世界模型(World Model) 快速推进。不再是简单地拟合(状态-动作)的表象,世界模型试图在内部学习一个物理世界的动力学模拟器。这种演进(指向世界模型)是革命性的,并直接激化了矛盾:一方面(优点):它使得AI“学会了做梦”。由于它能在内部“预演”未来,它生成的策略(规划)会比纯粹依赖(LLM)推理或(VLA)克隆的策略更加完善和深思熟虑。它可以在“梦境”(内部模拟)中进行高效、安全的强化学习,这解决了VLA的数据效率低下和物理交互危险的缺点。另一方面(新缺点/矛盾):也恰恰是这种强大的内部模拟能力,使其成为了“最强的自动测试工程师”。它会在自动生成的成千上万种繁多场景下(即“长尾场景”),迅速地、无情地暴露出现有策略(无论来自LLM还是RL)的任何微小不足。世界模型越强大,它能“想象”出的“极端工况”就越多,这对策略的可靠性(安全性)提出了近乎无限的挑战。
进一步描述这一重大冲击之前,我们先来看看当时控制理论主导下的机器人行业到了什么地步? 用几个字总结来说,此时,控制理论和传统机器人学界,特别对于大众用户来说,弥漫着一种“大玩具”感:
举个例子,传统方法能做到“人类觉得难”的事:例如工业机械臂以微米级精度重复运动,航天器精准的对接,或者让“阿特拉斯”(Atlas)机器人完成后空翻(想象到波士顿动力那些惊艳的demo)。但它做不到“人类觉得易”的事:例如叠衣服、在杂乱的厨房里找到特定品牌的麦片、或者理解“帮我收拾一下桌子”。这就是“大玩具”感的来源: 它们很“强”,但很“笨”。像“大狗”(BigDog)或“阿特拉斯”这样的机器人,一方面是传统控制理论的巅峰(例如 ZMP、MPC 控制)。但另一方面,它们也暴露了传统方法的天花板:它们是“马戏团的动物”,在高度结构化的演示中表现完美,但极其“脆弱”(Brittle)。它们无法进入一个未经事先编程的未知环境,去“理解”并“执行”一个模糊的任务。
再举一个例子:我们印象中机械臂去取一个部件,就做一个简单的从a点移动到b点,1个机械臂。就这么一个简单场景,你可以用任何方法去做。而且我相信那些传统的,改进的,发挥到极限的方法,它一定比你大模型现学现卖要好的多。但是呢?你会买这种机器人吗?现在大众所希望的是什么呢?既能端茶送水,又能切菜炖肉,现在这个阶段大家考虑的仍然是:场景要越来越复杂,实现的功能要越来越好。而不是说你实现的某个功能有多好。 就像拿苹果一样,如果你知道苹果在什么位置,知道人在什么位置,你把苹果从那地方拿到人这里。这个过程你可以无限简化,无限细分,然后每个都用传统的方法。但是你现在的问题是苹果有可能在这个家的所有的地方,任何一个地方,而用户可能下一秒就说我想吃梨。这种对功能广度和场景泛化的极致追求,恰恰是世界模型试图解决的。它允许AI在内部想象出苹果在任何地方、或用户索要梨的场景,并预先训练一个应对策略。
所以说目前如果考虑机器人行业的发展的话,与其说某项技术有没有前景,倒不如说哪项技术更有可能实现当前所面临的主要任务,当前就是市面上没有一个非常全面的机器人。
这段时间有很多听众,有很多读者去各种平台上询问。说既然现在都是大模型,那么我们这个控制还有没有什么存在的必要性啊?或者说该怎么发展呀?我们要知道一件事情,控制上做的改进一般属于性能上的提升。某个具体具体不能在具体的任务上的性能的提升。 但现在我们的机器人行业面临是这种问题吗? 现在的问题不是说在某项具体任务上发挥出色,而是说让机器人尽可能的完成许多任务。
而如果我们已经得到了很多市面上的产品,大家竞争到一片红海的时候,那你就可以说了,哎我们这里用了一种这个基于模型的方法呢,把这个性能又提高了一下,有可能之前呢拿着苹果的成功率是98%,我们能提高到99%,那这就是传统学科的用武之地。而不是说我这个机器人只能拿苹果,它不像其他的可以叠衣服,可以拖地,可以关门。虽然说每一项效果都不能全部如意。但是它至少功能多呀,它会的多啊。
如果说上面说的话比较模糊的话,那么这里就再清楚一些。不要对某项技术崇拜的很高。只要不符合目前所面临的主要任务,该搁置就搁置,不要觉得不学这个就是离经叛道。一个技术让你从5块钱能挣6块钱,和一个技术让你从5块钱能挣100块钱。你会选哪个?那当然是先从5块钱挣到100块钱,然后再往上提高的时候,看看怎么从100块钱挣到101块钱。
看到这,读者可能会有这么一种感觉,那完全可以高声宣布控制已死了啊,我们再回过头来看上面,其实隐含着一个不起眼但是致命的问题:“现在的问题不是说在某项具体任务上发挥出色,而是说让机器人尽可能的完成许多任务。”,这里隐含着一个用户假定:机器人虽然不能非常出色的完成所有任务,但是它能完成的任务一定保证可以完成,而不会出事。如果你的产品,会开车,但开车20%可能会出事,会拿东西,但是10%可能会一拳给你炫飞。那即使你的功能宣称的多,用户:我还是自己干吧。
这其实也算是从虚拟到现实的一个问题。比方说你用算法做推荐。大家可能刷到了不喜欢的内容也会一笑而过。但是如果用算法做自动驾驶路线跟其他的障碍物产生了一些接触,那么用户就没有下次体验的机会了。 而未来世界模型的演进,恰恰将会把这个安全问题推向了极致。它一方面通过内部模拟,可能将拿苹果的成功率从98%提升到99.9%;但另一方面,它也会在内部模拟中,自动发现那0.1%的“长尾场景”(Long-tail Scenarios)——比如''灯光昏暗时”、“苹果被部分遮挡时”或“机械臂关节轻微磨损时”——在这些场景下,原策略会100%失败。
因此我们可以看到,当前宣称基于大模型的工作主要分化为两条路径:
一是(也是较常见的)将大模型作为“轨迹生成器”,而把轨迹跟踪交给底层的(通常是手动设计好的)控制器。但为了安全考虑,很多工作也在底层控制器上做了安全保证。
我们也注意到,二是(也是更激进的) 有一些基于大模型的工作(比如VLA)则试图替代控制的主要作用,利用他们所称之为“动作专家模型”的部分,直接输出某个电机或者某个关节需要达到的状态。 这种“端到端”的黑盒策略,跳过了所有传统的手动控制器和安全规则,使得一个问题更加突出的摆在眼前:当一个黑盒模型试图包揽从语义到物理执行的一切时,它就必须在“绝对可靠”和“需要保底”之间二选一。而鉴于“绝对可靠”在数学上无法证明,这就使我们对“保底措施”的依赖变得更加迫切和刚性。
综合来看,无论是前者(生成轨迹)还是后者(直接输出状态),反而大大地加强了对于安全验证的迫切需要。 因为当“黑盒”试图包揽一切时,我们就越需要一个独立于它的、基于数学的“形式化验证器”来充当最后的“刹车”。 这就引出了控制理论的安全基底作用。这个基底的根本任务,就是在“语义规划”和“物理执行”之间建立一道防火墙,并明确二者的职责分工: 大模型只负责“做什么”,而控制理论(即这个安全基底)负责保证“怎么做”是可靠且安全的。那些所谓的“保底的操作”或“基于规则的保底操作”,在现代控制理论中有着精确的对应,包括但不局限于:
1、控制屏障函数 (Control Barrier Functions, CBFs) ,CBF 的作用就是定义一个“安全集”(例如“机械臂与人的距离必须大于0.3米”),并强制底层的控制器(无论是手动的还是学习的)绝不能让系统状态越过这个边界。
2、李雅普诺夫函数 (Lyapunov Functions) 。它则用来保证底层控制器在执行“停在目标点”或“跟踪轨迹”这类指令时,是真的稳定收敛的,而不会无限震荡或发散。
一方面,我们可以手工设定规则或者使用手工可以构造并保证稳定的控制器,这可以解决绝大多数问题,尤其是规划为主体,且控制系统知识较为完备的情况下。(这也是不少读者对于具身智能demo的惊艳和对控制感到失望的原因所在),但在复杂的现实世界中,某些情况下,手动设计这些 CBF 和 V(x)几乎和传统控制一样困难。因此,利用机器学习去自动发现和验证这些安全证书,无论是早期研究中的黑箱逼近,还是这两年的白盒寻找,都在这起到关键作用。特别对于那些期望大模型或者数据搞定一切的“数据驱动控制”,这是重中之重。
(这里补充一个笔记,有人说,用神经网络和形式化验证来做的这套思路已经好多年了啊,这算不得什么新鲜玩意,但我们回过头来看,我们一开始期望借助计算机去寻找李雅普诺夫函数,本意是为了启发人类设计。但早期的“黑盒逼近”方法只能证明稳定,却无法提供洞察, 所以我们“仍然不知道”为什么稳定。而如果我们能发现新的“白盒”解析形式,下一次就可以将其作为新的设计先验,这就是一个良性循环。 这个思路绕了一个小弯,但随着2024-2025年计算机学界的进展,从控制人的视角里,也算是回到了启发人类的正途上。)
一言以蔽之,我们可以将工程任务分成规划和控制两个层面。大模型(LLM/VLA/世界模型)充当了高层的“语义规划器”和“场景生成器”,而底层的“动力学控制器”则必须由我们讨论的、可被形式化验证的控制理论(如 CBF 和李雅普诺夫框架)来充当。 虽然大多数情况下是互相融合的,但有的工作是不断压缩控制的范围,有的工作是不断压缩规划的范围,两种技术路线各有各的好处,从这个角度理解,也许更能看清楚当前的技术进步。
那么我们这里就可以理解。为什么深度学习兴起的时候,控制学界的人比较淡定的。或者说大部分比较淡定。是因为深度学习在处理软件算法的时候有些小错误,错了就错了。不会造成什么影响。就说图像识别。有哪家敢宣称自己100%识别到吗?不还是照样使用了。更主要的是那点差距,你靠控制理论也没法给他保底。但是一旦接触到工程,那就要做周全的方案。尤其是目前这个产业需求之下。既要功能多,又要让用户体验到安全。这需要两方面都懂的人。
进一步,如果我们真正通过几年的努力,进入到那个:市面上很多成熟的机器人、每一种机器人都能完成许多许多的功能的局面。那么我们那个时候又将进入对于性能方面的提升时期,而不是对于功能方面的拓展。那么此时这个最优控制了或者其他形式的XX控制可能又要提上日程。当然是以什么样的形式进入?那我们也没法预测,只能按照这种需求上来判定。或者说竞争上来判定。一个经验是他不可能是丝毫不动的直接拿过去。而肯定要结合一些那个时候最新的进展来做一些演化。在历史书上也被称为螺旋式上升。当然了,这里只是举一个随意想到的例子。
既然是感悟帖子。那就属于比较散乱的记录。在近年的某次学术会议上,观众向来报告控制理论结果的报告人提出了这么一个问题。具身智能如此如此的迅速吸引了大家的关注,那么您认为控制理论该走向何方呢?
我们这里给出三个应对方式,
一,大力批判具身智能的黑箱效应,认为它不稳定,我们是保证稳定的。
二,积极承认目前的业内需求。承认目前的主要需求(功能广度)是由大模型/世界模型来驱动的。但同时要强调,这些模型越强大,它们自动暴露出的“安全漏洞”(长尾场景)就越多,因此对控制理论(作为形式化验证和安全基底)的需求就越刚性,而不是越少。
三,将目前的具身智能技术完全化为控制学科。或者其他形式试图消除问题的操作。
那么聪明读者如你,该如何做出回应呢?
这里扯点题外话,其实用户对于机器人的期望不仅仅在于它功能多和安全。还带着激进,比如跑的一定要比人类快,拿的一定要比人类稳。比如对于人形机器人运动会的一些评论,总要给技术进步一些耐心嘛。
二、什么是复杂场景?上面提到,用户实际上希望的是一款多功能的机器人,那么自然就有这么一个问题。设计者说了:我就要用控制理论,我认为只要我把这个机器人的功能我设计的非常全面,我让他能倒水,又能拿东西,又能搬东西,又能上楼,又能打扫卫生,又能巡逻,又能安保,又能巡检。大不了我做好几十套方案。然后我把感知那块做好,剩下就完事儿了。只要我感受到一个场景,我就自动调用某种方案。
这个场景看上去非常非常的复杂。但是呢,这是我们所期望的复杂场景吗?或者说这是控制的因素完成不了的复杂场景吗?
我们以叠衣服为例:
如果衣服的种类和大小已知且种类很少,且放置位置比较固定,只是样式多,那么适当的分类加传统方法 将以低成本的优势胜出,而且可以完全分离,识别器给出种类,系统执行该种类的方案。
如果衣服的种类和大小未知且种类很多,且放的到处都是。那么分开处理的技术思路就不再适用。识别结果将直接参与到操作方案生成。此时提前分类的问题不在于复杂,而在于不可能。
这里衣服种类和大小 属于 未知环境。而它的摆放位置 属于 非结构化环境
下面用个表格来说明
| 结构化 | 非结构化 | |
|---|---|---|
| 已知 | 场景 1: 棋盘 / 工厂流水线 分析: 规则完全固定,信息完全已知。这是最简单的场景,适用于传统的自动化算法。 | 场景 2: 你家杂乱的后院 / 熟悉的登山小径 分析: 你对环境了如指掌(已知),但环境本身充满变化和不规则(非结构化)。你需要的是适应性和泛化能力,而不是探索。 |
| 未知 | 场景 3: 首次进入一个陌生的、整洁的图书馆 / 新建的、路况简单的城区 分析: 环境有清晰的规则(结构化),但你缺乏地图(未知)。核心任务是快速建图和定位(SLAM),一旦地图建好,问题就转化为场景1。 | 场景 4: 首次进入一片原始雨林 / 首次对深海海床进行探测 分析: 你既没有地图(未知),环境本身又极端复杂多变(非结构化)。这是机器人和AI面临的终极挑战,需要同时具备强大的探索、学习、感知和泛化能力。 |
我们做控制,习惯于说复杂场景,这里最大的问题在于用“复杂”把不同的场景一概而论了。
经历了几年、十几年、几十年的运行和经验,在老师傅的帮助下,只要按照规则运行,很多我们所俗称的复杂工业场景其实是已知且结构化的,这里的复杂尽管按照操作规程要写厚厚一本,但只要能写出来就可以,只要不是为了复杂而复杂,(比如安全生产规则随意违反,生产场景人来人往,就要去跟机械臂比比会不会被给一电炮)。近几年这里闹了一些笑话。一些案例中看到复杂二字就想用具身智能,其实是已知且结构化场景,有点过于心急了。
有些场景则不满足,比喻来说没有“老师傅”,你跟机器人说去拿个苹果,苹果不会固定在一个地方刷新,你也不会在专门的接苹果区一直待着。苹果有可能在水池,在盘子里,在篮子里。你有可能站着看风景,躺着看新闻。等等。穷举这种场景是不可能的。所以,我们可以看到,复杂场景是说各种因素的混合叠加,还是你根本无法准确定义呢?
三、从生物学上看待控制:一个案例笔锋一转,如果我们承认“场景4”(未知且非结构化)是具身智能的终极挑战,那么在人类造出通用机器人之前,谁是这个场景下的“最优解”?
答案是:大自然。
让我们来看一个“活”的控制系统。(下面来自于今年对于鱼群的观察和一些相关论文的阅读总结,稍微提一提吧。)
请大家先在脑海里想象一个画面:在蔚蓝的大海中,成千上万条沙丁鱼,像一片流动的、闪着银光的云彩。它们同步移动,瞬间转向、分散、又在下一秒奇迹般地重新聚合。它们整齐划一,仿佛有一个“灵魂”在指挥。我们都会好奇:谁是“指挥官”?
这个问题,科学家们想了很久。最早,我们以为答案很简单。也许就像电脑程序一样,每条鱼的“出厂设置”里都写着三条简单的规则:
第一,别撞车(分离) 第二,跟上大部队的平均方向(对齐) 第三,别掉队,往群体中心靠(聚集)
这套规则听起来很有道理,在电脑上也能模拟出很像的动画。但问题是,当我们真正去观察大海里的鱼群时,我们发现大自然,可比我们的代码要“秀”多了。
首先,鱼的“传感器”就比我们想象的要高级。我们人开车,主要靠眼睛。鱼也一样,它们用视觉来“拉”近自己和同伴的距离,保持队伍。但它们还装备了一个我们人类没有的“超能力”——侧线。这就像一套遍布它们全身的“声纳”,或者说“远距离触觉”。它能感知到周围水流最细微的震动和压力变化。当旁边的邻居太近时,它们甚至不需要“看”到,就能“感觉”到对方的存在。
于是,一个极其精妙的“推-拉”系统诞生了:眼睛负责“拉拢”,侧线负责“推开”。这是一个多模态的、高度协调的感知系统。好,传感系统升级了。但更颠覆的,是它们的“算法”。
我们以前认为,一条鱼会很“平等”地“平均”所有邻居的影响。比如,左边的邻居往左,右边的邻居往右,那我就走中间,对吧?错了!生物学家发现,鱼根本不是在做“数学平均”。它们在做的是“社交决策”。我举个例子大家就明白了: 你和你最好的朋友A在一起,你可能很安静; 你和你另一个朋友B在一起,你可能很活泼。 但当A和B同时出现时,你不会变成“一半安静一半活泼”。你可能会开启一个全新的“社交达人”模式!1+1 不等于 2,而是等于 3!鱼也是这样。它们对“两个邻居组合”的反应,根本不是对两个单独个体反应的简单叠加。这是一种“高阶交互”,是一种真正的、涌现出来的群体智慧。这意味着,我们过去画的那种“一条线连着一条线”的简单网络图,如果要对于鱼群,从根本上就错了。我们需要全新的数学工具。
更有意思的来了。大自然不仅是位“算法大师”,它还是个“黑客”。在我们的工程系统里,有很多“敌人”,比如:信号延迟、数据丢包、网络拥塞、错误信息……我们想尽办法消除它们。你猜鱼群怎么看?它们说:“这些不是Bug(缺陷),这些是Feature(特性)。”
第一,“数据丢包”? 在密集的鱼群里,你前面的鱼把你的视线挡住了,你“看”不到更远的地方了,这就是“丢包”。这很糟糕吗? 不。鱼会立刻切换它的“传感器”,从依赖视觉,切换到更依赖侧线(水流感知)。这叫鲁棒性,或者叫“容错”。
第二,“网络拥塞”? 当捕食者,比如一头海豚,冲进鱼群时,鱼群的目标是什么? 不是跑得更快,而是让海豚的“CPU”死机! 它们会瞬间炸开,形成一个信息“风暴”。成千上万个相似的目标在眼前晃动,让捕食者的大脑瞬间“信息过载”,根本无法锁定任何一个单独的目标。 这就是“拒绝服务攻击”(DDoS)! 鱼群主动制造了“拥塞”,并把它变成了最强悍的防御武器。
第三,“错误信息”? 如果有一条鱼“神经过敏”,看错了,它突然逃跑怎么办?整个群体会跟着它“自毁”吗? 不会。鱼群启动了“投票机制”。 如果只有一两条鱼惊慌,大家会“无视”它,认为那是“假新闻”。只有当惊慌的邻居数量超过一个阈值(比如5条)时,大家才会一致认为:“狼真的来了!” 这是一个天然的“错误信息过滤器”!
所以,大家发现了吗?
鱼群的真正目标,可能不是“飞得整齐”,甚至也不是“跑得最快”。它们在追求一种非常“禅”的境界——“临界点”。请想象一个沙堆:你一粒一粒地往上撒沙子,沙堆在“有序”地堆高。但它总会达到一个点,一个极其脆弱的平衡点,你再加一粒沙,整个沙堆就会“哗”地一下崩塌,进入“无序”。鱼群,就常年把自己维持在有序与无序的边缘。
这有什么好处? 反应最快! 这就像一根拉满的弓。只要有一点点风吹草动(比如捕食者的信号),它们就能在毫秒之间,从一个“有序”的整体,瞬间“崩塌”成一个“无序”的逃逸状态,爆发出最强的生存能力。
我们再回头看那个问题:谁是“指挥官”?
答案是:规则,就是指挥官。
是那些在亿万年演化中“写”进鱼类基因的、精妙绝伦的感知和交互规则,创造了这个我们眼前的奇迹。而我们今天所做的一切,就是试图去“解码”大自然的这套“控制法则”。
这个解码有什么用?
一方面,我们向鱼群学习,可以创造出更聪明、更鲁棒的无人机集群。它们不需要一个中央指挥塔,也能在复杂的环境中协同作业。另一方面,我们也在尝试“反向工程”。我们正在用AI(人工智能)来“喂”给计算机一个目标(比如“活下去”),然后让AI自己去“学习”和“发现”鱼群的规则。我们甚至已经可以实现,造出一个“机器鱼”,或者干脆一个“投影”,让它混进鱼群,成为“领导者”,然后引导鱼群避开水电站的涡轮机,或者游向更安全的海洋保护区?
从解释自然,到模拟自然,再到与自然协同。鱼群给我们上的这一课,才刚刚开始。
四、最后的总结:解码“规则”让我们回头审视第一节的问题:“控制已死”吗?恰恰相反。
鱼群的“社交决策”与“高阶交互”(1+1=3),就是大模型试图在海量数据中学习到的高层策略(Policy)。它负责应对“通用性”和“非结构化”(场景2和4)。
鱼群的“侧线推开,视觉拉近”,就是底层的多模态反馈控制(Control)。它负责在毫秒间执行策略,保证系统不崩溃(即“安全性”)。
鱼群的生存奇迹,是两者完美结合的产物。“控制已死”的论调,本质上是混淆了“策略”与“执行”。
AI(大模型) 的角色,是成为那个“高阶”的指挥官,它负责理解意图(“我渴了”)和生成策略(“去厨房,找到水杯,倒水”)。这是传统控制做不到的。
控制理论 的角色,是成为那个“鲁棒”的执行者,它负责安全落地(“在移动时保持平衡,在抓握时精确施力,在遇到障碍时紧急制动”)。这是纯粹的AI保证不了的。
未来的机器人,既需要AI的“大脑”来处理“未知与非结构化”,也需要控制的“小脑”和“神经反射”来确保每一步的“稳定与安全”。
真正的问题不是“谁取代谁”,而是我们该如何设计一个“AI-Control”协同的架构,去解码并复现那套大自然已经迭代了亿万年的、精妙的“规则”。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-16 06:51
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社