博文

20260610-短视频记录：李飞飞谈世界模型

已有 957 次阅读 2026-6-12 16:19 |个人分类:AI应用|系统分类:科研笔记

短视频记录：李飞飞谈世界模型

20260610 -（AI有点聊）

毫无疑问，世界模型是当下AI圈最火但也最混乱的概念。做视频生成的说自己是世界模型，搞机器人的说自己是世界模型，英伟达也说他们的Omniverse是世界模型。大家都在用同一个词，但其实说的根本就不是同一件事儿。

就在最近，AI教母李飞飞终于出手了。她用一张图，三个词，彻底终结了这场概念大混战。李飞飞在长文里一针见血的指出，要厘清混乱，必须回到强化学习最经典的闭环图里。在这个闭环里，智能体根据当前的观测做出动作，动作改变了世界的状态，世界又反过来给智能体提供新的观测。现在市面上所有自称世界模型的产品其实只是这个闭环在不同维度的三种投影。

第1种是输出观测的渲染器。比如各种爆火的视频生成模型，它的目标是生成给人类眼睛看的像素，但缺乏对三维结构的理解，它追求的是视觉好看，但无法确保物理和几何的正确。

第2种是输出动作的规划器。 比如具身智能，机器人大脑。它的任务是根据眼前的画面决定下一步该做什么动作。这看起来很酷，但李飞飞说实验室演示和真实环境的能用之间还差得很远。

第3种是输出状态的模拟器。它的任务是重构几何、物理和动力学。李飞飞强调，模拟器是三者之中被严重低估的关键枢纽，因为你只有先在几何和物理层面上模拟出世界，才能向上转化为像素进行渲染。向下推导为动作进行规划。掌握了模拟就等于同时握住了渲染和规划的钥匙。

李飞飞指出这三种投影背后的底层知识是相通的。未来的终极目标是一个统一的世界基础模型。能根据需求在渲染、模拟、规划之间自由切换。

在访谈里，李飞飞说了一段极其震撼的话。大语言模型确实很强，但生物智能的真正觉醒发生在5亿年前。那是生命第1次学会在物理世界里，看和移动。语言模型是给了机器一种谈论世界的方式。而世界模型才能让机器最终能够理解，想象，并真正交互这个物理世界。从语言智能走向真正的空间智能，这才是AI真正的下半场。

---------------------------------

感想：

如上篇短视频关于“AI教母”后面写的评论，李飞飞这里说的世界模型局限性仍然很大。谈到了人类视觉看到的像素；根据视觉决定动作；以及重构几何、物理和动力学，用来提供模拟世界的基础。。。。。但是，人类所在的自然界是这样的吗？视觉有了，听觉、触觉呢？几何、物理、化学、生物。。。呢？根据什么人类决定自己的动作。李飞飞已经有了很大成就了，但这样的“大模型”会导向怎样的未来？