|
引用本文
李浩然, 陈宇辉, 崔文博, 刘卫恒, 刘锴, 周明才, 张正涛, 赵冬斌. 面向具身操作的视觉−语言−动作模型综述. 自动化学报, 2026, 52(1): 18−51 doi: 10.16383/j.aas.c250394
Li Hao-Ran, Chen Yu-Hui, Cui Wen-Bo, Liu Wei-Heng, Liu Kai, Zhou Ming-Cai, Zhang Zheng-Tao, Zhao Dong-Bin. Survey of vision-language-action models for embodied manipulation. Acta Automatica Sinica, 2026, 52(1): 18−51 doi: 10.16383/j.aas.c250394
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c250394
关键词
具身智能,视觉−语言−动作模型,机器人,基础模型
摘要
具身智能系统通过智能体与环境不断交互, 从而提升智能体能力, 受到学术界和产业界的广泛关注. 视觉−语言−动作模型作为一种受到大模型发展启发的机器人通用控制模型, 提高了具身智能系统中智能体与环境交互的能力, 大大扩展了具身智能机器人的应用场景. 本文对具身操作中的视觉−语言−动作模型进行综述. 首先, 详细介绍视觉−语言−动作模型的发展历程. 然后, 对视觉−语言−动作模型架构、训练数据、预训练方法、后训练方法和模型评估5个方面的研究现状进行详细分析. 最后, 针对视觉−语言−动作模型发展过程和落地应用中面临的挑战和未来可能的发展方向进行总结.
文章导读
近年来, 具身智能受到学术界和产业界的广泛关注. 相比于传统的互联网智能或离身智能从数据中获取智能, 具身智能系统通过控制“本体”与环境交互, 从而获得智能. 作为具身智能“本体”的典型代表之一, 操作机器人通过控制机械臂与环境进行交互完成抓放、搬运等任务, 在工业生产中被广泛应用. 传统的机器人系统通常由多个不同的模块组合构成. 例如感知模型通过处理传感器数据获取环境状态和操作对象状态; 决策模型则根据当前的状态确定操作目标; 接收到决策目标后, 规划模型根据机械臂与环境状态规划可行路径; 最后由控制模型控制机械臂跟踪该路径以完成任务. 这种模块化的机器人系统可以从各个模块的发展中受益, 并且具有良好的可解释性. 但是当操作机器人推广到日常生活中时, 基于逻辑编排的决策模块和基于搜索或优化的规划与控制模块很难应对开放环境下多样性任务需求以及复杂的交互行为.
随着大语言模型(large language model, LLM)和视觉语言模型(vision language model, VLM)的兴起, 以Transformer结构为核心的基础模型展现出强大的泛化能力, 机器人技术也迎来新的发展机遇. 通过大模型强大的视觉理解能力和自然语言理解能力, 机器人在任务规划和开放环境适应性方面取得显著进步. 例如, 机器人可以通过VLM识别物体并根据语言指令规划路径[1], 从而在一定程度上应对环境的多变性和任务的多样性; 也可以让大模型根据当前环境和任务指令生成相应的代码, 从而指导机器人动作[2]. 然而, 这种模式存在语义理解与物理执行的割裂. 大模型主要承担环境理解和行为规划功能, 无法理解机器人的执行能力. 大模型规划的动作需依赖预编程的下层控制器, 导致机器人任务理解与执行出现脱节, 无法实现复杂的动作行为.
相比于传统多模块解耦系统容易受到模块短板效应的影响, 视觉模仿学习通过直接建立视觉图像与机器人动作之间的映射关系, 从而可以实现更灵活的机器人运动控制. 但是早期的方法大部分局限在特定任务或数据上, 往往难以适应新任务或多变的环境, 限制了机器人在复杂场景中的应用潜力. 随着大模型技术的快速发展, LLM和VLM展现出优秀的语义理解和泛化能力, 让实现开放环境下的通用机器人策略成为可能. 视觉−语言−动作(vision-language-action, VLA)模型通过结合大模型技术, 将视觉感知、语义推理与动作生成深度融合, 使机器人能够直接从多模态输入中预测连续控制指令, 实现从环境理解到物理执行的闭环耦合. 目前, 以VLA为核心的机器人系统在开放指令抓取、柔性物体操作、双臂协作以及多机器人协作等领域展现出令人印象深刻的性能, 大大提高了人们对于机器人任务的想象力.
从发展历程看, VLA的发展很大程度上受到大模型发展的启发. 白辰甲等[3]、王文晟等[4]详细分析大模型在具身智能系统的感知、规划、决策、数据生成等方面发挥的作用. Ma等[5]对2024年之前的VLA方法进行整理, 综述内容虽然涵盖模型的发展历程、模型结构、数据集、训练方法和模型评估等多个方面, 但是一方面由于2024年之后VLA技术迭代非常快, 技术路线较之前已经呈现显著的差异性, 其所阐述的模型结构、数据和训练方法已不具备代表性; 另一方面, 该综述只从仿真器测评基准的角度阐述VLA模型评估, 很难适应当前的应用需求. Sapkota等[6]较为全面地从VLA概念、发展历程、模型结构、训练方法和VLA应用等多个角度对2025年上半年之前的VLA模型提供全面综述. Zhong等[7]从动作空间的角度分析目前VLA的发展现状, 详细阐述不同动作空间下VLA的实现方式、局限性和未来趋势. Xiang等[8]从人类运动学习的角度对VLA模型的后训练方法进行梳理与分析. Din等[9]梳理VLA模型结构和发展历程, 并对VLA训练数据进行详细的阐述, 并通过成功率和零样本泛化能力对当前VLA模型进行定性评估. 与上述工作不同的是, 本文从具身智能系统的角度出发, 针对环境、本体和进化算法3个具身系统的核心要素, 从模型结构、训练所使用的数据集、预训练方法、后训练方法以及模型评估5个方面, 审视目前VLA模型的发展现状, 深入剖析VLA模型的核心构成, 阐述每个部分在具身操作场景下面临的困境和未来的潜在发展方向, 希望能够为该领域研究人员提供参考和方向指导. 本文与当前其他综述工作的具体区别如表1所示. 总结来看, 本文的贡献如下:
● 根据VLA发展过程中的特点, 本文将VLA发展历程划分成3个阶段: 萌芽阶段, VLA概念尚未形成, 但已经出现相似功能的模型; 探索阶段, VLA模型架构“百花齐放”, 但逐渐确立了以Transformer为核心的可扩展骨干结构; 快速发展阶段, 模型架构从单层往多层方向发展, 并且随着数据积累, 多模态VLA模型已经“崭露头角”.
● 根据数据类型和数据使用方式的不同, 本文将VLA模型预训练方法划分为4种: 单一领域数据预训练、跨域分阶段训练、跨域数据联合训练以及思维链增强. 单一领域数据预训练方法是当前VLA常用预训练方法, 但局限性比较明显, 跨域数据联合训练和思维链增强具有较大的发展潜力.
● 本文将VLA模型后训练方法划分为3类: 监督微调, 是目前VLA后训练的主要手段, 在泛化性和持续学习能力方面面临挑战; 强化微调, 作为一种交互和奖励驱动的主动学习方法, 具备一定的发展潜力, 但尚未形成里程碑式工作; 推理扩展, 不需要额外的数据训练, 但需要消耗时间换取性能, 面临速度与性能折中的问题.
● 本文弥补了当前综述工作中对于VLA模型评估工作的欠缺, 从真实环境评估、仿真器评估和世界模型评估3个方面, 全面剖析目前VLA模型评估现状与需求的鸿沟.
图1 具身操作
图2 VLA模型时间线
图3 VLA模型架构
VLA模型作为一个新兴的研究方法, 受到学术界和工业界的广泛关注. 本文从具身智能系统的角度详细介绍VLA模型在具身操作中的作用及其发展过程, 对VLA模型的模型架构、训练数据、预训练方法、后训练方法以及模型评估等方法进行详细的介绍. 最后根据该领域的发展现状分析VLA模型在泛化能力、精细操作和实时推理这三个方面面临的挑战, 以及在产业界的发展和未来可能的发展方向. VLA模型发展为实现机器人通用策略探索了一条可能的道路, 增强了具身智能系统与环境交互的能力, 使得具身智能机器人在工业、家庭、服务、物流等行业具有广阔的应用前景. VLA模型目前还处在快速发展阶段, 本文希望能够为该领域研究人员和相关从业者提供参考和方向指导.
作者简介
李浩然
中国科学院自动化研究所副研究员. 2015年获得中南大学学士学位, 2020年获得中国科学院自动化研究所控制理论与控制工程专业博士学位. 主要研究方向为具身智能, 强化学习和机器人学习. E-mail: lihaoran2015@ia.ac.cn
陈宇辉
中国科学院自动化研究所博士研究生. 2022年获得北京理工大学学士学位和澳大利亚国立大学学士学位. 主要研究方向为具身智能, 强化学习和机器人学习. E-mail: chenyuhui2022@ia.ac.cn
崔文博
中国科学院自动化研究所博士研究生. 2020年获得东北农业大学学士学位, 2023年获得大连理工大学硕士学位. 主要研究方向为三维计算机视觉, 具身智能. E-mail: cuiwenbo2023@ia.ac.cn
刘卫恒
中国科学院自动化研究所博士研究生. 2024年获得北京航空航天大学学士学位. 主要研究方向为具身智能, 强化学习和3D视觉. E-mail: weihliu2002@gmail.com
刘锴
中国科学院自动化研究所博士研究生. 2025年获得西安交通大学学士学位. 主要研究方向为具身智能, 世界模型. E-mail: liukai2025@ia.ac.cn
周明才
中国科学院自动化研究所副研究员. 2010年获得中国科学院自动化研究所博士学位. 主要研究方向为具身智能, 计算机视觉, 机器学习, 计算机图形学和增强现实. E-mail: mingcai.zhou@ia.ac.cn
张正涛
中国科学院自动化研究所工业视觉与智能装备技术工程实验室教授. 2004年获得中国石油大学学士学位, 2007年获得北京理工大学硕士学位, 2010年获得中国科学院自动化研究所控制科学与工程专业博士学位. 主要研究方向为工业视觉检测, 智能机器人. E-mail: zhengtao.zhang@ia.ac.cn
赵冬斌
中国科学院自动化研究所研究员. 分别于1994年、1996年和2000年获得哈尔滨工业大学学士学位、硕士学位和博士学位. 主要研究方向为强化学习, 具身智能, 智能驾驶和智能博弈. 本文通信作者. E-mail: dongbin.zhao@ia.ac.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-2-6 18:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社