谷歌具身智能VLA模型RT-H—— 基于语言的动作分层框架

财经头条

提升一亿中产阶级阅读效率

打开

智车科技

2周前

用户可直接对机器人动作指令请求进行干预，为机器人行为提供语言化动作修正，例如此处将“向前移动手臂”改为“向左移动手臂”。

2024年3月，谷歌DeepMind正式推出端到端的框架RT-H。它是一个带动作分层结构的机器人Transformer —— 将语言化动作作为高级任务描述与低级动作之间的中间预测层，从而通过语言化动作构建动作分层结构。

那么，什么是语言化动作（language Motion），构建动作分层结构又能带来哪些好处呢？

语言化动作是以自然语言描述机器人行为的语义单元，它作为高层任务与底层机器人动作（Robotics Actions）之间的中间抽象层，通过分解任务意图生成可解释的动作序列，保留语言的可组合性与人类可干预性，但其本身不直接控制机器人的动作执行。

例如，将“拿起可乐罐”这一任务可分解为一系列更细颗粒度的行为，比如“向前移动手臂”，然后 “抓住罐子”，接着 “向上移动手臂”，这些细颗粒度的行为均可称之为语言化动作。

构建动作分层架构的优势：

(1) 在语言化动作层面实现跨任务高效数据共享

通过语言化动作的组合泛化能力，显著提升多任务数据集利用率。例如，“倾倒杯中物体”与“拾取可乐罐”虽任务语义不同，但在物体被拾取前的语言化动作序列完全一致（如“接近物体→定位抓取→闭合夹爪”），实现动作层级的跨任务复用。

(2) 语言化动作是动态场景适配的智能基元

语言化动作非固定预设，而是基于当前任务语境与视觉观察实时生成。例如，“前移机械臂”的语义不包含具体速度与方向向量——该参数需根据任务目标（如“避开易碎物”）和环境状态（障碍物位置）动态解析。

RT-H动作分层架构

在上图中，当给定“盖上开心果罐” 这类语言描述的任务以及场景图像后，RT-H 会利用视觉语言模型（VLM）预测 “向前移动手臂”、“向右旋转手臂” 等语言化动作；然后，再根据这些语言化动作，为机器人预测具体执行动作（Robot Action）。

这种动作分层结构能让模型学习到那些语言描述差异显著但存在共享结构的任务。与RT-2哪些直接从任务映射到动作的方式相比，这些语言化动作有助于在多样化的多任务数据集之间实现更好的数据共享。

此外，该分层结构还允许人类选择性地向机器人提供语言化动作修正，以避免任务失败，随后利用这些新的语言化动作预测更优的动作。当人类完成干预后，RT-H 会像之前一样继续预测语言化动作。

然而，当任务在语义上变得更加多样时（例如“拿起可乐罐” 和 “倒杯子里的东西”），任务间的数据共享就会变得更加困难，因此学习从高级任务到具体动作指令的映射需要大量的演示数据。

为了弥合任务与动作之间的这一鸿沟，DeepMind的解法是赋予机器人『动作语义化』能力——使用原子级动作短语（如“前移机械臂”或“闭合夹爪”）描述底层运动。将语言化动作预测作为高层任务与底层执行间的中间步骤，倒逼策略模型学习表面异构任务间共享的底层运动结构。更重要的是，基于语言化动作条件生成的策略，可在执行过程中通过人类指定的语义指令实时修正。

一、RT-H：利用语言构建动作分层结构

RT-H的推理流程包含两个关键阶段：

1）首先，RT-H 根据视觉观察结果和高级任务描述，预测当前的语言化动作（语言化动作指令请求），使模型能在细粒度层面推理任务执行方式；

2）然后，RT-H联合视觉观察、任务描述及推断出的语言化动作预测当前的具体执行动作（机器人动作指令请求），其中语言化动作为精确动作预测提供了关键上下文补充。

RT-H是以视觉语言模型（VLM）作为主干网络，并遵循 RT-2的训练流程来实现。与RT-2 类似，通过互联网规模数据的训练，模型可调用自然语言处理与图像理解领域的海量先验知识。

为了将这些先验知识融入动作层级结构的各个层级，RT-H 使用单一的视觉语言模型（VLM）同时学习语言动作指令请求（Language Motion Query）和机器人动作指令请求(Action Query)。

RT-H的推理流程

图左侧：

RT-H利用语言构建分层策略学习架构：将动作预测拆分为语言化动作指令请求（π）与机器人动作指令请求（π）。其中：

π：基于图像令牌（ Image Tokens）和任务描述令牌（Task Tokens）预测细粒度语言化动作（如“向前移动手臂”）；

π：结合场景视觉上下文，将该语言化动作解码为具体的机器人动作指令。

图右侧：

用户可直接对机器人动作指令请求进行干预，为机器人行为提供语言化动作修正，例如此处将“向前移动手臂” 改为 “向左移动手臂”。为了从修正中学习，只需用新标注的语言化动作修正更新语言动作指令请求。随后，将更新后的模型重新部署到动作层级结构中。

RT-H通过端到端的方式学习预测语言化动作指令和机器人动作指令，不仅能够在语言化动作空间中进行修正，还能从这些修正中高效学习。

当所学策略难以顺利执行任务时，语言化动作能再次发挥作用：它们为在线人类修正提供了一个直观的交互界面，且这种修正与特定场景相关联。通过语言化动作训练的策略，能够自然地遵循人类的低级修正指令，并借助修正数据成功完成任务。此外，该策略甚至可以在语言修正数据上进行训练，从而进一步提升自身性能。

1. RT-H模型训练

RT-H采用基于互联网多模态数据联合预训练的单一视觉语言模型VLM），学习高层任务策略π与底层机器人控制策略π。

RT-H采用与RT-2相同的PaLI-X 55B架构实例化视觉语言模型（VLM）。该模型通过ViT编码器将图像处理为图像令牌（Image Tokens），再由编码器-解码器Transformer联合处理这些图像令牌与自然语言指令令牌，输出离散动作令牌（Action Tokens）。

这些动作令牌的生成方式沿袭RT-2的离散化机制：将每个动作维度离散化为256个区间（bins），并将区间编码为整数值。每个动作包含末端执行器的位置/轴角旋转变化量、夹爪开合动作指令以及任务终止标志。

随后，RT-H 使用与 RT-2 相同的 PaLI-X 训练混合数据进行联合训练，并从预训练检查点开始。在该联合训练过程中，视觉 Transformer（ViT）编码器被冻结。RT-H 以相同的采样率，用语言化动作指令请求和机器人动作指令请求替代了 RT-2 中的机器人动作指令请求。使用单一模型简化了训练过程，并使语言化动作指令请求和机器人动作指令请求都能从 PaLI-X 训练混合数据中蕴含的广泛先验知识中获益。

2. 语言化动作的提取

为了低成本地提取每个片段中的每个时间步的可靠语言化动作，DeepMind开发了一种依赖机器人本体感知信息的自动标注方案。

首先，将机器人末端执行器位姿变化的每个维度与空间维度相关联（例如，位置变化的z轴对应上下方向）。针对所有 9 个动作维度（3 个位置增量维度、3 个姿态增量维度、2 个基座移动维度、1 个夹爪维度）执行此操作后，就能确定机器人当前的主要空间运动列表，例如 “手臂向上并向右移动”“闭合夹爪”“手臂逆时针旋转” 或 “基座向左转动”。之后，可以过滤掉低于选定 “小动作” 阈值的维度，再按照动作幅度的顺序组合得到的动作。

例如，如果机器人主要是向前移动手臂，同时开始闭合夹爪，研究人员会提取出“向前移动手臂并闭合夹爪” 这一语言化动作。通过这种方式，语言的组合性使得从一组简单的已知动作中能够提取出超过 2500 种语言化动作。

此外，由于这些语言化动作直接源于动作本身，因此在RT-H 中运行动作指令请求时，它们对动作本身具有很强的预测能力。

然而，语言化动作在抽象层级的选择上存在基本权衡的问题：语言化动作的颗粒度越细，语言化动作指令请求的预测难度越高，但对机器人动作指令请求的指导性越强；反之亦然。

二、RT-H：推理与修正

在测试阶段，RT-H首先运行语言化动作指令请求（π）以推导语言化动作序列，随后将该序列输入机器人动作指令请求（π）生成具体的执行动作参数。

然而，由于两个指令请求需在每一步时序中串行执行，该过程使推理耗时翻倍。虽对小规模模型影响甚微，但对于RT-H中使用的55B参数的大型模型而言，必将引发不可避免的请求处理延迟问题。

为应对这一挑战，谷歌DeepMind提出两种语言化动作推理模式：

(1) 异步查询：仅训练RT-H中的语言化动作指令请求（π）预测未来一步动作。测试时，利用上一时间步推导的语言化动作执行当前机器人动作指令请求，同时并行预测下一时间步的语言化动作。此方案通过批处理查询实现与RT-2近乎同等的请求延迟。

(2) 固定频率：每H步执行一次语言化动作指令请求，分摊延迟压力。

在实验中，DeepMind选择异步查询方案，因语言化动作常需在精确时间步变更，无法适配固定频率带来的约束。

结语

RT-H 通过训练将语言描述的任务映射为语言化动作，然后利用推断出的语言化动作来预测具体动作指令。它的优势在于：

(1) 学习不同任务间的共享结构，促进多任务数据集的高效整合。

通过捕捉表面异构任务间的任务结构共性（如"倒水"与"取罐"共享抓取动作），显著提升跨任务数据复用能力，实现对大规模多任务数据集的高效吸收；

(2) 支持场景与任务上下文适配的语言化动作修正。

允许人类通过语义指令（如"向左移动5cm"）在维持任务目标的前提下，实时调整底层执行策略，实现行为动态优化。

实验证明，RT-H模型通过利用这种语言-动作分层结构，能够高效利用多任务数据集，从而学习到鲁棒性和适应性更强的策略。研究还发现，该策略不仅能响应语言指令干预，更能从这类干预中持续学习，其表现显著优于基于遥操作示教干预的学习方法。

参考资料：

论文题目：RT-H: Action Hierarchies Using Language

论文地址：https://arxiv.org/pdf/2403.01823

原文标题 : 谷歌具身智能VLA模型RT-H—— 基于语言的动作分层框架