RT-2 解读:把动作当文本 token 的视觉-语言-动作模型

快速答案

RT-2 是 Google DeepMind 的视觉-语言-动作(VLA)模型,核心做法是把机器人动作写成文本 token,从而把一个网页级预训练的视觉语言模型直接改造成机器人控制器。关键只有一招:让动作和自然语言共用同一种 token 格式,然后在机器人轨迹和互联网视觉语言任务上联合微调,策略就继承了网页里的语义知识。在约 6000 次评测试验中,RT-2 对新物体的泛化显著提升,能执行机器人数据里没出现过的指令(比如把物体放到某个数字或图标上),还能做基础推理,比如挑最小的物体;配合思维链,甚至能选一块石头当临时锤子。

把动作当成语言 token

最核心的设计简单得出人意料:把一个机器人动作——夹爪的平移、旋转和开合——离散化,然后像输出一个词那样输出成一串文本 token。因为动作和自然语言回答现在共用一套输出格式,就不需要再外挂单独的动作头、规划器或控制器。一个端到端模型,输入图像加指令,输出既可以是一句话,也可以是一条电机指令。这正是 RT-2 之所以叫”视觉-语言-动作”模型,而不是”语言规划器加底层策略”的原因。

把网页知识迁移到机器人

机器人数据是这个领域的瓶颈:轨迹昂贵、绑定具体硬件,相对开放网页又少得可怜。RT-2 的答案是联合微调。它没有只在机器人演示上微调(那样会抹掉预训练知识),而是把视觉问答这类互联网视觉语言任务和轨迹数据混在一起训练。于是模型不会忘记”香蕉”或”离另一个物体最近的那个”是什么意思,并能把这种语义用到从没见过演示的物体和指令上。这正是之前的方案没攻克的点:早先的系统能用语言做规划,但底层那套感知-动作栈并不共享语言模型的知识。

关键结果

评测覆盖约 6000 次机器人试验,所以”涌现能力”的说法靠的是规模,而不是精挑细选的几个演示。
相比前作 RT-1(用同样的机器人数据训练、但没有网页预训练),RT-2 对新物体的泛化显著更好。
它能理解机器人训练数据里没有的指令——比如”把物体放到数字 3 上”或某个图标上——靠的是从网页学到的符号语义。
它能做基础推理:挑最小或最大的物体,或离另一个物体最近的那个。
配合思维链提示,它能做多步语义推理:选一块石头当临时锤子,或给疲惫的人选一瓶功能饮料。

局限与存疑

RT-2 并没有消除对机器人数据的需求;联合微调仍取决于轨迹集恰好覆盖了多少实体、场景和动作空间,而演示任务基本都是桌面抓取放置。把动作写成文本很优雅,但很粗糙:离散 token 对接触密集、高精度或需要力反馈的操作是钝器,而且自回归解码会给实时机器人增加推理开销。作者自己也只说是”基础”推理——能出现已经很惊艳,但离可靠的长时程规划还很远。我的判断:RT-2 真正留下的是这套配方,而不是一个完成品通用机器人。它证明了网页语义能挺过迁移到控制这一跳,但没证明这些语义足以独自完成控制。

常见问题

一句话说清 RT-2 是什么?

RT-2 是 Google DeepMind 的视觉-语言-动作模型,通过把机器人动作当成文本 token,使一个网页预训练的视觉语言模型能被联合微调成端到端策略,直接控制真实机器人。

RT-2 和 RT-1 有什么区别?

RT-1 是只用机器人演示训练的机器人 Transformer。RT-2 从一个在网页上预训练的大型视觉语言模型出发再联合微调,所以 RT-2 对新物体、对机器人数据里从没出现过的指令的泛化都好得多。

视觉-语言-动作模型是什么意思?

VLA 模型以图像和语言为输入,用和输出文本一样的 token 格式输出机器人动作。RT-2 就是论文具体实现并命名的那个例子,把 VLA 确立成了一个具体的模型类别。

RT-2 涌现出了哪些能力?

对新物体的泛化、执行机器人训练数据里没有的指令(放到数字或图标上)、以及挑最小物体这类基础推理;通过思维链还能扩展到多步选择,比如选石头当临时锤子。

RT-2 能做高精度或接触密集的操作吗?

论文没有证明这一点。RT-2 的强项是桌面抓取放置上的语义泛化;高精度、力反馈和长时程控制仍是开放问题。

RT-2 真正的成果不是一个会思考的机器人,而是证明了网页知识能挺过迁移到机器人动作这一跳。原文见:https://arxiv.org/abs/2307.15818