视觉-语言-动作 · 机器人

π0:一个会叠衣服、能开七种机器人的模型

一个统一的视觉-语言-动作模型,用七种机器人平台的数据训练,能按自然语言指令完成叠衣服这类灵巧的日常任务。

π0:一个会叠衣服、能开七种机器人的模型

解决什么问题

通用机器人长期卡在一堵硬墙上:每个新任务往往要单独的数据集、单独的模型,外加大量手工调参。这套路在开放的物理世界里无法规模化。π0 想验证的是:一个广泛训练的模型,能否跨多种机器人本体学会多种技能,并用很少的数据迁移到新任务。

核心方法

π0 在一个预训练的视觉-语言模型上接了一个动作头,用流匹配(flow matching)训练,这是一种生成连续输出的技术。动作头不输出离散 token,而是产出平滑的高频电机指令,这正是灵巧操作真正需要的。语言和视觉进来,连续动作出去,全在一个网络里完成。

关键结果

模型在一个大而多样的混合数据上训练,覆盖七种不同的机器人平台和大量任务,再针对更难的技能微调。它能跑真实世界的活儿,比如叠衣服、收拾餐桌、组装盒子,并按自然语言指令决定做什么。

为什么重要

这是迈向「单一机器人基础模型」而非「一任务一策略」的具体一步。它的配方(先广泛预训练,再迁移)复刻了语言和视觉走通的路径,暗示机器人学习正进入同样的规模化阶段。

局限与存疑

在贴近训练分布的任务上效果最强,真正全新的技能仍需要示范数据。长程任务下的可靠性、罕见边缘情况,以及能否泛化到这七种平台之外,都还是开放前沿。

一句话:语言模型那套「先广训再迁移」的打法,终于落到了机器人的手上。