解决什么问题
通用机器人长期卡在一堵硬墙上:每个新任务往往要单独的数据集、单独的模型,外加大量手工调参。这套路在开放的物理世界里无法规模化。π0 想验证的是:一个广泛训练的模型,能否跨多种机器人本体学会多种技能,并用很少的数据迁移到新任务。
核心方法
π0 在一个预训练的视觉-语言模型上接了一个动作头,用流匹配(flow matching)训练,这是一种生成连续输出的技术。动作头不输出离散 token,而是产出平滑的高频电机指令,这正是灵巧操作真正需要的。语言和视觉进来,连续动作出去,全在一个网络里完成。
关键结果
模型在一个大而多样的混合数据上训练,覆盖七种不同的机器人平台和大量任务,再针对更难的技能微调。它能跑真实世界的活儿,比如叠衣服、收拾餐桌、组装盒子,并按自然语言指令决定做什么。
为什么重要
这是迈向「单一机器人基础模型」而非「一任务一策略」的具体一步。它的配方(先广泛预训练,再迁移)复刻了语言和视觉走通的路径,暗示机器人学习正进入同样的规模化阶段。
局限与存疑
在贴近训练分布的任务上效果最强,真正全新的技能仍需要示范数据。长程任务下的可靠性、罕见边缘情况,以及能否泛化到这七种平台之外,都还是开放前沿。
一句话:语言模型那套「先广训再迁移」的打法,终于落到了机器人的手上。