π0 详解:用流匹配生成连续动作的视觉-语言-动作模型

快速答案

π0 是一个通用机器人策略:它继承了预训练视觉-语言模型(VLM)在互联网规模数据上学到的语义知识,再外接一个用**流匹配(flow matching)**训练的「动作专家」,直接输出连续、高频的电机指令(约 50Hz 的动作块),而不是离散 token。它在覆盖单臂、双臂和移动操作机器人的多样数据上训练,能在真机上完成叠衣服、收拾餐桌、组装盒子这类真正难啃的家务活,并能听懂自然语言指令——指令既可以来自人,也可以来自一个更高层的 VLM 规划器。它要做的是「一个模型管多种机器人、多种任务」,新技能靠微调获得,而不是每个任务都从头训一个策略。

为什么「一任务一策略」走不通

π0 真正针对的痛点是:机器人学习一直没等来自己的「预训练一次、到处迁移」时刻。视觉和语言模型能规模化,是因为一个骨干在网络数据上训好后,能迁移到无数下游任务。机器人却每次都得付全价:换个夹爪、换个厨房、换一种叠衬衫的方式,就要重新采数据、重新训模型。在开放的物理世界里这套路撑不住——物体、光照、接触动力学的长尾几乎是无穷的。

π0 押的是另一条路:通用机器人策略(也就是机器人基础模型)才是出口——跨本体、跨任务广泛训练,从 VLM 继承语义,再低成本迁移。这既是一个模型主张,更是一个「配方」主张。

VLM 骨干加流匹配动作专家

这套架构的关键在于「复用什么、新增什么」。骨干是预训练好的视觉-语言模型,所以 π0 一开始就带着扎实的视觉概念和语言理解,不必从机器人数据里从零学「毛巾长什么样」。在此之上,π0 接了一个独立的动作专家,用流匹配训练——也就是现代扩散类生成模型背后那套连续生成技术——把融合后的视觉-语言状态转成电机指令。

为什么用流匹配,而不把动作切成词表里的离散 token?因为灵巧操作需要平滑、精确、高频的控制;把连续的力矩与夹爪轨迹量化进离散的格子,恰恰丢掉了叠布料、把箱盖压到位所依赖的那点精度。π0 一次预测一段动作块(未来若干步动作,约 50Hz),既拿到了时间上的连贯性,又达到真实硬件需要的控制频率,避免了逐 token 解码带来的抖动。语言和像素进去,连续动作流出来,全在一个网络里。

π0 究竟能做什么

π0 在一个刻意做得很「杂」的大混合数据上训练:多种灵巧机器人平台,涵盖单臂、双臂和移动操作三类本体,跨大量任务。论文从三个维度评估它——这三点对「基础模型」的主张比单一榜单分数更重要:

预训练后零样本:不做任务专属微调,直接执行任务。
指令跟随:既能听人的指令,也能接收高层 VLM 策略拆解出的步骤,π0 在这套层级里充当底层执行器。
微调获取新技能:用额外数据学会更难的新技能。

真正的看点是这些任务本身:叠衣服、清理餐桌、组装盒子都是多步、接触密集、容错率极低的活儿——这正是以往通用策略大多碰不了的灵巧度。能在真机上覆盖这样的广度,就是 π0 的成果。

关键结果

π0 的贡献更多是「在难任务上的广度」,而非某个单一榜单数字。它展示了一个策略能够:(1) 跨单臂、双臂、移动操作三类本体运行;(2) 在真机上执行叠衣服、收餐桌这类长程、灵巧、多步家务;(3) 听从人或高层 VLM 规划器下达的自然语言指令;(4) 通过微调获得新技能,而非从头训练。让这一切成立的关键,是流匹配动作专家带来的平滑约 50Hz 连续控制——这正是它区别于基于 token 的动作模型的根本之处。

局限与存疑

该怀疑的地方要怀疑。效果最强的仍是贴近训练分布的任务——真正全新的技能依旧需要示范数据和微调,所以「通用」目前还不等于「零样本啥都行」。一段叠衣服的精修演示,和成千上万次试验里的可靠性数字是两回事;长程鲁棒性、出错后的恢复、罕见失败模式,恰恰是演示视频最容易掩盖的部分。能否泛化到训练混合之外的具体平台尚未证实,而跨本体预训练背后的数据与算力之重,也让多数实验室无法复现 π0。如果你今天想要一个能直接插到任意新机器人上的现成策略,这是研究方向,不是开箱即用的产品。

常见问题

π0(pi-zero)一句话是什么?

π0 是 Physical Intelligence 的视觉-语言-动作模型:预训练 VLM 骨干加一个流匹配动作专家,输出连续、高频的机器人动作,跨多种机器人平台训练,充当单一的通用操作策略。

π0 为什么不输出文本 token,而是直接生成动作?

π0 不解码离散动作 token,而是用流匹配生成连续动作块——约 50Hz 的一段未来电机指令——从而拿到叠衣服这类灵巧任务所需的平滑、精确控制。

π0 实际能完成哪些任务?

论文展示 π0 在真机上叠衣服、清理并擦拭餐桌、组装盒子,同时能听从人的口头指令,或更高层 VLM 规划器下达的步骤。

π0 能控制不同种类的机器人吗?

可以——π0 用单臂、双臂和移动操作机器人的数据训练,并被设计成可以微调到新机器人和新任务上,而不是从头重训。

一句话:π0 把语言模型那套「先广训、再迁移」的配方搬到了机器人的手上,而流匹配正是让动作平滑到可被信任的那块拼图。原文见 Physical Intelligence 的 π0 发布。