视觉-语言-动作 · Physical Intelligence
π0:一个会叠衣服、能开七种机器人的模型
一个统一的视觉-语言-动作模型,用七种机器人平台的数据训练,能按自然语言指令完成叠衣服这类灵巧的日常任务。
主题
面向物理机器人的学习与控制。
视觉-语言-动作 · Physical Intelligence
一个统一的视觉-语言-动作模型,用七种机器人平台的数据训练,能按自然语言指令完成叠衣服这类灵巧的日常任务。
RT-2 把机器人动作表示成类似语言的 token,让经过网页级视觉语言预训练的模型把语义知识迁移到物理控制。