LabVLA:面向科学实验室的VLA模型

快速答案

LabVLA 是一篇把 vision-language-action 模型推向科学实验室操作的论文。它不是又一个家居桌面抓取模型,而是围绕试管、烧杯、加热板、液体和固定实验流程构建数据与策略。论文提出 RoboGenesis 作为实验室工作流仿真和数据引擎,再用 Qwen3-VL-4B-Instruct 骨干、FAST 动作 token 预训练和 flow matching DiT 动作专家训练 LabVLA。在 LabUtopia 上,LabVLA 平均成功率达到 71.1% ID 和 70.0% OOD,分别比下一名 pi0 高 7.8 和 6.8 个百分点。

为什么不是普通 VLA 论文

多数 VLA 数据来自家庭、办公室或通用桌面操作。科学实验室不一样:透明液体难看清,仪器状态有物理约束,流程顺序很重要,错误操作可能直接让实验失效。一个会移动杯子的机器人,不能自动等同于会按协议操作烧杯和加热板。

LabVLA 把问题拆成两个瓶颈:数据和具身形态。模型设计当然重要,但论文真正押注的是实验室专用、协议条件化、跨机器人形态的数据。RoboGenesis 支持 16 种 robot platform,构建 2,947 个标注资产,生成 10,000 个实验室场景,把自然语言流程拆成 atomic skills,做六轴 domain randomization,验证 rollout,只导出成功示范,并附带结构化标注。

模型怎么训练

LabVLA 把预训练 VLM 和 DiT action expert 接起来。VLM 负责读语言和多视角图像,动作专家负责输出机器人动作。中间的 stop-gradient 被称为 knowledge insulation,目的是降低动作损失对原有语言和视觉知识的干扰。

训练分两步。第一步用 FAST action token pretraining 让 Qwen3-VL-4B 先理解动作结构;第二步用 flow matching posttraining 学连续控制。这个顺序很实际:先让模型知道动作是什么,再要求它输出真实控制轨迹。

关键结果

LabUtopia 平均: LabVLA 在六类实验室任务上达到 71.1% ID 和 70.0% OOD。
相对 pi0: pi0 为 63.3% ID 和 63.2% OOD,LabVLA 分别领先 7.8 和 6.8 点。
OOD 稳定性: 从 ID 到 OOD 只下降 1.1 点,支持 RoboGenesis 随机化带来泛化的说法。
任务分布: Press Button ID 为 100%,Open Door 为 65.0%/65.8%,Pick Up 为 49.2%/48.3%。
最难任务: 在 LabUtopia Table 2 的 Pour Liquid 仿真列中,LabVLA 为 43.3% ID 和 34.2% OOD,所有 baseline 都没有超过 50%。
真实 Franka 迁移: 真实硬件实验包含 4 个任务、每个 setting 50 次 rollout。LabVLA 在 Shake Liquid、Pour Liquid、Magnetic Stir、Stopper Plug/Unplug 等设置中大致处在 76-92% 区间,但 DreamZero 或 pi0.5 在部分行能持平或超过它。

这篇论文实际证明了什么

它证明的是:在实验室仿真基准下,实验室专用数据和训练 recipe 能显著提升 VLA 策略。它没有证明机器人已经能自主做湿实验科学。模型执行的是已配置好的工作流,不是自己提出实验、识别污染、处理安全例外或解释异常结果。

这个边界反而让结果更可信。近期有价值的系统更可能是「协议执行器」:人类或上游系统给出明确实验步骤,机器人在受控任务分布下完成物理动作。LabVLA 正适合从这个角度看。

局限与存疑

最大问题是真实实验室迁移。Franka 结果显示了可喜的协议迁移,但它仍是 4 个台面任务、每个 setting 50 次 rollout,不是完整湿实验部署。透明液体、反光、遮挡、夹爪磨损、标定漂移、试剂差异、污染和安全约束,都是实验室机器人最容易出问题的地方。

第二个问题是科学判断没有被解决。LabVLA 可以执行协议,但不代表会判断实验是否值得做、结果是否可信、异常来自污染还是操作错误。它是执行层进展,不是完整 AI scientist。

常见问题

LabVLA 是什么？

LabVLA 是面向科学实验室机器人操作的 VLA 模型。它使用 Qwen3-VL-4B-Instruct 骨干和 DiT 动作专家,并用 RoboGenesis 生成的实验室工作流数据训练。

LabVLA 在 LabUtopia 上表现如何？

论文报告 LabVLA 平均成功率为 71.1% ID 和 70.0% OOD,相对 pi0 分别高 7.8 和 6.8 个百分点。

RoboGenesis 在 LabVLA 中做什么？

RoboGenesis 是实验室仿真和数据引擎,负责构建场景、生成工作流、适配 16 种机器人、做 domain randomization、过滤失败 rollout,并导出带标注的成功示范。

LabVLA 真实 Franka 实验表现如何？

真实机器人实验包含 4 个 Franka 任务,每个 setting 50 次 rollout。LabVLA 多数设置在 70-92% 区间,但并没有全面压过 DreamZero 和 pi0.5。

LabVLA 是否证明湿实验自动化已经解决？

没有。它证明的是受控任务下的协议执行能力,不是安全自主实验设计、污染处理、异常结果解释或跨实验室鲁棒性。

LabVLA 最大短板是什么？

Pour Liquid 仍然最难。LabVLA 在该任务上只有 43.3% ID 和 34.2% OOD,说明液体表面跟踪和稳定倾倒还远未解决。

一句话:LabVLA 的价值在于把 VLA 评测推进到科学实验室操作,同时也清楚显示湿实验自动化还没有被解决。阅读 arXiv 原文。