主题

机器人

面向物理机器人的学习与控制。

机器人 · Peking University

DragMesh-2:靠接触把铰接物体拉开的灵巧手

DragMesh-2 用 51 自由度的手开门、拉抽屉,物体关节无驱动,运动只能靠接触拖出来。PICA 训练标称阻尼下成功率 0.89,4 倍阻尼下仍有 0.56,且无触觉输入。

机器人 · UC Berkeley

Playful Agentic Robot Learning:RATs 先玩再干活

RATs 让机器人在收到指令前先自己玩:agent 团队自提目标、写代码当策略、把成功经验存成可复用技能库,LIBERO-PRO 成功率从 23.2% 升到 43.8%。

世界模型 · SenseTime

Kairos:面向具身智能的 4B 原生世界模型栈

Kairos 用 40 亿参数、线性时间的混合线性时序注意力,在 PAI-Bench 上拿到 80.84,单张 RTX5090 跑完一次 480P rollout 只要 11.4 秒。

视觉-语言-动作 · CASIA

World Pilot:用世界-动作先验给 VLA 策略掌舵

World Pilot 给 VLA 外挂两路世界模型先验,LIBERO-Plus 零样本 OOD 拿到 84.7%,比 ABot-M0 高 4.2 分,场景先验来自未训练动作的世界模型也有效

视觉-语言-动作 · ACE Robotics

ACE-Ego-0:把人类第一视角视频和机器人数据统一进 VLA 预训练

ACE-Ego-0 用 6000 多小时数据做 VLA 预训练,把机器人轨迹和转成伪动作的人类第一视角视频混在一起。六个真机双臂任务平均 78.3%,高于 pi-0.5 的 71.7%。

世界模型 · NVIDIA

NVIDIA OmniDreams:自动驾驶闭环仿真的实时生成式世界模型

OmniDreams 基于 Cosmos,在单张 GB300 上以 68 FPS 渲染单视角,接入 AlpaSim 闭环替换 NuRec,把事故率从 10.1% 降到 4.7%。

视觉-语言-动作 · X Square Robot

WALL-WM:按事件边界切分的世界动作模型

WALL-WM 把 VLA 预训练围绕语义动作事件组织,而非定长动作块。事件模式在真机多样化操作上拿到 75.86 任务进度分,pi0.5 是 55.64。

世界模型 · Alibaba Qwen Team

ABot-Earth 0.5:从卫星图生成3D城市

ABot-Earth 0.5 用卫星图生成 3D Gaussian Splatting 城市场景,报告每平方公里 10 分钟内生成,FID 为 16.1。

视觉-语言-动作 · Zhejiang University

LabVLA:面向科学实验室的VLA模型

LabVLA 用实验室工作流数据训练 Qwen3-VL-4B 加 DiT 动作专家,在 LabUtopia 上达到 71.1% ID 和 70.0% OOD 成功率。

世界模型 · Independent Researcher

AnchorWorld:具身视角世界模拟

AnchorWorld:具身视角世界模拟把自我视角世界模拟变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

世界模型 · Independent Researcher

Function2Scene:按功能生成室内三维布局

Function2Scene:按功能生成室内三维布局把功能驱动三维场景布局变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Independent Researcher

SpatialWorld:交互式空间推理智能体

SpatialWorld:交互式空间推理智能体把交互式空间推理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

机器人 · Independent Researcher

TVRBench:模型能否移动到目标视角

TVRBench:模型能否移动到目标视角把主动三维视角复现变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

机器人 · Tsinghua University

Humanoid-GPT:GPT 式 Transformer 做人形动作跟踪

在 20 亿帧动作语料(比此前大 200 倍)上,从约 384 个 PPO 专家蒸馏出因果 Transformer。仿真成功率 92.58 percent,单步推理低于 1.5ms。

多模态模型 · NVIDIA

Cosmos 3 解读:英伟达面向具身智能的全模态世界模型

Cosmos 3 把语言、图像、视频、音频、机器人动作塞进一个混合 Transformer 模型,英伟达称它在文生图、图生视频以及 RoboArena 策略榜上都拿到开源第一。

视觉-语言-动作 · Allen Institute for AI

MolmoAct2:面向真实机器人的开源动作推理模型

MolmoAct2 是开源视觉-语言-动作栈,先在 3D 空间推理再动手。真实 DROID 成功率 87.1%,领先第二名 38.7 个点,推理模型 Molmo2-ER 还超过 GPT-5。

视觉-语言-动作 · Shanghai AI Laboratory

PhysBrain 1.0:把人类视频编译成机器人的物理先验

PhysBrain 1.0 把人类第一视角视频编译成物理问答预训练 VLM,再适配成机器人策略:真实 Franka 抓取 50 次试验从 47.1% 提到 63.3%(对比 pi0.5)。

视觉-语言-动作 · Alibaba Qwen Team

Qwen-VLA:用一个模型统一操作、导航与轨迹预测

Qwen-VLA 给 Qwen 视觉-语言栈加上 DiT 动作解码器和「具身感知」提示,用单一模型同时做操作、导航与轨迹预测:LIBERO 97.9%、R2R OSR 69.0%。

视觉-语言-动作 · RLWRLD

RLDX-1:多流视觉-语言-动作模型,专攻灵巧机器人

RLWRLD 与 KAIST 的 VLA,在 Qwen3-VL 上加运动、记忆与触觉三条流。抓飞行物体成功率 87.5%,基线 pi0.5 仅 29.2%。

视觉-语言-动作 · ETH Zurich

机器人不止需要 VLA 和世界模型:四个缺失的接口

来自 ETH、斯坦福、TU Darmstadt 与 IIT 的立场论文主张:堆大 VLA 和世界模型不够,机器人真正缺的是把无标注人类与视频行为转成可训练监督信号的四个数据接口。

视觉-语言-动作 · Physical Intelligence

π0 详解:用流匹配生成连续动作的视觉-语言-动作模型

π0 在预训练 VLM 上接一个流匹配动作专家,以约 50Hz 输出连续动作块,让一个策略跨单臂、双臂和移动机器人完成叠衣服、收餐桌、装箱子等灵巧任务。

视觉-语言-动作 · Google DeepMind

RT-2 解读:把动作当文本 token 的视觉-语言-动作模型

RT-2 把机器人动作写成文本 token,联合微调网页预训练的视觉语言模型,在约 6000 次试验中涌现出对新物体、未见指令和基础推理的泛化能力。