视觉-语言-动作 · Zhejiang University
LabVLA:面向科学实验室的VLA模型
LabVLA 用实验室工作流数据训练 Qwen3-VL-4B 加 DiT 动作专家,在 LabUtopia 上达到 71.1% ID 和 70.0% OOD 成功率。
机构
中国 AI 研究机构,聚焦大模型、智能体与 AI 安全。
视觉-语言-动作 · Zhejiang University
LabVLA 用实验室工作流数据训练 Qwen3-VL-4B 加 DiT 动作专家,在 LabUtopia 上达到 71.1% ID 和 70.0% OOD 成功率。
多模态模型 · Shanghai AI Laboratory
OVO-S-Bench:流式空间智能评测把流式空间智能变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
AI 智能体 · Shanghai AI Laboratory
ResearchClawBench:自主科研智能体基准把端到端自主科研智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
大模型推理 · Shanghai AI Laboratory
ThoughtFold 用掩码偏好学习,把 DeepSeek-R1-Distill-Qwen-7B 的冗余推理平均压掉约 56% 的 token,准确率基本不变。
高效 AI · Shanghai AI Laboratory
Draft-OPD 让草稿模型在自身起草的状态上训练。Qwen3 思考模型加速 4.86 到 4.89 倍,比 EAGLE-3 高 23%、DFlash 高 13%,且无损。
大模型推理 · Shanghai AI Laboratory
上海 AI 实验室的 30B-A3B 开源模型 SU-01,仅用约 33.8 万条短 SFT 轨迹加 200 步两阶段 RL,就在 IMO 2025 拿到 35 分金牌线。
AI 智能体 · Shanghai AI Laboratory
AgentDoG 1.5 仅用约 1k 样本训练 0.8B-8B 智能体安全护栏,4B 版在 R-Judge 上拿到 92.2% 准确率,逼近 GPT-5.4,部署开销砍掉两个数量级。
AI 智能体 · Shanghai AI Laboratory
Pi-Bench 不只看完成度,更测「主动性」。100 个长程任务里最强的 GPT-5.4 主动性也只有 67.0%,抽走历史会话后骤降 9.5 个百分点。
多模态模型 · Shanghai AI Laboratory
CiteVQA 要求文档问答模型在给答案时同时框出证据位置,答案与引用一起打分。最强的 Gemini-3.1-Pro-Preview 严格归因准确率仅 76.0,最佳开源模型只有 22.5。
AI 智能体 · Shanghai AI Laboratory
COLLEAGUE.SKILL 把一个人零散的工作痕迹蒸馏成带版本、可审查的技能包,分能力与受限行为两条轨道,任何 agent 都能安装、纠正、回滚。开源系统报告约 1.85 万 star。
Mega-ASR 用 240 万条仿真音频、54 种复合声学场景训练 Qwen3-ASR-1.7B,把 VOiCES R4-B-F 上的词错率从 54.01% 降到 45.69%。
δ-mem 给冻结的大模型挂上一块仅 8×8 的 delta 规则在线记忆,长记忆平均分较原模型提升 1.10×、较其他记忆方法提升 1.15×,无需微调、不扩上下文。
视觉-语言-动作 · Shanghai AI Laboratory
PhysBrain 1.0 把人类第一视角视频编译成物理问答预训练 VLM,再适配成机器人策略:真实 Franka 抓取 50 次试验从 47.1% 提到 63.3%(对比 pi0.5)。