机构

Shanghai AI Laboratory

中国 AI 研究机构,聚焦大模型、智能体与 AI 安全。

InternVideo3 是 8B 视频模型,单次前向在 Video-MME 拿 73.8,套一圈智能体推理再加 2.7。M2LA 让单张 H200 跑到 768K token。

HYDRA-X 用单个 ViT 统一图像和视频 tokenization,tubelet attention 与层级时间压缩把 DAVIS rFVD 做到 11.19,编辑总分 4.34。

LabVLA 用实验室工作流数据训练 Qwen3-VL-4B 加 DiT 动作专家,在 LabUtopia 上达到 71.1% ID 和 70.0% OOD 成功率。

OVO-S-Bench:流式空间智能评测把流式空间智能变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

ResearchClawBench:自主科研智能体基准把端到端自主科研智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

ThoughtFold 用掩码偏好学习,把 DeepSeek-R1-Distill-Qwen-7B 的冗余推理平均压掉约 56% 的 token,准确率基本不变。

Draft-OPD 让草稿模型在自身起草的状态上训练。Qwen3 思考模型加速 4.86 到 4.89 倍，比 EAGLE-3 高 23%、DFlash 高 13%，且无损。

上海 AI 实验室的 30B-A3B 开源模型 SU-01,仅用约 33.8 万条短 SFT 轨迹加 200 步两阶段 RL,就在 IMO 2025 拿到 35 分金牌线。

AgentDoG 1.5 仅用约 1k 样本训练 0.8B-8B 智能体安全护栏,4B 版在 R-Judge 上拿到 92.2% 准确率,逼近 GPT-5.4,部署开销砍掉两个数量级。

Pi-Bench 不只看完成度,更测「主动性」。100 个长程任务里最强的 GPT-5.4 主动性也只有 67.0%,抽走历史会话后骤降 9.5 个百分点。

CiteVQA 要求文档问答模型在给答案时同时框出证据位置,答案与引用一起打分。最强的 Gemini-3.1-Pro-Preview 严格归因准确率仅 76.0,最佳开源模型只有 22.5。

COLLEAGUE.SKILL 把一个人零散的工作痕迹蒸馏成带版本、可审查的技能包,分能力与受限行为两条轨道,任何 agent 都能安装、纠正、回滚。开源系统报告约 1.85 万 star。

Mega-ASR 用 240 万条仿真音频、54 种复合声学场景训练 Qwen3-ASR-1.7B，把 VOiCES R4-B-F 上的词错率从 54.01% 降到 45.69%。

δ-mem 给冻结的大模型挂上一块仅 8×8 的 delta 规则在线记忆,长记忆平均分较原模型提升 1.10×、较其他记忆方法提升 1.15×,无需微调、不扩上下文。

PhysBrain 1.0 把人类第一视角视频编译成物理问答预训练 VLM,再适配成机器人策略:真实 Franka 抓取 50 次试验从 47.1% 提到 63.3%(对比 pi0.5)。