机构

Fudan University

位于中国上海的顶尖综合性研究型大学,在计算机视觉与多模态人工智能方向有活跃的研究团队。

ARM 是 7B 自回归模型,用一套下一 token 预测同时做理解、文生图和编辑,底层是共享离散分词器;RL 把 GenEval 从 0.79 提到 0.86。

MaxProof 把 MiniMax-M3 当作生成器、验证器、修复器和排序器使用,在 IMO 2025 得到 35/42,USAMO 2026 得到 36/42。

TaskMem 用强化学习训练多模态智能体自己写记忆，在流式视频问答上把 VideoMME 准确率提到 67.9%，比 Qwen3-VL-30B 基线高出 6.3 个点。

WBench 用 289 个案例、1058 轮交互,从画质、设定、交互、一致性、物理五个维度评测交互式视频世界模型,结论是没有一个模型五项全赢。