MaxProof:MiniMax-M3如何做数学证明搜索
MaxProof 把 MiniMax-M3 当作生成器、验证器、修复器和排序器使用,在 IMO 2025 得到 35/42,USAMO 2026 得到 36/42。
机构
位于中国上海的顶尖综合性研究型大学,在计算机视觉与多模态人工智能方向有活跃的研究团队。
MaxProof 把 MiniMax-M3 当作生成器、验证器、修复器和排序器使用,在 IMO 2025 得到 35/42,USAMO 2026 得到 36/42。
TaskMem 用强化学习训练多模态智能体自己写记忆,在流式视频问答上把 VideoMME 准确率提到 67.9%,比 Qwen3-VL-30B 基线高出 6.3 个点。
WBench 用 289 个案例、1058 轮交互,从画质、设定、交互、一致性、物理五个维度评测交互式视频世界模型,结论是没有一个模型五项全赢。