文生图 · The Chinese University of Hong Kong
InterleaveThinker:用智能体做分步图像生成
InterleaveThinker 给冻结图像生成器加 Planner 和 Critic,UEval 达到 66.3/67.2,WISE 从 0.47 提到 0.73。
主题
用奖励训练语言模型与智能体——RLHF、RLVR、GRPO 与可验证奖励等推动推理能力提升的方法。
文生图 · The Chinese University of Hong Kong
InterleaveThinker 给冻结图像生成器加 Planner 和 Critic,UEval 达到 66.3/67.2,WISE 从 0.47 提到 0.73。
MaxProof 把 MiniMax-M3 当作生成器、验证器、修复器和排序器使用,在 IMO 2025 得到 35/42,USAMO 2026 得到 36/42。
AI 智能体 · University of Illinois Urbana-Champaign
Harness-1 是个 20B 的 RL 搜索智能体,把工作记忆交给环境维护,平均策展召回 0.730,比最强开源子智能体高 11.4 分。
HOList:高阶逻辑定理证明环境把面向高阶逻辑证明的机器学习落到具体方法和可检查结果上,适合判断该方向的真实进展。
按数学→代码→问答→写作顺序做 RL 后训练,数学从峰值 66.49 跌到 57.66,可梯度看上去却是正交的。末尾补一段短数学复习,数学回到 66.04,其余三域几乎不动。
清华 LongTraceRL 从搜索智能体轨迹挖更难的干扰文档,再加实体级 rubric 奖励,让 Qwen3-4B 五个长上下文基准平均分从 53.3 涨到 59.0。
OpenSkill 让智能体从开放网络自建技能与验证器,SkillsBench 上达 43.6%(+8.9),全程不碰目标任务答案。
CHERRL 主动给裁判注入四类已知偏见,让奖励黑客稳定复现;只读训练日志的检测 agent 把六次实验的起点定位区间误差合计压到 11 步,零漏检。
SAAS 用自我感知强化学习,把 Qwen2.5-7B 搜索智能体的平均检索次数从 2.19 降到 0.97,准确率仍贴近最优基线(48.7% vs 49.8%)。
强化学习 · University of Edinburgh
SCOPE 让出题的 Challenger 与检索作答的 Solver 互相进化,靠一份冻结的自评委打分,八个开放基准最高提升 +10.4 分,且不用任何人工标注的提示。
TaskMem 用强化学习训练多模态智能体自己写记忆,在流式视频问答上把 VideoMME 准确率提到 67.9%,比 Qwen3-VL-30B 基线高出 6.3 个点。
DeepSeek-Prover-V1.5 把 Lean 反馈、强化学习和 RMaxTS 搜索结合起来,miniF2F 达 63.5%,ProofNet 达 25.3%。
近端策略优化(PPO)用一个裁剪过的代理目标稳住策略梯度——几乎和 TRPO 一样稳,却简单得多——后来成了 ChatGPT、InstructGPT 背后 RLHF 的默认强化学习引擎。
SDAR 在 GRPO 之上加了一路带门控的 token 级自蒸馏信号,由「看得到检索技能」的教师引导,让多轮智能体在 WebShop 上最高 +10.2、ALFWorld 上 +9.4。
只奖励答案对错、不喂人工推理过程,DeepSeek-R1 让大模型自发学会逐步推理,数学基准比肩 OpenAI o1,且开源 MIT 权重。