主题

强化学习

用奖励训练语言模型与智能体——RLHF、RLVR、GRPO 与可验证奖励等推动推理能力提升的方法。

强化学习 · Alibaba Qwen Team

打破熵界:用拒绝采样让 MTP 在 RL 训练里更快

Bebop 证明 MTP 接受率在 RL 里被熵上升压住。全变差损失加拒绝采样把接受率稳在约 95%,熵斜率从 -1.68 压到 -0.06,异步 RL 最快提速 1.8 倍,精度不变。

强化学习 · University of Zurich

RL 让大模型学会从上下文翻译没见过的语言

用 RL 加 chrF 奖励训练大模型照着上下文翻译,学到的是读上下文而非背语言。五种未见语言上平均 0.3335 chrF,SFT 只有 0.2300,跌破基座。

强化学习 · UCLA

SDPG:自蒸馏策略梯度,给稀疏奖励 RL 补密集信号

SDPG 给验证器 RL 加一项全词表自蒸馏损失,让看过答案的模型逐 token 监督自己。Qwen3-4B 上 AIME25 从 GRPO 的 0.242 升到 0.327。

强化学习 · Tencent

CPPO:打破 LLM 强化学习里的均匀 token 信任域

CPPO 把 PPO 一刀切的裁剪阈值换成早 token 更严的裁剪加一条前缀漂移预算,把 Qwen3-30B-A3B-Base 的 AIME 从 49.23(DPPO)抬到 54.79。

强化学习 · Xi'an Jiaotong University

Flow-DPPO:面向流匹配模型的散度近端策略优化

Flow-DPPO 把 PPO 的比值裁剪换成逐步精确的高斯 KL,SD3.5 上 GenEval2 从 39.9(Flow-GRPO)拉到 48.1,策略漂移约降为四分之一。

AI 智能体 · The Chinese University of Hong Kong

Orchestra-o1:全模态智能体编排详解

Orchestra-o1 把文本、图像、音频、视频拆给子智能体并行跑,GPT-5 当大脑在 OmniGAIA 拿 72.8%,训练的 8B 编排器拿 30.0%,居开源全模态智能体首位。

AI 智能体 · City University of Hong Kong

RHO:用自偏好做回溯式 harness 优化

RHO 只用过去的无标注轨迹优化 LLM 智能体的 harness,靠自验证、自一致和成对自偏好,一轮就把 SWE-Bench Pro 通过率从 59% 提到 78%,不用任何外部评分。

强化学习 · Tencent

DRPO:重新思考 LLM RL 中的散度正则

DRPO 把 DPPO 的硬散度 mask 换成平滑优势加权二次正则,保留 Binary-TV 信任域但梯度权重有界,在 BF16 和 FP8 下比 GRPO、SPO、DPPO 训得更稳。

AI 智能体 · CASIA

LLM 智能体环境工程综述：八属性八领域

中科院自动化所综述把 LLM 智能体的交互环境按八条属性轴和八个领域归类，再串起建模、合成、评测、协同进化整条流水线。最锋利的判断：现有环境几乎都撑不起多智能体场景。

强化学习 · Alibaba Qwen Team

APPO:智能体过程化策略优化详解

APPO 把 RL 分叉点放在高不确定且高影响的 token 上,而非工具调用边界,在 13 个基准上让 Qwen2.5-7B 比 ARPO 高 3.9 分。

强化学习 · Alibaba Qwen Team

Z-Reward:把推理内化进打分分布的图像奖励模型

Z-Reward 让图像奖励模型预测评分的整条分布而非标量。9B 学生只输出一个 token 就拿到 88.6% 准确率,下游 T2I 相比 SFT 净增 41.3% GSB。

AI 智能体 · University of Science and Technology of China

Role-Agent:一个 LLM 同时当智能体和环境

Role-Agent 让单个 LLM 既当智能体又当环境,自产过程奖励和课程。Qwen2.5-1.5B 上 ALFWorld 比 GiGPO 高 4.2%,WebShop 高 6.9%。

强化学习 · Zhejiang University

N-GRPO:用语义邻居混合改进 RL rollout

N-GRPO 用语义邻居混合扰动 rollout embedding,把 1.5B 模型平均 Pass@32 提到 79.17,AIME25 提到 50.28。

文生图 · The Chinese University of Hong Kong

InterleaveThinker:用智能体做分步图像生成

InterleaveThinker 给冻结图像生成器加 Planner 和 Critic,UEval 达到 66.3/67.2,WISE 从 0.47 提到 0.73。

定理证明 · MiniMax AI

MaxProof:MiniMax-M3如何做数学证明搜索

MaxProof 把 MiniMax-M3 当作生成器、验证器、修复器和排序器使用,在 IMO 2025 得到 35/42,USAMO 2026 得到 36/42。

AI 智能体 · University of Illinois Urbana-Champaign

Harness-1：把搜索智能体的记账活儿搬出策略

Harness-1 是个 20B 的 RL 搜索智能体，把工作记忆交给环境维护，平均策展召回 0.730，比最强开源子智能体高 11.4 分。

定理证明 · Google Research

HOList:高阶逻辑定理证明环境

HOList:高阶逻辑定理证明环境把面向高阶逻辑证明的机器学习落到具体方法和可检查结果上,适合判断该方向的真实进展。

强化学习 · Tianjin University

多域 RL 为何会遗忘，一次数学复习就能治好

按数学→代码→问答→写作顺序做 RL 后训练，数学从峰值 66.49 跌到 57.66，可梯度看上去却是正交的。末尾补一段短数学复习，数学回到 66.04，其余三域几乎不动。

长上下文 · Tsinghua University

LongTraceRL：用搜索智能体轨迹做长上下文推理强化学习

清华 LongTraceRL 从搜索智能体轨迹挖更难的干扰文档，再加实体级 rubric 奖励，让 Qwen3-4B 五个长上下文基准平均分从 53.3 涨到 59.0。

AI 智能体 · Lehigh University

OpenSkill:无监督下的自进化 LLM 智能体

OpenSkill 让智能体从开放网络自建技能与验证器,SkillsBench 上达 43.6%(+8.9),全程不碰目标任务答案。

强化学习 · Tsinghua University

CHERRL:把 Rubric RL 的奖励黑客变成可复现实验

CHERRL 主动给裁判注入四类已知偏见,让奖励黑客稳定复现;只读训练日志的检测 agent 把六次实验的起点定位区间误差合计压到 11 步,零漏检。

AI 智能体 · Xiamen University

SAAS:教搜索智能体何时该停手

SAAS 用自我感知强化学习,把 Qwen2.5-7B 搜索智能体的平均检索次数从 2.19 降到 0.97,准确率仍贴近最优基线(48.7% vs 49.8%)。

强化学习 · University of Edinburgh

SCOPE：让大模型在开放任务上自博弈进化

SCOPE 让出题的 Challenger 与检索作答的 Solver 互相进化，靠一份冻结的自评委打分，八个开放基准最高提升 +10.4 分，且不用任何人工标注的提示。

智能体记忆 · ByteDance

TaskMem：教视频智能体学会该记住什么

TaskMem 用强化学习训练多模态智能体自己写记忆，在流式视频问答上把 VideoMME 准确率提到 67.9%，比 Qwen3-VL-30B 基线高出 6.3 个点。

定理证明 · DeepSeek

DeepSeek-Prover-V1.5:用 RL 和搜索做 Lean 证明

DeepSeek-Prover-V1.5 把 Lean 反馈、强化学习和 RMaxTS 搜索结合起来,miniF2F 达 63.5%,ProofNet 达 25.3%。

对齐 · OpenAI

PPO 解读:撑起 RLHF 的裁剪目标函数

近端策略优化(PPO)用一个裁剪过的代理目标稳住策略梯度——几乎和 TRPO 一样稳,却简单得多——后来成了 ChatGPT、InstructGPT 背后 RLHF 的默认强化学习引擎。

AI 智能体 · Zhejiang University

自蒸馏智能体强化学习:特权教师逐 token 引导 GRPO

SDAR 在 GRPO 之上加了一路带门控的 token 级自蒸馏信号,由「看得到检索技能」的教师引导,让多轮智能体在 WebShop 上最高 +10.2、ALFWorld 上 +9.4。

大模型推理 · DeepSeek

DeepSeek-R1:纯强化学习如何教大模型学会推理

只奖励答案对错、不喂人工推理过程,DeepSeek-R1 让大模型自发学会逐步推理,数学基准比肩 OpenAI o1,且开源 MIT 权重。