主题

大模型推理

激发并提升大语言模型的逐步推理能力。

大模型推理 · Shanghai Jiao Tong University

ReRe:跨视角复看,提升 MLLM 空间推理

ReRe 让 MLLM 先答一遍空间问题,再看一段合成的新视角视频来修正。免训练,把 Qwen3-VL-2B 在 VSI-Bench 上从 22.5 拉到 31.0(+8.5)。

强化学习 · UCLA

SDPG:自蒸馏策略梯度,给稀疏奖励 RL 补密集信号

SDPG 给验证器 RL 加一项全词表自蒸馏损失,让看过答案的模型逐 token 监督自己。Qwen3-4B 上 AIME25 从 GRPO 的 0.242 升到 0.327。

强化学习 · Tencent

CPPO:打破 LLM 强化学习里的均匀 token 信任域

CPPO 把 PPO 一刀切的裁剪阈值换成早 token 更严的裁剪加一条前缀漂移预算,把 Qwen3-30B-A3B-Base 的 AIME 从 49.23(DPPO)抬到 54.79。

AI 智能体 · Tencent

从聊天机器人到数字同事:持续自主 AI 综述

腾讯优图等机构的综述,用两条轴线梳理从聊天机器人到持续智能体的演进:认知核心(聊天机器人到思考型 LLM)与任务执行(智能体到工作区加技能),主张持续状态才是关键跃迁。

AI 智能体 · City University of Hong Kong

RHO:用自偏好做回溯式 harness 优化

RHO 只用过去的无标注轨迹优化 LLM 智能体的 harness,靠自验证、自一致和成对自偏好,一轮就把 SWE-Bench Pro 通过率从 59% 提到 78%,不用任何外部评分。

强化学习 · Tencent

DRPO:重新思考 LLM RL 中的散度正则

DRPO 把 DPPO 的硬散度 mask 换成平滑优势加权二次正则,保留 Binary-TV 信任域但梯度权重有界,在 BF16 和 FP8 下比 GRPO、SPO、DPPO 训得更稳。

AI 智能体 · Ant Group

SearchSwarm:深度研究的委派智能详解

SearchSwarm 在 Tongyi DeepResearch-30B-A3B 上微调 harness 委派轨迹,把 BrowseComp 从 43.4 拉到 68.1,居同规模榜首。

强化学习 · Alibaba Qwen Team

APPO:智能体过程化策略优化详解

APPO 把 RL 分叉点放在高不确定且高影响的 token 上,而非工具调用边界,在 13 个基准上让 Qwen2.5-7B 比 ARPO 高 3.9 分。

AI 智能体 · University of Science and Technology of China

Role-Agent:一个 LLM 同时当智能体和环境

Role-Agent 让单个 LLM 既当智能体又当环境,自产过程奖励和课程。Qwen2.5-1.5B 上 ALFWorld 比 GiGPO 高 4.2%,WebShop 高 6.9%。

AI 智能体 · Renmin University of China

FORT-Searcher:训练不抄近路的搜索智能体

FORT-Searcher 用抗捷径任务训练 3B active 搜索智能体,同规模开源总体 66.2;FORT 数据把答案命中时间从 18.7 推迟到 46.9。

强化学习 · Zhejiang University

N-GRPO:用语义邻居混合改进 RL rollout

N-GRPO 用语义邻居混合扰动 rollout embedding,把 1.5B 模型平均 Pass@32 提到 79.17,AIME25 提到 50.28。

AI 智能体 · Google DeepMind

From AGI to ASI:DeepMind的超智能路径图

Google DeepMind 报告梳理 AGI 到 ASI 的四条非互斥路径,并把数据墙、资源约束、监管等瓶颈视为开放研究问题。

定理证明 · MiniMax AI

MaxProof:MiniMax-M3如何做数学证明搜索

MaxProof 把 MiniMax-M3 当作生成器、验证器、修复器和排序器使用,在 IMO 2025 得到 35/42,USAMO 2026 得到 36/42。

AI 智能体 · Renmin University of China

Arbor:用假设树管理自主科研

Arbor 用持久假设树管理科研尝试,6 个 AO 任务 held-out 结果全胜,MLE-Bench Lite Any Medal 达 86.36%。

AI 智能体 · Independent Researcher

AdaPlanBench:测试智能体自适应规划

AdaPlanBench:测试智能体自适应规划把约束下的自适应规划变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · UC Berkeley

Agents' Last Exam:AI智能体终极考试

ALE 用 1490 个专家构建的专业任务测试智能体,覆盖 55 个数字行业,最难档平均完整通过率只有 2.6%。

AI 智能体 · Nanjing University

DRIFT:精准定位深度研究 Agent 错在哪一步

TELBench 让模型在十余步的研究轨迹里找出坏掉的那一段。DRIFT 用主张对证据的审计法,把 span 级宏 F1 推到 54.91%,比直接喂原始轨迹最高高出 30 个百分点。

多模态模型 · Peking University

看、记、想:视频多模态大模型的人类视角综述

综述把长视频 MLLM 重构为「看-记-想」三种能力,对比 11 篇已有综述,梳理 100+ 方法与 5 个应用领域。

AI 智能体 · Independent Researcher

K-BrowseComp:韩语网页智能体基准

K-BrowseComp:韩语网页智能体基准把韩语语境网页浏览智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

定理证明 · Princeton University

LeanDojo:检索增强定理证明

LeanDojo:检索增强定理证明把Lean 中的检索增强定理证明落到具体方法和可检查结果上,适合判断该方向的真实进展。

长上下文 · Tsinghua University

LongTraceRL：用搜索智能体轨迹做长上下文推理强化学习

清华 LongTraceRL 从搜索智能体轨迹挖更难的干扰文档，再加实体级 rubric 奖励，让 Qwen3-4B 五个长上下文基准平均分从 53.3 涨到 59.0。

定理证明 · Independent Researcher

MiniF2F:形式化奥赛数学基准

MiniF2F:形式化奥赛数学基准把形式化奥赛级数学评测落到具体方法和可检查结果上,适合判断该方向的真实进展。

AI 智能体 · Shanghai AI Laboratory

ResearchClawBench:自主科研智能体基准

ResearchClawBench:自主科研智能体基准把端到端自主科研智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

强化学习 · University of Edinburgh

SCOPE：让大模型在开放任务上自博弈进化

SCOPE 让出题的 Challenger 与检索作答的 Solver 互相进化，靠一份冻结的自评委打分，八个开放基准最高提升 +10.4 分，且不用任何人工标注的提示。

AI 智能体 · Independent Researcher

SoCRATES:主动式 LLM 调解评测

SoCRATES:主动式 LLM 调解评测把主动调解智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · HKUST

StreamMA：多智能体推理里，边写边传比等完再传更聪明

StreamMA 让智能体生成一步推理就立刻流式传给下游，而不是等整条链写完。8 个基准平均涨 7.3 个百分点（HMMT 2026 最高 +22.4），并行场景最快提速 26.9 倍。

AI 智能体 · Independent Researcher

TASTE:从工具序列生成智能体难题

TASTE:从工具序列生成智能体难题把工具调用基准生成变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

大模型推理 · Shanghai AI Laboratory

ThoughtFold:推理链砍掉 56% token 而不掉点

ThoughtFold 用掩码偏好学习,把 DeepSeek-R1-Distill-Qwen-7B 的冗余推理平均压掉约 56% 的 token,准确率基本不变。

AI 智能体 · Independent Researcher

TIDE:模板引导的主动发现问题

TIDE:模板引导的主动发现问题把主动式问题发现变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

微调与适配 · The Hong Kong Polytechnic University

Token 可教性：只监督 5% token 蒸馏大模型

TA-OPD 只监督教师修正落在学生 top-K 支撑集内的约 5% token，效果常追平甚至超过全 token 在线蒸馏（Qwen3-4B 蒸 1.7B：44.89 对 42.37）。

AI 智能体 · Independent Researcher

ToolMaze:工具失败后的智能体重规划

ToolMaze:工具失败后的智能体重规划把工具失败后的动态重规划变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

多模态模型 · Independent Researcher

VideoKR:知识密集型视频理解

VideoKR:知识密集型视频理解把视频理解中的知识与推理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

视频生成 · Kuaishou Technology

让 VLM 当老师：测试时优化撬动视频推理

不让视频模型自己硬推，而是让 VLM 给中间帧打分、逐样本微调一个 LoRA。RULER-Bench 从 46.4 拉到 68.2。

世界模型 · University of Macau

PF-OPSD：多模态大模型该何时信任世界模型的视频

PF-OPSD 训练 Qwen3.5-9B 学会判断何时调用视频世界模型、如何核验生成画面，并在两个新基准上把准确率分别提升 10.6 和 10.9 个百分点。

定理证明 · Google DeepMind

AI 形式化证明搜索能解开放数学题吗

这项工作把 AI 形式化证明搜索放到开放数学题上评测:最强 agent 解出 353 个 Erdos 问题中的 9 个,证明 492 个 OEIS 猜想中的 44 个。

定理证明 · DeepSeek

DeepSeek-Prover-V1.5:用 RL 和搜索做 Lean 证明

DeepSeek-Prover-V1.5 把 Lean 反馈、强化学习和 RMaxTS 搜索结合起来,miniF2F 达 63.5%,ProofNet 达 25.3%。

大模型推理 · Samsung Research

TrOPD:面向小模型的信任域在线策略蒸馏

TrOPD 只在教师真正可信的 token 上做在线策略蒸馏,在数学、代码、STEM 上比标准 OPD 平均高出 3.06 到 3.52 分。

大模型推理 · Shanghai AI Laboratory

SU-01:30B 开源模型如何拿下金牌级奥赛推理

上海 AI 实验室的 30B-A3B 开源模型 SU-01,仅用约 33.8 万条短 SFT 轨迹加 200 步两阶段 RL,就在 IMO 2025 拿到 35 分金牌线。

大模型推理 · Xiaohongshu

反向自蒸馏 AntiSD:用点互信息加速推理 RL

AntiSD 把自蒸馏反过来,只奖励特权上下文与原模型分歧最大的 token,用 2 到 10 倍更少的步数追平 GRPO,在 4B 到 30B 的五个模型上最终高出至多 11.5 分。

AI 智能体 · Shanghai Jiao Tong University

ARIS:用跨模型对抗多智能体做自主科研

ARIS 是开源自主科研框架,让 Claude 系执行者搭配 GPT 系审稿者互相攻击,专治「看似成功实则无依据」,含 65+ 技能与三阶段证据审计。

AI 智能体 · UNC-Chapel Hill

AutoResearchClaw:跑赢 AI Scientist v2 的科研智能体

AutoResearchClaw 用 23 阶段多智能体管线自主做研究,ARC-Bench 上 0.648 远超 AI Scientist v2 的 0.419,但只有人在环时质量才达标。

大模型推理 · Google Research

思维链提示:把推理步骤写出来,如何激活大模型推理

只在示例里多写几步中间推理,大模型就能解多步难题——540B 模型配 8 个思维链示例,GSM8K 达到当时最优的 57%,超过带验证器的微调版 GPT-3。

AI 智能体 · University of Illinois Urbana-Champaign

Code as Agent Harness:把代码重新定义为 AI 智能体的运行时

这篇综述提出:代码不是智能体生成的产物,而是它运行其上的可执行底座,并用「接口、机制、多智能体扩展」三层把 40 多个系统串成一张图,末尾列出七个开放问题。

大模型推理 · Renmin University of China

DelTA:面向可验证奖励强化学习的判别式 Token 信用分配

DelTA 把 RLVR 更新重加权,让信用落在真正能区分对错的 token 上,使 Qwen3-8B-Base 平均提升 3.26 分、Qwen3-14B-Base 提升 2.62 分。

大模型推理 · Alibaba Qwen Team

DVAO:按方差自适应加权的多奖励强化学习

DVAO 按各奖励在组内的方差自适应加权,而非固定系数,在 Qwen3-4B-Base 上把平均准确率从 38.99% 提到 42.19%,长度合规率从 96.39% 拉到 99.91%。

微调与适配 · HKUST

在线策略蒸馏的几何:一种独立的参数更新模式

在线策略蒸馏并非介于 SFT 与 RLVR 之间,而是自成一套几何:它改动更少权重、避开主方向,并在训练早期就锁进一个狭窄低维子空间。

检索增强生成 · University of Massachusetts Amherst

GrepSeek:让搜索智能体直接 grep 语料库,而非查向量索引

GrepSeek 训练大模型用 grep 等 shell 命令直接搜原始语料、不建嵌入索引,在七个开放域问答基准上拿到最佳 F1 与精确匹配,检索最高提速 7.6 倍。

多模态模型 · University of Washington

想象式感知标记:让多模态模型「画出」空间而非「描述」空间

想象式感知标记(IPT)训练视觉语言模型渲染出它在另一视角下会看到的画面,再据此推理,而非用文字思考。多视角计数提升 3.4%,路径追踪比肩闭源模型,而文本思维链有时反而拖后腿。

高效 AI · Huawei

KVarN:免标定的 2-bit KV 缓存量化

KVarN 用 Hadamard 旋转加双轴方差归一化,把 KV 缓存压到 2-bit 且无需标定数据,专治长推理解码中量化误差逐步放大的问题。

检索增强生成 · AIRI

OCC-RAG:只为忠实读上下文而生的小模型

OCC-RAG 是 0.6B 与 1.7B 的两个推理小模型,只依据给定上下文作答、答不出就拒答,在多跳问答上追平甚至超过体量 2-6 倍的通用模型。

对齐 · OpenAI

PPO 解读:撑起 RLHF 的裁剪目标函数

近端策略优化(PPO)用一个裁剪过的代理目标稳住策略梯度——几乎和 TRPO 一样稳,却简单得多——后来成了 ChatGPT、InstructGPT 背后 RLHF 的默认强化学习引擎。

大模型推理 · Princeton University

ReAct:推理与行动交织,如何搭起 LLM 智能体

ReAct 让模型把推理过程和搜索、API 调用等行动交替进行,削减思维链幻觉,仅凭一两个示例就在 ALFWorld 上以 34% 绝对成功率超越强化学习智能体。

AI 智能体 · Zhejiang University

自蒸馏智能体强化学习:特权教师逐 token 引导 GRPO

SDAR 在 GRPO 之上加了一路带门控的 token 级自蒸馏信号,由「看得到检索技能」的教师引导,让多轮智能体在 WebShop 上最高 +10.2、ALFWorld 上 +9.4。

AI 智能体 · University of Science and Technology of China

Skill1:一个 RL 策略统一管技能的选、用、蒸

Skill1 用一个 Qwen2.5-7B 策略,在同一任务结果奖励下统一学会检索、使用、提炼可复用技能,ALFWorld 达 97.5%,超最强纯 RL 基线 6.5 个点。

大模型推理 · Meta AI

Toolformer:语言模型如何自学使用工具

Toolformer 让模型自己决定调用哪个 API、传什么参数——计算器、问答、搜索、翻译、日历——只靠保留那些能降低下一词损失的采样调用,每个工具只需几条示范。

语言模型 · Alibaba Qwen Team

TransitLM:无地图公交路线生成的大规模数据集与基准

TransitLM 收录四座中国城市 1300 万条规划记录,让语言模型脱离地图引擎直接规划公交路线,4B 模型在最优路线上达 97.0% 连通性、71.0% 完全匹配。

微调与适配 · T-Tech

信赖域行为混合 TRB:给在线策略蒸馏的热身修补

在线策略蒸馏会把教师监督浪费在学生早期的烂 rollout 上。TRB 在热身阶段于 KL 信赖域内混入接近教师的行为策略,再把预算退火到零——两个数学推理设置上拿到最强平均成绩。

定理证明 · Google DeepMind

AlphaGeometry:不靠人类证明解奥赛几何

AlphaGeometry 用语言模型加符号引擎,在 1 亿条合成定理上从零训练,30 道奥赛几何题解出 25 道,而此前最强方法只有 10 道。

对齐 · Stanford University

DPO 详解:不要奖励模型也能对齐大模型

DPO 用一个分类式损失直接在偏好对上求解 RLHF 问题:不训练单独的奖励模型,不跑强化学习循环,训练时也不采样。

多模态模型 · OpenAI

GPT-4 技术报告解读:只给分数,不给配方

GPT-4 技术报告是一份成绩单,而非复现手册:多模态图文输入,模拟律师考试约前 10%,却不公开架构、数据与算力。

开放模型 · Meta AI

Llama 3:一个开放的 405B 稠密模型,对标 GPT-4

Meta 把 Llama 3 做成一个模型家族,旗舰是 405B 参数的稠密 Transformer,支持 128K 上下文,用 15 万亿以上 token 预训练,并公开了权重。

大模型推理 · DeepSeek

DeepSeek-R1:纯强化学习如何教大模型学会推理

只奖励答案对错、不喂人工推理过程,DeepSeek-R1 让大模型自发学会逐步推理,数学基准比肩 OpenAI o1,且开源 MIT 权重。