DeepSeek-R1:纯强化学习如何教大模型学会推理
只奖励答案对错、不喂人工推理过程,DeepSeek-R1 让大模型自发学会逐步推理,数学基准比肩 OpenAI o1,且开源 MIT 权重。
快速答案
DeepSeek-R1 证明:大模型可以纯靠「答案对不对」的强化学习,自己学会推理——长链思考、自我检查、回头重算——全程不模仿任何人工书写的推理范例。公开的 R1 在 AIME 2024 上 pass@1 达 79.8%、MATH-500 达 97.3%,与 OpenAI o1-1217 持平;DeepSeek 同时以 MIT 协议开源了权重,外加六个更小的蒸馏模型。
解决什么问题
在 R1 之前,做推理模型的默认套路是:收集大量人工书写的逐步解题过程,再做监督微调。这种数据贵、产出慢,而且模型的上限被写数据的人卡死。DeepSeek-R1 想验证能不能彻底跳过这一步——只奖励模型把答案做对,让它自己摸索出推理过程。
阅读前需要知道什么
R1 其实是两个故事,网上的混乱大多来自把它们混为一谈。R1-Zero 是科学结论:基座模型(DeepSeek-V3-Base)纯靠 RL 训练,完全不做监督微调。DeepSeek-R1 是产品:在 R1-Zero 的配方上,补齐让输出可用的修复。还要记住一个词——GRPO(组相对策略优化):它去掉了单独的价值/评论家网络,改成把每个回答放在一组采样回答里相对打分,从而让大规模 RL 便宜得多。另外,那些「几百万美元训出来」的标题说的是 V3 基座,不是 R1 的推理阶段。
核心方法
R1-Zero 用 GRPO 针对规则化奖励训练:数学答案核对是否正确,代码拿测试用例跑,再加一个格式奖励逼模型把思考写进专门的标签里。这里刻意不用神经网络奖励模型——作者就是为了避免「奖励黑客」。仅凭这点信号,训练中回答自然越变越长,自我反思、验证、恍然大悟式的重新推导都是自己涌现出来的,而非被教出来的。
R1-Zero 有两个难看的毛病:思维链可读性差,而且答到一半中英混杂。于是 DeepSeek-R1 把同一思路包进多阶段管线:(1) 先用几千条高质量长思维链「冷启动」数据微调基座,换可读性;(2) 跑大规模推理 RL;(3) 对 RL 模型的优质输出做拒绝采样,生成新的监督数据;(4) 最后一轮 RL 覆盖有用性与无害性,而不只是数学。最终既保住推理能力,又读起来干净。
关键结果
- AIME 2024: R1 的 pass@1 达 79.8%,与 OpenAI o1-1217(79.2%)基本打平。
- MATH-500: 97.3%,同样与 o1 相当。
- Codeforces: 评分约 2029,大致是人类选手的第 96 百分位。
- 涌现曲线: R1-Zero 的 AIME pass@1 纯靠 RL 从 15.6% 爬到 71.0%,多数表决下到 86.7%——这个数字里没有任何人工推理数据。
- 蒸馏: 推理能力可迁移。DeepSeek-R1-Distill-Qwen-32B 在多个推理基准上超过 o1-mini,7B 蒸馏版在 AIME 2024 上拿到 55.5%,击败了远比它大的非推理模型。
为什么重要
R1 是让「推理模型」走出顶级闭源实验室、变得可复现的那篇论文。它给了行业一套具体的开源配方——纯 RL 涌现、GRPO、规则化奖励、向小模型蒸馏——还附上 MIT 协议的权重作担保。几周之内,开源推理模型和 GRPO 复现遍地开花,「在可验证奖励上做 RL」成了默认研究方向。蒸馏结论和旗舰模型本身一样重要:一台笔记本上跑的 7B 模型就能继承大部分推理行为,真正撬动生态的是这一点,而不是某个昂贵的旗舰。
局限与存疑
这套配方在最强的地方恰恰最窄。规则化奖励需要可判定的答案,所以它在数学、代码、STEM 上发光,却不能想当然地迁移到写作、判断这类「对错无法打分」的开放任务。R1-Zero 的原始输出确实难读,这正是产品版要加冷启动和额外阶段的原因。中英混杂和安全性都得专门处理,不会从 RL 里白白掉出来。而且 GRPO 虽让 RL 更便宜,整条管线仍架在前沿规模的基座之上——那个刷屏的成本数字是 V3 基座,不是从零训的推理模型,端到端复现 R1 依然昂贵。
常见问题
DeepSeek-R1 到底是怎么学会推理的?
它只因「给出格式正确的最终答案」而获得奖励,通过 GRPO 强化学习训练。更长的推理、自我检查、回退重算都不是教出来的——它们之所以出现,是因为这么做能提高答对的概率。
DeepSeek-R1 真的和 OpenAI o1 一样强吗?
在头部数学基准上是的:AIME 2024 为 79.8% 对 79.2%,MATH-500 约 97%,与 o1-1217 相当。真正拉开差距的是它的开源权重和蒸馏版本。
R1-Zero 和 DeepSeek-R1 有什么区别?
R1-Zero 是不做任何监督微调的纯 RL,证明推理能从结果奖励中涌现,但输出难读。DeepSeek-R1 加了冷启动数据和多阶段训练,把同一能力变得干净可用。
我自己能跑 DeepSeek-R1 吗?
权重是 MIT 协议、可下载,但完整模型很大。基于 Qwen 和 Llama 的 1.5B–70B 蒸馏模型,才是在普通硬件上跑 R1 式推理的现实选择。
一句话:只奖励答案、不管步骤,一个够强的基座模型就能自己学会思考。阅读 arXiv 原文。