DPO 详解:不要奖励模型也能对齐大模型

快速答案

Direct Preference Optimization(DPO)只用一个分类式损失,在「被选中 vs 被拒绝」的回答对上直接训练语言模型,使其对齐人类偏好:不训练单独的奖励模型,不跑强化学习循环,微调时也不需要从模型采样。斯坦福团队的核心结论是:DPO 在效果上匹配或超过基于 PPO 的 RLHF,在情感控制上更是明确超过 PPO,同时「实现和训练都要简单得多」。

把奖励模型整个跳过

标准 RLHF 是三段式流水线:先收集人类偏好标注,再在上面拟合一个奖励模型,最后用强化学习(通常是 PPO)去最大化这个学到的奖励,同时用 KL 惩罚约束模型不要偏离基座太远。每一段都引入了失效点:奖励模型可能被钻空子,RL 循环不稳定且对超参数敏感,而训练中要在线采样生成更是又贵又难调。

DPO 的关键洞察是:你根本不需要把奖励模型当成一个单独的东西。论文给出了一种对 RLHF 目标里奖励的新参数化方式,使得最优策略可以写成「闭式解」。因为奖励和最优策略在数学上一一对应,就可以用一个替换另一个,直接在策略上求解原本那个带约束的强化学习问题。标题说得很直白:你的语言模型其实偷偷就是个奖励模型——策略自身的对数概率,相对于一个冻结的参考模型做缩放后,本身就是那个隐式奖励。

替掉强化学习的那个损失

推导出来的损失看上去就像二分类。对每一个偏好对,DPO 提高策略对「被选中回答」的对数概率、压低「被拒绝回答」的对数概率,二者都相对一个冻结的参考策略来度量,并用一个类似温度的系数 β 缩放。就这么简单:一个在你早已收集好的偏好对上的监督式目标。

带来的好处都很具体:没有奖励模型要训练、保存或查询;训练循环里没有策略 rollout / 采样这一步,而那恰恰是 PPO 最贵也最折腾的部分;论文还称 DPO 几乎不需要大量调超参。整个训练跑起来更像普通微调,而不像一场强化学习实验。这也是开源团队会这么快采用它的重要原因。

关键结果

在情感控制(IMDb 风格、把生成引导向正面情感)上,DPO 处在比 PPO 更优的「奖励 vs KL」前沿:在同样偏离参考模型的程度下拿到更高奖励,所以论文说这里 DPO 是超过而非仅仅持平基于 PPO 的 RLHF。
在摘要(TL;DR / Reddit 帖子)和单轮对话(Anthropic HH)上,以 GPT-4 评判的胜率衡量,DPO 匹配或改善了已有偏好微调方法的回答质量。
而且它在做到这些的同时保持稳定、计算轻量,既不需要循环内采样,也不需要繁重的超参搜索。

诚实地看:这里的提升是「一样好或更好,但简单得多」,而非能力上的巨大飞跃。真正的赢点在工程可行性和可复现性。对一个被如此广泛部署的方法来说,这比在某个榜单上多几个点更重要。

局限与存疑

DPO 的上限就是偏好数据的上限,它会继承这些成对标注里的全部偏差——可能过拟合表层风格、放大浅层偏好、去优化那些并不代表长期有用性的选择。冻结的参考模型和 β 系数仍然需要合理设定,「不需要大量调参」不等于「不用调参」。因为没有显式奖励模型,你也就失去了把奖励信号复用到 best-of-n 采样或在线 RL 的选项,而且难以检查奖励到底「在想什么」。后续工作记录到 DPO 会同时压低一对回答里两者的概率,并质疑离线偏好学习相比在线 RL 的泛化能力——所以「DPO 直接替掉 PPO」这种说法,比现实更干净。和所有 RLHF 一样,DPO 也没有回答更难的问题:到底在优化谁的偏好。

常见问题

一句话说,DPO 是什么?

DPO 是一种微调方法:在「被选中 vs 被拒绝」的回答对上最小化一个分类式损失,让语言模型对齐人类偏好,从而去掉 RLHF 所需的单独奖励模型和强化学习循环。

DPO 和用 PPO 的 RLHF 有什么不同?

RLHF 要先训练奖励模型,再用 PPO 配合在线采样和 KL 惩罚去最大化它。DPO 利用奖励与最优策略之间的闭式关系把这两步都跳过,直接优化策略,既不要奖励模型,训练时也不采样;论文还报告它在情感控制上超过 PPO。

DPO 真的能做到和基于 PPO 的 RLHF 一样好吗?

在论文里,DPO 在情感、摘要和单轮对话上匹配或超过基于 PPO 的 RLHF,同时简单得多。它的优势主要是工程上的简洁和稳定,而不是能力上的大幅提升;后续研究也指出了一些失效模式,比如会把一对回答里两者的概率都压低。

为什么 DPO 在开源对齐里这么流行?

因为它把对齐变成了接近普通监督微调的事情:不用维护 RL 栈,不用循环内生成,也几乎不用搜超参。这让没有大规模 RLHF 基础设施的团队也能做偏好微调。

DPO 的真正贡献既是实践的,也是观念上的:它说明奖励模型其实是一段弯路,偏好对齐可以重新像监督学习一样简单。原文见 arXiv:2305.18290。