解决什么问题
扩大语言模型能提升很多能力,但不会自动让输出有帮助、真实或符合用户意图。一个大模型可以很流畅,却仍忽略指令、生成有害文本,或自信地给出错误答案。InstructGPT 要解决的是下一 token 预测和真正遵循用户请求之间的差距。
核心方法
流程先用标注员写的示范和 OpenAI API 中提交的提示做监督微调。然后让人类对多个模型输出排序,用这些排序训练奖励模型。最后用基于人类反馈的强化学习优化语言模型,同时约束它不要偏离监督模型太远。
关键结果
在人类评估中,1.3B 参数 InstructGPT 在研究中的提示分布上,比 175B 参数 GPT-3 输出更受偏好,尽管参数规模相差巨大。模型在真实性上也提升,有害输出减少,同时在公开 NLP 基准上的退化有限。
为什么重要
InstructGPT 让对齐成为产品级训练阶段。它证明用户体验不只取决于规模,还取决于偏好数据、交互场景和后训练。今天聊天式助手的很多手感,都来自从原始续写转向指令遵循的这一步。
局限与存疑
RLHF 昂贵、复杂,也会受标注员偏好和提示分布影响。优化人类偏好可能奖励自信风格,而不是真正正确。InstructGPT 仍会犯简单错误,但它确立了实践方向:行为需要被训练,不能假设规模自然带来。
一句话:InstructGPT 教模型回答用户,而不只是续写文本。