主题

强化学习

用奖励训练语言模型与智能体——RLHF、RLVR、GRPO 与可验证奖励等推动推理能力提升的方法。