强化学习 · Xi'an Jiaotong University
Flow-DPPO:面向流匹配模型的散度近端策略优化
Flow-DPPO 把 PPO 的比值裁剪换成逐步精确的高斯 KL,SD3.5 上 GenEval2 从 39.9(Flow-GRPO)拉到 48.1,策略漂移约降为四分之一。
机构
位于西安的中国顶尖研究型大学,工科、计算机与机器学习方向实力雄厚。
强化学习 · Xi'an Jiaotong University
Flow-DPPO 把 PPO 的比值裁剪换成逐步精确的高斯 KL,SD3.5 上 GenEval2 从 39.9(Flow-GRPO)拉到 48.1,策略漂移约降为四分之一。