文生图 · University of Science and Technology of China
Flow-OPD:用在线蒸馏化解文生图 RL 的奖励冲突
Flow-OPD 给每个奖励单独训一个专家教师,再在线蒸馏进同一个 SD3.5 学生,把 GenEval 从 0.63 拉到 0.92、OCR 从 0.59 拉到 0.94,且不损画质。
机构
中国科学技术大学(USTC),中国顶尖研究型高校,在机器学习与 AI 智能体方向产出活跃。
文生图 · University of Science and Technology of China
Flow-OPD 给每个奖励单独训一个专家教师,再在线蒸馏进同一个 SD3.5 学生,把 GenEval 从 0.63 拉到 0.92、OCR 从 0.59 拉到 0.94,且不损画质。
AI 智能体 · University of Science and Technology of China
Skill1 用一个 Qwen2.5-7B 策略,在同一任务结果奖励下统一学会检索、使用、提炼可复用技能,ALFWorld 达 97.5%,超最强纯 RL 基线 6.5 个点。
扩散模型 · University of Science and Technology of China
Stream-R1 用视频奖励分数和逐区域困惑度给 DMD 损失重新加权,1.3B 流式模型在 VBench 拿到 84.40,反超 14B 教师的 84.26,且仍是 23.1 FPS。
扩散模型 · University of Science and Technology of China
Stream-T1 不重训,只在推理时搜索,就把 5 秒片段的 VideoAlign 运动质量从 0.350 提到 0.629,并压住毁掉 30 秒长片的漂移。