机构

University of Science and Technology of China

中国科学技术大学(USTC),中国顶尖研究型高校,在机器学习与 AI 智能体方向产出活跃。

APPO 把 RL 分叉点放在高不确定且高影响的 token 上,而非工具调用边界,在 13 个基准上让 Qwen2.5-7B 比 ARPO 高 3.9 分。

Role-Agent 让单个 LLM 既当智能体又当环境,自产过程奖励和课程。Qwen2.5-1.5B 上 ALFWorld 比 GiGPO 高 4.2%,WebShop 高 6.9%。

Flow-OPD 给每个奖励单独训一个专家教师,再在线蒸馏进同一个 SD3.5 学生,把 GenEval 从 0.63 拉到 0.92、OCR 从 0.59 拉到 0.94,且不损画质。

Skill1 用一个 Qwen2.5-7B 策略,在同一任务结果奖励下统一学会检索、使用、提炼可复用技能,ALFWorld 达 97.5%,超最强纯 RL 基线 6.5 个点。

Stream-R1 用视频奖励分数和逐区域困惑度给 DMD 损失重新加权,1.3B 流式模型在 VBench 拿到 84.40,反超 14B 教师的 84.26,且仍是 23.1 FPS。

Stream-T1 不重训,只在推理时搜索,就把 5 秒片段的 VideoAlign 运动质量从 0.350 提到 0.629,并压住毁掉 30 秒长片的漂移。