机构

Southern University of Science and Technology

位于深圳的公立研究型大学,以理工与机器学习研究见长。

强化学习 · Alibaba Qwen Team

APPO:智能体过程化策略优化详解

APPO 把 RL 分叉点放在高不确定且高影响的 token 上,而非工具调用边界,在 13 个基准上让 Qwen2.5-7B 比 ARPO 高 3.9 分。