强化学习 · Alibaba Qwen Team APPO:智能体过程化策略优化详解 APPO 把 RL 分叉点放在高不确定且高影响的 token 上,而非工具调用边界,在 13 个基准上让 Qwen2.5-7B 比 ARPO 高 3.9 分。