机构

University of Illinois Urbana-Champaign

在计算机科学、人工智能与系统领域实力深厚的顶尖公立研究型大学。

DRPO 把 DPPO 的硬散度 mask 换成平滑优势加权二次正则,保留 Binary-TV 信任域但梯度权重有界,在 BF16 和 FP8 下比 GRPO、SPO、DPPO 训得更稳。

Harness-1 是个 20B 的 RL 搜索智能体，把工作记忆交给环境维护，平均策展召回 0.730，比最强开源子智能体高 11.4 分。

SWE-Explore 单独考核代码探索：848 个 issue 上智能体远超 BM25（HitFile 0.65 对 0.08），但行级召回卡在 0.15-0.20，这才是真瓶颈。

这篇综述提出:代码不是智能体生成的产物,而是它运行其上的可执行底座,并用「接口、机制、多智能体扩展」三层把 40 多个系统串成一张图,末尾列出七个开放问题。

Crafter 给图像模型套上五个协作智能体,PaperBanana-Bench 拿到 50.34 分,而同款底座单跑只有 11.13;CraftEditor 再把位图转成可编辑的 SVG。

Ctx2Skill 用多智能体自博弈,无需人工标注或外部奖励,从长上下文中挖出自然语言技能,把 GPT-4.1 从 11.1% 提到 16.5%。

Eywa 让大模型智能体把时序、表格交给 Chronos、TabPFN 等专用模型,而非塞进文本。EywaBench 上效用从 0.6154 提到 0.6558,省约 30% token。