AI 智能体 · University of Illinois Urbana-Champaign
Harness-1:把搜索智能体的记账活儿搬出策略
Harness-1 是个 20B 的 RL 搜索智能体,把工作记忆交给环境维护,平均策展召回 0.730,比最强开源子智能体高 11.4 分。
机构
在计算机科学、人工智能与系统领域实力深厚的顶尖公立研究型大学。
AI 智能体 · University of Illinois Urbana-Champaign
Harness-1 是个 20B 的 RL 搜索智能体,把工作记忆交给环境维护,平均策展召回 0.730,比最强开源子智能体高 11.4 分。
AI 智能体 · Shanghai Jiao Tong University
SWE-Explore 单独考核代码探索:848 个 issue 上智能体远超 BM25(HitFile 0.65 对 0.08),但行级召回卡在 0.15-0.20,这才是真瓶颈。
AI 智能体 · University of Illinois Urbana-Champaign
这篇综述提出:代码不是智能体生成的产物,而是它运行其上的可执行底座,并用「接口—机制—多智能体扩展」三层把 40 多个系统串成一张图,末尾列出七个开放问题。
多模态模型 · University of Illinois Urbana-Champaign
Crafter 给图像模型套上五个协作智能体,PaperBanana-Bench 拿到 50.34 分,而同款底座单跑只有 11.13;CraftEditor 再把位图转成可编辑 SVG。
长上下文 · University of Illinois Urbana-Champaign
Ctx2Skill 用多智能体自博弈,无需人工标注或外部奖励,从长上下文中挖出自然语言技能,把 GPT-4.1 从 11.1% 提到 16.5%。
AI 智能体 · University of Illinois Urbana-Champaign
Eywa 让大模型智能体把时序、表格交给 Chronos、TabPFN 等专用模型,而非塞进文本。EywaBench 上效用从 0.6154 提到 0.6558,省约 30% token。