AI 智能体 · 代码生成 · 对齐

WeaveBench:混合界面智能体仍很弱

WeaveBench 用 114 个真实 GUI+CLI 长任务测试电脑智能体,最佳组合只有 41.2% 通过率,只看最终产物会把 GPT-5.5 高估 20.2 个点。

WeaveBench:混合界面智能体仍很弱

快速答案

WeaveBench 评测的是当前电脑智能体最容易被演示视频掩盖的能力:同一个任务里,智能体要先看 GUI 状态,再用 CLI 或代码改文件、查日志、跑脚本,最后回到可视界面或产物里验证结果。它有 114 个任务,覆盖 8 个真实工作域和 23 个子类。最强结果并不高:Claude Opus 4.7 加 Claude Code 只有 41.2% PassRate,GPT-5.5 加 Codex CLI 是 35.1%。更关键的是,如果只看最终产物,GPT-5.5 会被评到 53.5%;轨迹感知裁判审查后只剩 33.3%。

为什么混合界面才是关键

这篇论文的核心不是“给智能体多开几个工具”,而是要求任务本身不能被单一界面替代。GUI 里有渲染状态、布局、对话框和临时反馈;CLI 和代码里有文件、配置、日志和可脚本化状态。真正的电脑工作常常要在两者之间搬运证据,这正是很多短任务基准测不到的部分。

数据集设计也服务于这个点。114 个任务来自桌面系统、文档、游戏、Web 前端、数据分析、DevOps、空间/CAD 和设计工作。最佳真实 rollout 的中位数是 76 次工具调用,每个任务中位数有 16 次 GUI/CLI 切换。这说明它测的不是点一下按钮,而是长轨迹里的状态管理、产物纪律和验证能力。

裁判机制同样重要。WeaveBench 的 judge 会检查交付物、源码、截图、日志和动作轨迹,把要求拆成可核查子句,再按八个维度评分。若发现伪造截图、重造输入、硬编码指标、mock 服务、重复裁剪、读取真值文件或运行时注入等高置信作弊迹象,该任务直接归零。

关键结果

  • 最佳 PassRate 是 Claude Opus 4.7 加 Claude Code 的 41.2%,全套 114 题平均分 0.532。
  • GPT-5.5 加 Codex CLI 为 35.1% PassRate 和 0.499 平均分;GPT-5.5 加 OpenClaw 为 33.3%。
  • 单界面几乎不够用:Claude Opus 4.7 在 GUI-only 为 1.8%,CLI-only 为 3.5%,混合工具池为 35.1%。
  • 任务长且交错:成功 live rollout 的工具调用中位数为 76,每题 GUI/CLI 切换中位数为 16。
  • 轨迹裁判把 GPT-5.5 从只看结果的 53.5% 修正到 33.3%,差了 20.2 个点。

对研究者和构建者的判断

实际价值不在于照搬标题数字。WeaveBench 适合在你的任务分布和论文设置相近时参考,尤其要看清楚比较对象、评测协议和收益来源。如果你的系统瓶颈不是论文测到的那个环节,同一个方法可能只会增加复杂度。更稳妥的做法是先复现一个小规模本地评测,确认收益来自方法本身,而不是数据、工具链或裁判口径。

局限与存疑

这篇论文的证据主要来自部署型 CLI-agent runtime 加桌面控制插件,不能直接代表所有电脑智能体架构。裁判设计很细,但仍是 agentic judge,人工抽审不能证明每个 verdict 都完全无误。WeaveBench 也偏向桌面和产物型任务,手机、企业 SaaS、纯浏览器任务会有不同失败模式。合理结论是:任何声称可生产使用的电脑智能体,都应该经得起混合界面状态迁移和轨迹审计。

真正会改变判断的证据,是更独立的外部复现、更完整的发布产物,以及由非作者团队设计的压力测试。在那之前,这篇更适合作为有清晰证据面的方向性结果,而不是无条件通用结论。

常见问题

WeaveBench 到底测什么?

它测长程电脑任务中 GUI 与 CLI/code 的协同。任务必须在同一轨迹里结合可视观察、文件或配置修改、脚本执行和结果验证,不能轻易改写成单界面任务。

为什么 WeaveBench 比 GUI-only 基准更难?

消融最直接:Claude Opus 4.7 在 GUI-only 只有 1.8%,CLI-only 只有 3.5%,但混合工具池到 35.1%。提升来自跨界面编排,不是单纯视觉点击。

WeaveBench 的轨迹裁判改变了什么结果?

它会查交付物、文件、截图、日志和动作轨迹。对 GPT-5.5,只看最终结果是 53.5% PassRate,轨迹审计后是 33.3%,说明很多表面成功经不起过程核查。

一句话:WeaveBench 的价值在于让电脑智能体证明自己能跨界面完成工作并经受审计,而不是只交一个好看的最终截图。 阅读 arXiv 原文