Claw-SWE-Bench:编码智能体不能只看模型

快速答案

Claw-SWE-Bench 是一个 SWE-bench 风格的编码智能体 harness 评测,重点不是只比较底座模型。它包含 350 个 GitHub issue 修复实例,覆盖 8 种编程语言和 43 个仓库,并提供 80 题 Lite 子集用于低成本迭代。最醒目的数字是:在完整 benchmark 上,OpenClaw 使用最小 direct-diff adapter 时只有 19.1% Pass@1;换成完整 adapter 后,同一个 GLM 5.1 backbone 达到 73.4%。

它到底测什么

SWE-bench 要求干净 Docker workspace、补丁和预测协议。OpenClaw 这类通用智能体可以很会用工具,但它天然不满足 SWE-bench 的评分契约。Claw-SWE-Bench 加了 adapter protocol,让不同 agent harness 在同一 prompt、运行预算、workspace contract、patch extraction 和 evaluator 下比较。

这个区分很关键。如果智能体失败是因为 harness 抽不出正确 patch、workspace 管不好、停止时机不对,单独报模型分数就会误导读者。论文的核心主张是:harness design 本身就是编码智能体评测的一等变量。

Lite 子集为什么有用

完整 350 题评测很贵,因为每个样本都可能触发长时间 agent loop。Claw-SWE-Bench Lite 用 cost-aware、rank-aware 方法,从 17 个校准列中选出 80 个实例。它不是展示用小样本,目标是尽量保留排名、语言覆盖和成本结构,让团队能低成本调 adapter、prompt 和停止规则。

论文报告 Lite-80 的 full-run cost 约为 full-350 的 22.9%。在 17 个校准列上,full-350 的平均 Pass@1 为 0.639,Lite-80 为 0.643,差距约 0.4 个百分点。

关键结果

规模: 350 个 issue-resolution 实例,覆盖 8 种语言和 43 个仓库。
Lite: 80 个实例,覆盖 34/43 个仓库,也就是完整仓库集合的 79%。
Adapter 影响: 同一 GLM 5.1 backbone 下,OpenClaw 从 19.1% Pass@1 升到 73.4%。
模型轴: OpenClaw × 9 模型扫描中,模型选择带来 29.4 个百分点 Pass@1 差异。
Harness 轴: 5 个 claw × 2 个模型扫描中,固定模型时 harness 选择带来 27.4 个百分点 Pass@1 差异。
成本: 准确率接近的系统可能总 API 成本差很多,所以论文把 cost、token 和 cache hit rate 与 Pass@1 一起报告。

最有用的结论是:harness 差异几乎可以达到模型差异的量级。隐藏 harness,只写模型名,很可能排错榜。

future-commit cleanup 说明了什么

论文还处理了 future-commit 可见性问题。SWE 风格任务里,智能体有时可能从仓库历史中看到 issue 之后的提交线索。清理后,9 个 OpenClaw 模型 run 的 Pass@1 都没有上升;最大下降来自 Claude Opus 4.7,从 84.7% 降到 76.7%,下降 8.0 个百分点。

这说明污染处理会影响排名,也说明读者应优先看 cleanup 后的数字。

局限与存疑

主要实验多为单次聚合结果,小幅差异不应被解读成稳定优劣。Claw sweep 覆盖 5 个 harness 和 2 个模型,足以证明 harness 很重要,但还不足以拆清模型家族、工具循环、parser、停止规则和成本之间的全部交互。成本数字也受 provider 定价和 cache accounting 影响。

更大的问题是:这种 model-harness 不可分现象是否同样出现在浏览器智能体、桌面智能体和科研智能体中? Claw-SWE-Bench 回答的是 SWE 风格编码任务,不是所有 agent 场景。

常见问题

Claw-SWE-Bench 是什么?

Claw-SWE-Bench 是一个多语言 SWE-bench 风格 benchmark 和 adapter protocol,用于在真实 GitHub issue 修复任务上评测编码智能体 harness。

Claw-SWE-Bench 有多大?

完整 benchmark 有 350 个实例,覆盖 8 种编程语言和 43 个仓库。Lite 子集有 80 个实例,用于低成本验证。

为什么 OpenClaw 会从 19.1% 升到 73.4% Pass@1?

19.1% 使用的是最小 direct-diff adapter,73.4% 使用完整 adapter,底座同为 GLM 5.1。这个差距说明 adapter 和 harness 设计会强烈影响编码智能体成绩。

Claw-SWE-Bench Lite 能替代完整 benchmark 吗?

不能。Lite-80 适合筛选、调试和回归检查。它把成本降到 full-350 的约 22.9%,并在校准研究中较好保持平均 Pass@1。

Claw-SWE-Bench 最大局限是什么?

当前结果主要是有限 harness/model 扫描上的单次聚合。要把几个百分点的 Pass@1 差异当作稳定结论,还需要更宽的复现实验。

一句话:Claw-SWE-Bench 的价值在于让编码智能体 harness 不再是被模型名遮住的隐形工程。阅读 arXiv 原文。