Agents' Last Exam:AI智能体终极考试
ALE 用 1490 个专家构建的专业任务测试智能体,覆盖 55 个数字行业,最难档平均完整通过率只有 2.6%。
快速答案
Agents’ Last Exam(ALE)是 UC Berkeley 提出的计算机使用智能体基准,目标是测智能体能否完成真实专业数字工作,而非短题、知识题或单一编程题。它包含 960 个专家编写的任务流程、1490 个任务实例,覆盖 55 个数字行业,并按 near-term、full-spectrum、last-exam 三档难度分层。最该记住的数字很冷:论文报告最难档平均完整通过率只有 2.6%。这说明许多在窄基准上看起来很强的智能体,一旦进入专业工作流,仍然会大面积失效。
ALE到底在测什么
ALE 的核心判断是:现有智能体基准太窄,不足以回答「智能体能否做有经济价值的工作」。SWE-bench 适合看软件 issue,Terminal-Bench 看终端任务,WebArena 和 OSWorld 看网页或桌面操作。ALE 想覆盖更宽的专业数字劳动:工程设计、科学计算、金融、媒体、运营、文档处理等 13 个行业簇、55 个子领域。
它关注的是智能体能否打开工具、检查文件、运行专业软件、产出工件,并满足可验证的任务规格,而不只是记住某个领域的事实。好的 ALE 任务应当像一个被切小的真实专业工作:有明确输入、可检查产物和评分规则,避免一句话问答、模糊聊天请求和只能靠另一个大模型凭感觉打分的题目。
任务和评分怎么设计
论文强调三个设计原则:代表性、复杂性、可验证性。任务由领域专家参与构建,先映射到 13 个行业簇和 55 个子领域,再变成可执行工作流。论文中的统计给出 960 个专家编写流程和 1490 个任务实例。
最关键的是评分方式。ALE 尽量避免 LLM-as-judge,只要能用确定性办法评分,就不用另一个模型来判断。很多任务检查文件、数字、输出工件、模拟结果、截图或约束满足情况。如果某个任务只能问模型「这个答案好不好」,就会被拒绝或重新设计。少数场景会用窄范围、有证据锚定的是/否探针,但 ALE 的主要卖点是可验证结果,不是主观打分。
它还故意保留大部分私有题。论文称公开约 150 个任务实例,约占 1490 个的 10%,其余用于滚动评测和防污染。所以如果读者搜索「ALE 是否开源」,准确答案是:部分公开,但用于排行榜的核心题池会被保护。
关键结果
- 规模: 960 个专家编写流程、1490 个任务实例、55 个数字行业、13 个行业簇。
- 难度: 最难档平均完整通过率只有 2.6%,这是论文证明专业智能体工作仍远未解决的核心数字。
- 与窄基准对比: 论文中 Codex with GPT-5.5 在 Terminal-Bench 上达到 82%,但在 ALE 的专业任务上明显低得多。
- ALE-CLI 结果: 论文报告 Codex GPT-5.5 在 ALE-CLI 上总体通过率 25.2%,near-term 为 41.5%,full-spectrum 为 20.0%,last-exam 为 4.5%。
- 成本和时间: 一次运行平均约 3 到 10 美元,常常需要几十分钟到数小时,单次运行上限为 5 小时。
更精确的结论是:能解决许多终端或编程基准任务的智能体,遇到需要领域背景、工具选择、多步检查和工件正确性的专业工作时,仍然会崩。
为什么当前智能体会失败
论文的失败分析比排行榜更有价值。以 Claude Code + Opus 4.7 为例,作者认为理解失败和方案失败大约占失败案例的四分之三。很多失败发生在早期:智能体误解任务、选错计划,或者没有意识到应当使用哪类领域工具和工作流。
这个诊断反驳了一个常见直觉:智能体只要更多工具调用、更长预算就会变好。ALE 显示资源增加并不稳定转化为通过率。更强的信号是底层模型本身;在工程质量相近的系统里,模型选择带来的差距远大于 harness 选择。作者还观察到,智能体常常绕开专业软件,转而写临时脚本硬做。这种行为在窄编程基准里可能被奖励,但在真实工作流里可能正是失败来源。
局限与存疑
ALE 很有野心,但它覆盖的是数字专业工作。专家任务提升了真实感,也让基准维护成本更高。私有题池有助于防污染,但也意味着外部研究者无法完整审计排行榜背后的所有任务。它评测数字工件,不覆盖田野工作、具身机器人、湿实验科学,也不覆盖依赖多人协作和组织流程的长期项目。
最大的解释风险是领域分布。55 个行业听起来很宽,但读者仍应追问:哪些行业占了主要权重?自己的领域是否有足够深的代表性? ALE 最适合作为「计算机使用型专业智能体」的强压力测试,不能直接等同于所有经济自动化能力。
常见问题
Agents’ Last Exam(ALE)是什么?
Agents’ Last Exam 是一个面向 AI 智能体的长程专业计算机任务基准。它包含 1490 个任务实例,来自专家构建的工作流,覆盖 55 个数字行业,并用可验证结果评分。
Agents’ Last Exam 对当前 AI 智能体有多难?
ALE 最难档平均完整通过率只有 2.6%。在 ALE-CLI 中,论文报告 Codex GPT-5.5 总体通过率为 25.2%,到 last-exam 难度档下降到 4.5%。
ALE 和 Terminal-Bench、SWE-bench 有什么区别?
Terminal-Bench 和 SWE-bench 主要聚焦终端或软件工程任务。ALE 覆盖 55 个数字行业中的专业工作流,许多任务需要领域工具、工件检查和多步专业推理。
Agents’ Last Exam 是公开的吗?
ALE 是部分公开。论文称约 150 个任务实例公开,其余用于滚动评测和防污染,因此开发者可以检查一部分任务,但不能拿到完整排行榜题池。
Agents’ Last Exam 的主要局限是什么?
ALE 的私有题池难以被外部完整审计,范围也集中在数字专业工作,不覆盖所有现实劳动。它是计算机使用智能体的强压力测试,不能代表所有自动化能力。
一句话:ALE 的价值在于把差距说清楚。当前智能体可以在窄基准上显得很能干,但一旦专业工作要求领域理解、工具选择和可验证工件,失败率仍然很高。阅读 arXiv 原文。