从聊天机器人到数字同事:持续自主 AI 综述

快速答案

这是一篇综述,作者来自腾讯优图、清华、中山大学、中南大学和 UIC。它把近年 LLM 进展放到两条它认为相互耦合的轴线上。第一条是认知核心,从聊天机器人时代的快速生成,走向用推理时算力做推理的思考型 LLM。第二条是任务执行,从临时调工具的智能体,走向持续的工作区系统。它的核心主张是:它称为工作区加技能的组合才是质变,而非更强的模型或更多工具。这是一篇立场性综述。没有新模型,没有新数据集,也没有新基准。

两维度分类框架

综述的主线是把 LLM 历史读成一个 2x2,拆成四个时代。

认知轴上,聊天机器人时代涵盖扩展自回归 Transformer 加指令对齐,作者把它框定为基于压缩参数知识的 System-1 快速生成。思考型 LLM 时代(他们举的例子是 OpenAI o1 和 DeepSeek R1)涵盖长思维链、推理时扩展、过程监督和 RL 驱动的自我纠错。

执行轴上,智能体时代涵盖工具调用与环境-动作-反馈回路,局限在于每次工具调用都是孤立事务。下一阶段被论文标为 OpenClaw 时代:智能体住在一个持续工作站里,带文件、终端、浏览器、日志、权限和可复用技能。这里的 OpenClaw 是 harness 加工作区架构的代称,作者明确说它只是代表性模式,不是这个想法的起源。他们引 OpenHands 和 SWE-agent 作为软件工程侧的同类模式,其中 SWE-agent 的论点是:智能体与计算机的接口本身就是一个设计对象。

关键结果:最强的组织性论点

最锋利的论证在第三部分:工作区加技能库,胜过单独任何一个。没有技能的工作区,逼着智能体每次都临时重造同一套流程。没有工作区的技能,只是一个无处施展的静态指令模板。两者合一,就得到任务闭合:加载可复用流程,在持久产物上操作,验证结果,修复失败,留下一个可检查的终态。

随后的转向是这篇综述最好的一步。它把智能体的问题从「模型能不能选对下一个动作」,改成「很多动作之后,环境是否仍然连贯、可检查、可恢复」。分析单位从单个决策,挪到了长轨迹上状态的持久性,而真实智能体部署正是在这里崩的。

这套方案里的技能是一个目录级资产,通常围绕一个 SKILL.md 文件,外加脚本、示例、依赖和验证流程。作者特意说,技能比提示词多(它编码了前置条件和失败模式),也比工具多(它描述一种可重复的工作方式,不是一个可调函数)。他们把它叫作只在相关时才加载的程序性记忆。

数据与评测的迁移

综述最具体的贡献,是追踪了两条与四个时代对应的背景迁移。

数据从指令-回复对(SFT、InstructGPT 风格),走到思维链与过程奖励数据(PRM),再走到状态-动作-观察轨迹。在智能体阶段,一条样本不再是「模型该写什么答案」,而是「此状态下该采取哪个动作,反馈又如何引导下一步」。这些轨迹带着工具调用记录、DOM 状态、截图、终端输出、文件 diff 和报错信息。

评测走过四个阶段。阶段一打分终态输出准确率(MMLU、GSM8K、MATH、BLEU/ROUGE)。阶段二加上过程验证和用 LLM 当裁判看推理轨迹(ProcessBench、PRMBench)。阶段三引入任务闭合率,问系统有没有把初始环境状态变成目标终态(SWE-bench、WebArena、OSWorld、WorkArena)。阶段四在可复现状态下加上工作区能力与安全,论文点名的基准是 ClawBench、ClawsBench 和一个轨迹安全基准。这里有用的引入是任务闭合率的定义,它逼着成功意味着环境被改变,而不是一个看上去合理的计划。

这套框架藏起了什么

干净的 2x2 会藏起乱的部分,这篇也不例外。

它把认知轴和执行轴当作各自独立、然后宣称二者紧密耦合,却从不展示耦合在哪里失效。一个强思考型 LLM 配弱工作区,或一个强工作区驱动弱底座,是不同的失败画像,框架把它们压成了同一个故事。

工作区加技能这条主张,照现在的写法很难被证伪。综述自己列出了拆它台的失败模式:技能脆弱,UI 改版、依赖升级或 schema 变更会悄悄让一段存好的流程失效;技能过拟合与负迁移,为一个环境写的流程会在相近环境里误导智能体。如果技能要靠版本管理、回归测试、兼容检查和废弃机制才能保持有效,那可复用流程承担的份量就比标题暗示的小,大部分可靠性负担挪到了论文没度量的生命周期管理上。

OpenClaw 的写法是呈现,不是证据。案例研究只是代表性模式,不是被基准测过的系统。所以这篇里没有一条核心论点(持续状态抬高上限、工作区加技能是跃迁)配上数字。实证内容住在它引用的那些系统里,不在综述本身。

什么证据能定论

这条主张可测,综述指向了实验却没去跑。一个干净的测法是:固定底座模型和工具集,只加上持续工作区状态,在阶段三、四的基准上测任务闭合率。第二个测法是扣掉维护成本后看技能复用:在减去环境漂移后修复技能的代价之后,技能库还能不能抬高闭合率。如果持续状态和可复用技能没法把闭合率推过一个强的无状态智能体基线,那关键跃迁就站不住。

对开发者的判断

如果你在设计智能体 harness,想要一套关于状态、技能、任务闭合和四个评测阶段的干净词汇,可以读。阶段三、四的评测框架和技能即目录资产的模型,对于决定记什么日志、验什么结果,直接有用。如果你想要实现细节、消融或一个能照搬的系统,跳过它:这些都没有,OpenClaw 案例研究停在概念层。老实说,这是一张作者所相信的地图,适合定向,缺乏证明。

局限与存疑

综述不带实验,所以每个因果论点都靠引用的工作支撑,不靠它自己的度量。它的命名(OpenClaw、ClawBench、ClawsBench)读起来像匿名或项目内部标签,有些引用难以追溯到公开产物。两轴切分是编辑选择,把一段更乱的历史塞进了整齐的四时代演进;未来方向那节(harness 工程、受治理的自演化回路)是研究议程,不是结果。把它当一份有强观点的结构化阅读清单,再拿原始系统去核这个观点。

常见问题

这篇综述里的数字同事框架是什么?

它是 LLM 演进的两轴分类。一轴是认知核心(聊天机器人到思考型 LLM),另一轴是任务执行(智能体到持续工作区)。终点的数字同事,是一个保留项目记忆、遵守本地约定、跨会话交付可验证工作的智能体,而不是一次只答一个提示。

综述如何论证把 OpenClaw 当代表而非原创?

因为作者用 OpenClaw 作为通用 harness 加工作区模式的代称,不是发明它的系统。他们明确把它和 OpenHands、SWE-agent 并列,展示软件工程侧的同一模式,其中智能体与计算机的接口是设计对象。

工作区加技能这套分类的局限是什么?

它藏起了可复用技能的脆弱。论文自己的局限节承认,技能会在 UI 改版、依赖升级和 schema 变更时失效,还会过拟合并发生负迁移。于是大部分可靠性工作挪进了版本管理、回归测试和废弃机制,综述列了却没量化。

四阶段评测方法如何定义任务闭合率?

任务闭合率出现在阶段三。它问系统有没有把初始环境状态变成目标终态,用 SWE-bench、WebArena 这类基准打分,而不是给终态答案(阶段一)或推理轨迹(阶段二)打分。阶段四再在可复现状态下加上工作区能力与安全。

一句话:腾讯优图等机构的综述,把聊天机器人到智能体的迁移映到两条轴上,主张持续的工作区加技能才是真正的跃迁,作为词汇很强,作为论断未经证明。阅读 arXiv 原文。