AI 智能体 · 代码生成

SkillsVote:为可复用的智能体技能做全生命周期治理

SkillsVote 把智能体技能当成受治理的库:百万级语料筛选、运行前推荐、运行后门控。离线进化让 GPT-5.2 在 Terminal-Bench 2.0 上最高提升 7.9 个百分点。

SkillsVote:为可复用的智能体技能做全生命周期治理

快速答案

SkillsVote 是一套给智能体技能(可执行脚本 + 书面流程指引)做全生命周期治理的框架,而不是任由智能体把原始轨迹一股脑塞进记忆。它的招牌结论:受治理的离线进化让 GPT-5.2 在 Terminal-Bench 2.0 上最高提升 7.9 个百分点,在线进化让 SWE-Bench Pro 最高提升 2.6 个百分点——底层模型一字未改。全部收益都来自三件事:控制智能体看到哪些技能、如何归因、哪些发现被允许留存。

为什么原始智能体记忆会腐坏

长程智能体跑出来的轨迹看着像可复用经验,但原始痕迹很吵。开放技能生态让情况更糟:里面塞满了冗余、参差不齐、对环境敏感的产物。SkillsVote 真正瞄准的失败模式是「污染」——如果让智能体把刚做的事原样写回去,未来上下文就会被低质或误导性的技能填满,智能体反而越用越差。所以论文换了个视角:一条技能不是日志条目,而是一种把可执行脚本和不可执行指引耦合在一起的经验范式;既然是共享库,就需要准入控制。

三个阶段:收集、推荐、进化

收集。 SkillsVote 对一个百万级开源语料做画像,按环境需求、质量、可验证性给每个候选打分,再专门为它能验证的技能合成任务。要点是从一个经过审核的库出发,而不是从某个智能体自己乱糟糟的历史出发。

推荐。 执行前,系统在结构化技能库上做「智能体式库检索」,把当前任务真正需要的指引上下文捞出来。这就是标题里的「推荐」一半——曝光控制,决定智能体到底能看到哪些技能。

进化。 执行后,SkillsVote 把一条轨迹拆成与技能挂钩的子任务,做信用归因:把结果中「技能贡献了什么」和智能体探索、环境、原始结果信号区分开。只有真正成功且可复用的发现,才能通过「证据门控」的更新。准入一条技能前的这一次「投票」,正是阻止技能库退化的关键。

关键结果

  • Terminal-Bench 2.0(离线进化): 让 GPT-5.2 最高提升 7.9 个百分点——这是报告中最强的增益,且来自一个不做微调的冻结模型。
  • SWE-Bench Pro(在线进化): 最高提升 2.6 个百分点,说明治理回路在技能于实时使用中进化时同样有效。
  • 语料规模: 收集阶段在做任何任务合成前,先对一个百万级开源语料按环境需求、质量、可验证性做画像。
  • 不更新模型: 全部收益来自外部技能库,智能体权重保持冻结。核心论点是:通过控制曝光、归因与留存,就能在不更新模型的前提下提升一个冻结智能体。

7.9 pp 这个数字值得记住,但要注意它是「最高」上界,只在单一编程智能体基准、单一模型上测得。2.6 pp 的在线增益更保守、也更诚实,因为在线进化本就是更难的场景。

为什么现在重要

技能库正在成为智能体技术栈里的标准一层,而当前多数设计都是天真的「写回」:智能体记下做过的事再复用。SkillsVote 是最早认真对待治理问题的框架之一——把技能库当成需要画像、检索、准入门控的包仓库,而不是一块草稿板。当智能体跑得越来越久、技能跨任务共享,瓶颈就从「模型能不能推理」转向「系统能不能阻止共享记忆自我中毒」,这正是本文要补的缺口。

局限与存疑

评测面很窄。两个基准——Terminal-Bench 2.0 和 SWE-Bench Pro——都是编程/终端类智能体,所以同样的治理能否帮到科研、浏览或开放式工具使用,尚未验证。增益都以上界形式给出(「最高 7.9 pp」),仅凭摘要无法判断典型情况下提升多少。系统本身也很重:画像百万级语料、合成验证任务、拆解轨迹、跑信用归因,都带来真实的算力与工程开销,而招牌准确率数字没把这些成本算进去。最后,信用归因这一步——把技能贡献从运气和环境里剥离出来——是最难让人信服的主张,摘要也没展示这种归因在对抗性情形下有多可靠。

常见问题

SkillsVote 到底做了什么?

SkillsVote 分三个阶段治理智能体技能的生命周期:收集并按质量、可验证性对百万级技能语料做画像;在任务前通过智能体式库检索推荐合适技能;在任务后用基于证据的信用归因做技能更新门控,只准入真正成功且可复用的发现。

SkillsVote 能把智能体性能提升多少?

SkillsVote 用离线进化让 GPT-5.2 在 Terminal-Bench 2.0 上最高提升 7.9 个百分点,用在线进化让 SWE-Bench Pro 最高提升 2.6 个百分点,全程不更新模型权重。

SkillsVote 需要微调模型吗?

不需要。所有报告的增益都来自外部受治理的技能库,智能体保持冻结。论点是:控制技能的曝光、归因与留存,就能在不做任何模型更新的情况下提升一个冻结智能体。

为什么不直接让智能体保存自己的轨迹?

因为原始轨迹很吵,开放技能生态会塞满冗余、参差、对环境敏感的产物。不加筛选地写回会污染未来上下文、甚至让智能体变差,所以 SkillsVote 改用证据门控的准入机制。

一句话:治理好技能库——画像、推荐、门控——一个冻结的智能体就能明显变强。阅读 arXiv 原文