主题

智能体记忆

AI 智能体如何跨任务、跨会话存储、检索与更新长期记忆——超越上下文窗口的局限。

腾讯优图等机构的综述,用两条轴线梳理从聊天机器人到持续智能体的演进:认知核心(聊天机器人到思考型 LLM)与任务执行(智能体到工作区加技能),主张持续状态才是关键跃迁。

RHO 只用过去的无标注轨迹优化 LLM 智能体的 harness,靠自验证、自一致和成对自偏好,一轮就把 SWE-Bench Pro 通过率从 59% 提到 78%,不用任何外部评分。

MRAgent 给 LLM 智能体一张图记忆,让模型边推理边遍历,LoCoMo 的 LLM-Judge 从 68.3 升到 84.2,每样本只花 118k token。

EvoArena 把静态智能体任务改造成演化链,当前智能体平均准确率只有 39.6%;EvoMem 用 patch memory 将链级准确率提高 3.7 点。

镜头转回旧场景时，块状状态空间循环拿到 69.0 的开放域一致性分，无记忆基线只有 12.25；激进压缩与空间摘要几乎全军覆没。

综述把长视频 MLLM 重构为「看-记-想」三种能力,对比 11 篇已有综述,梳理 100+ 方法与 5 个应用领域。

超网络一次前向就把文本技能编译成 LoRA。ALFWorld 成功率涨 21.4 分，prefill token 省 64.1%。

OpenSkill 让智能体从开放网络自建技能与验证器,SkillsBench 上达 43.6%(+8.9),全程不碰目标任务答案。

SkillAdaptor 不动模型权重,只从失败轨迹里改写技能库,WebShop 分数 +2.3、PinchBench +1.5,提升真实但有限。

TaskMem 用强化学习训练多模态智能体自己写记忆，在流式视频问答上把 VideoMME 准确率提到 67.9%，比 Qwen3-VL-30B 基线高出 6.3 个点。

MemGPT 借来操作系统的虚拟内存:让大模型用函数调用给自己的上下文分页换入换出,深度记忆检索在 GPT-4 上做到 93.4%,而递归摘要只有 35.3%。

δ-mem 给冻结的大模型挂上一块仅 8×8 的 delta 规则在线记忆,长记忆平均分较原模型提升 1.10×、较其他记忆方法提升 1.15×,无需微调、不扩上下文。

MemPrivacy 端侧把敏感片段换成带类型占位符交云端处理记忆,再本地还原,效用损失控制在 1.6% 内,0.6B-4B 小模型识别隐私片段反超 GPT-5.2。