智能体记忆 · National University of Singapore
EvoArena:智能体记忆必须追踪环境变化
EvoArena 把静态智能体任务改造成演化链,当前智能体平均准确率只有 39.6%;EvoMem 用 patch memory 将链级准确率提高 3.7 点。
主题
AI 智能体如何跨任务、跨会话存储、检索与更新长期记忆——超越上下文窗口的局限。
智能体记忆 · National University of Singapore
EvoArena 把静态智能体任务改造成演化链,当前智能体平均准确率只有 39.6%;EvoMem 用 patch memory 将链级准确率提高 3.7 点。
世界模型 · JD.com (Joy Future Academy)
镜头转回旧场景时,块状状态空间循环拿到 69.0 的开放域一致性分,无记忆基线只有 12.25;激进压缩与空间摘要几乎全军覆没。
综述把长视频 MLLM 重构为「看-记-想」三种能力,对比 11 篇已有综述,梳理 100+ 方法与 5 个应用领域。
AI 智能体 · Shanghai Jiao Tong University
超网络一次前向就把文本技能编译成 LoRA。ALFWorld 成功率涨 21.4 分,prefill token 省 64.1%。
OpenSkill 让智能体从开放网络自建技能与验证器,SkillsBench 上达 43.6%(+8.9),全程不碰目标任务答案。
SkillAdaptor 不动模型权重,只从失败轨迹里改写技能库,WebShop 分数 +2.3、PinchBench +1.5,提升真实但有限。
TaskMem 用强化学习训练多模态智能体自己写记忆,在流式视频问答上把 VideoMME 准确率提到 67.9%,比 Qwen3-VL-30B 基线高出 6.3 个点。
MemGPT 借来操作系统的虚拟内存:让大模型用函数调用给自己的上下文分页换入换出,深度记忆检索在 GPT-4 上做到 93.4%,而递归摘要只有 35.3%。
δ-mem 给冻结的大模型挂上一块仅 8×8 的 delta 规则在线记忆,长记忆平均分较原模型提升 1.10×、较其他记忆方法提升 1.15×,无需微调、不扩上下文。
MemPrivacy 端侧把敏感片段换成带类型占位符交云端处理记忆,再本地还原,效用损失控制在 1.6% 内,0.6B-4B 小模型识别隐私片段反超 GPT-5.2。