主题

检索增强生成

用检索到的文档为语言模型输出提供依据,提升事实性与时效性。

检索增强生成 · KAIST

重新审视长视频 RAG：V-RAGBench 与 CARVE

CARVE 给每个视频块单独选模态-粒度配置，而不是按查询统一定一种，在去泄漏的 V-RAGBench 上把 Recall@5 从最强基线的 0.510 提到 0.603。

AI 智能体 · Ant Group

SearchSwarm:深度研究的委派智能详解

SearchSwarm 在 Tongyi DeepResearch-30B-A3B 上微调 harness 委派轨迹,把 BrowseComp 从 43.4 拉到 68.1,居同规模榜首。

智能体记忆 · National University of Singapore

MRAgent:重建式图记忆,而非检索

MRAgent 给 LLM 智能体一张图记忆,让模型边推理边遍历,LoCoMo 的 LLM-Judge 从 68.3 升到 84.2,每样本只花 118k token。

AI 智能体 · Renmin University of China

FORT-Searcher:训练不抄近路的搜索智能体

FORT-Searcher 用抗捷径任务训练 3B active 搜索智能体,同规模开源总体 66.2;FORT 数据把答案命中时间从 18.7 推迟到 46.9。

文本嵌入 · Microsoft Research

E5:弱监督对比文本向量论文详细解读

E5:弱监督对比文本向量把通用文本向量落到具体方法和可检查结果上,适合判断该方向的真实进展。

AI 智能体 · University of Illinois Urbana-Champaign

Harness-1：把搜索智能体的记账活儿搬出策略

Harness-1 是个 20B 的 RL 搜索智能体，把工作记忆交给环境维护，平均策展召回 0.730，比最强开源子智能体高 11.4 分。

AI 智能体 · Independent Researcher

K-BrowseComp:韩语网页智能体基准

K-BrowseComp:韩语网页智能体基准把韩语语境网页浏览智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

定理证明 · Princeton University

LeanDojo:检索增强定理证明

LeanDojo:检索增强定理证明把Lean 中的检索增强定理证明落到具体方法和可检查结果上,适合判断该方向的真实进展。

AI 智能体 · Independent Researcher

搜索智能体何时该屏蔽旧观察论文详细解读

搜索智能体何时该屏蔽旧观察把搜索智能体上下文管理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Xiamen University

SAAS:教搜索智能体何时该停手

SAAS 用自我感知强化学习,把 Qwen2.5-7B 搜索智能体的平均检索次数从 2.19 降到 0.97,准确率仍贴近最优基线(48.7% vs 49.8%)。

文本嵌入 · Independent Researcher

Sentence-BERT:孪生 BERT 句向量

Sentence-BERT:孪生 BERT 句向量把用于语义相似度的句向量落到具体方法和可检查结果上,适合判断该方向的真实进展。

AI 智能体 · Shanghai Jiao Tong University

SWE-Explore：编程智能体真能找对代码吗

SWE-Explore 单独考核代码探索：848 个 issue 上智能体远超 BM25（HitFile 0.65 对 0.08），但行级召回卡在 0.15-0.20，这才是真瓶颈。

检索增强生成 · Universidad de San Andres

把成对重排当主动学习:更省调用的 PRP 重排器

把 LLM 成对重排看作主动学习,锦标赛选择器在 TREC DL 上拿到 68.00 NDCG@10,LLM 调用比排序式 PRP 少 3-5 倍,随机方向 oracle 把位置偏置变噪声。

AI 智能体 · University of Waterloo

直接语料交互 DCI:让智能体用 grep 取代检索器

DCI 让搜索智能体直接 grep 原始语料,不再调用检索器。BrowseComp-Plus 准确率从 69.0% 升到 80.0%,成本降 29.4%。

多模态模型 · Shanghai AI Laboratory

CiteVQA:专抓文档 AI「答对却引错证据」的基准

CiteVQA 要求文档问答模型在给答案时同时框出证据位置,答案与引用一起打分。最强的 Gemini-3.1-Pro-Preview 严格归因准确率仅 76.0,最佳开源模型只有 22.5。

检索增强生成 · University of Massachusetts Amherst

GrepSeek:让搜索智能体直接 grep 语料库,而非查向量索引

GrepSeek 训练大模型用 grep 等 shell 命令直接搜原始语料、不建嵌入索引,在七个开放域问答基准上拿到最佳 F1 与精确匹配,检索最高提速 7.6 倍。

检索增强生成 · AIRI

OCC-RAG:只为忠实读上下文而生的小模型

OCC-RAG 是 0.6B 与 1.7B 的两个推理小模型,只依据给定上下文作答、答不出就拒答,在多跳问答上追平甚至超过体量 2-6 倍的通用模型。

检索增强生成 · Meta AI

RAG 原始论文(2020):检索增强生成是怎么来的

这篇 2020 年的 RAG 原始论文把维基百科稠密检索器(DPR)接到 BART 生成器上,在三个开放域问答任务上刷新当时最优,还能靠换索引直接更新模型知识、无需重训。