E5:弱监督对比文本向量论文详细解读
E5:弱监督对比文本向量把通用文本向量落到具体方法和可检查结果上,适合判断该方向的真实进展。
主题
用检索到的文档为语言模型输出提供依据,提升事实性与时效性。
E5:弱监督对比文本向量把通用文本向量落到具体方法和可检查结果上,适合判断该方向的真实进展。
AI 智能体 · University of Illinois Urbana-Champaign
Harness-1 是个 20B 的 RL 搜索智能体,把工作记忆交给环境维护,平均策展召回 0.730,比最强开源子智能体高 11.4 分。
AI 智能体 · Independent Researcher
K-BrowseComp:韩语网页智能体基准把韩语语境网页浏览智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
LeanDojo:检索增强定理证明把Lean 中的检索增强定理证明落到具体方法和可检查结果上,适合判断该方向的真实进展。
AI 智能体 · Independent Researcher
搜索智能体何时该屏蔽旧观察把搜索智能体上下文管理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
SAAS 用自我感知强化学习,把 Qwen2.5-7B 搜索智能体的平均检索次数从 2.19 降到 0.97,准确率仍贴近最优基线(48.7% vs 49.8%)。
Sentence-BERT:孪生 BERT 句向量把用于语义相似度的句向量落到具体方法和可检查结果上,适合判断该方向的真实进展。
AI 智能体 · Shanghai Jiao Tong University
SWE-Explore 单独考核代码探索:848 个 issue 上智能体远超 BM25(HitFile 0.65 对 0.08),但行级召回卡在 0.15-0.20,这才是真瓶颈。
检索增强生成 · Universidad de San Andres
把 LLM 成对重排看作主动学习,锦标赛选择器在 TREC DL 上拿到 68.00 NDCG@10,LLM 调用比排序式 PRP 少 3-5 倍,随机方向 oracle 把位置偏置变噪声。
AI 智能体 · University of Waterloo
DCI 让搜索智能体直接 grep 原始语料,不再调用检索器。BrowseComp-Plus 准确率从 69.0% 升到 80.0%,成本降 29.4%。
多模态模型 · Shanghai AI Laboratory
CiteVQA 要求文档问答模型在给答案时同时框出证据位置,答案与引用一起打分。最强的 Gemini-3.1-Pro-Preview 严格归因准确率仅 76.0,最佳开源模型只有 22.5。
检索增强生成 · University of Massachusetts Amherst
GrepSeek 训练大模型用 grep 等 shell 命令直接搜原始语料、不建嵌入索引,在七个开放域问答基准上拿到最佳 F1 与精确匹配,检索最高提速 7.6 倍。
OCC-RAG 是 0.6B 与 1.7B 的两个推理小模型,只依据给定上下文作答、答不出就拒答,在多跳问答上追平甚至超过体量 2-6 倍的通用模型。
这篇 2020 年的 RAG 原始论文把维基百科稠密检索器(DPR)接到 BART 生成器上,在三个开放域问答任务上刷新当时最优,还能靠换索引直接更新模型知识、无需重训。