E5:弱监督对比文本向量论文详细解读
E5:弱监督对比文本向量把通用文本向量落到具体方法和可检查结果上,适合判断该方向的真实进展。
主题
把文本转成稠密向量用于检索、相似度与搜索的方法,包括用大模型当编码器。
E5:弱监督对比文本向量把通用文本向量落到具体方法和可检查结果上,适合判断该方向的真实进展。
Sentence-BERT:孪生 BERT 句向量把用于语义相似度的句向量落到具体方法和可检查结果上,适合判断该方向的真实进展。
SimCSE:对比学习句向量把对比式句向量学习落到具体方法和可检查结果上,适合判断该方向的真实进展。
AI 智能体 · University of Waterloo
DCI 让搜索智能体直接 grep 原始语料,不再调用检索器。BrowseComp-Plus 准确率从 69.0% 升到 80.0%,成本降 29.4%。
MulTaBench 是含 40 个数据集的多模态表格基准,每个任务都须同时用上表格与图像/文本。核心结论:针对目标微调的嵌入,在所有学习器上都胜过冻结嵌入。
文本嵌入 · Renmin University of China
EmbFilter 把解嵌入矩阵当透镜,剥掉文本嵌入里被高频废词占据的子空间,在不微调的前提下提升零样本检索并降维。