Gemini 1.5:千万 token 上下文里仍能近乎完美召回

快速答案

Gemini 1.5 在至少 1000 万 token 的上下文里仍保持 99% 以上的检索召回,覆盖长文档、数小时视频和数小时音频。相比报告引用的同代模型——Claude 3.0 的 20 万 token、GPT-4 Turbo 的 12.8 万 token——可用窗口大了约 50 倍。但有一句必须挑明:在大海里精准捞到一根针,和真正读懂整片大海,是两回事。

千万 token 上下文带来什么

多数模型逼你把世界切成小窗口:法律文件、代码库、长会议、数小时视频,都得先切块、检索、摘要,模型才看得到。藏在远处的关键细节,常常在错误的切点上被丢掉。Gemini 1.5 直接挑战窗口本身——不要求你先搭检索系统,而是把整份工作材料(文本、音频、视频一起)塞进去,再考核它能否从上百万 token 里捞出某个细粒度事实。报告发现,随着上下文变长,下一个 token 的预测持续改善,检索召回一路保持在 99% 以上,直到 1000 万 token。正因如此,“读完整个仓库""看完整部影片”才可能是一次提示,而不是一整套管线。

混合专家带来的效率

亮点不只是窗口数字更大。Gemini 1.5 以两个高算力效率的多模态模型交付:升级版 1.5 Pro 偏能力,1.5 Flash 是更轻量的变体,在质量几乎不退化的前提下追求效率。对成本真正重要的结论是:1.5 Pro 在广泛基准上达到或超过上一代旗舰 Gemini 1.0 Ultra,同时服务成本低得多。也就是说,这次长上下文飞跃不是靠堆一个更大的稠密模型换来的,而是和效率提升同时发生——这才让百万 token 级别的服务在经济上说得通。

关键结果

检索: 在至少 1000 万 token 的长上下文检索里召回率超过 99%,跨文本、视频、音频三种模态。
刷新榜单: 在长文档问答、长视频问答和长上下文语音识别(ASR)上提升了当时的最好成绩。
能力与成本: 1.5 Pro 在广泛基准上追平或超过 Gemini 1.0 Ultra,且算力效率更高。
真实工作流: 在覆盖 10 类职业的研究里,与模型协作的专业人士反馈节省了 26% 到 75% 的时间。
上下文内学语言: 只给一本 Kalamang 语法手册——这门语言全球使用者不到 200 人、网上几乎没有训练数据——模型就学会了把英语翻成 Kalamang,水平接近读同一本手册的人。

为什么 Kalamang 才是最值得看的结果

榜单成绩很快会过时,真正经得起时间的信号是 Kalamang 这个例子:模型并没有在这门低资源语言上做过预训练,却仅凭上下文里的一本语法书,学会了可用的翻译。这把长上下文重新定义成”大规模的上下文内学习”——窗口不再只是堆文档的地方,而成了在推理时教模型一项新技能的地方,完全不用微调。

局限与存疑

超长上下文既不免费,也不等于理解。长提示成本高、延迟依旧敏感,因此在很多场景里,短上下文模型加专门检索系统反而更便宜、更可控。近乎完美的”大海捞针”也会高估推理能力:从 1000 万 token 里定位一个事实,比把散落各处的证据综合起来要容易得多,而检索基准并不衡量后者。那个 26%–75% 的省时数字来自专业人士的自我报告研究,不是受控实验,只能当作方向性参考。诚实的结论是:Gemini 1.5 没有宣告 RAG 过时,而是把模型上下文、外部记忆和检索三者之间的边界往前推了一大步。

常见问题

Gemini 1.5 的上下文窗口有多长?

在报告的受控长上下文实验里,Gemini 1.5 在至少 1000 万 token 上保持 99% 以上的检索召回,覆盖长文档、数小时视频和数小时音频。

Gemini 1.5 Pro 比 Gemini 1.0 Ultra 更强吗?

Gemini 1.5 Pro 在广泛基准上达到或超过 Gemini 1.0 Ultra,同时算力效率更高,等于用更低的服务成本提供了上一代旗舰的质量。

Gemini 1.5 Pro 和 Flash 有什么区别?

Pro 偏能力,是面向最强表现的版本;Flash 是更轻量、更高效的变体,在质量几乎不退化的前提下用于更低成本的服务。

Gemini 1.5 能在上下文里学会一门新语言吗?

可以。只给一本 Kalamang(全球使用者不到 200 人)的语法手册,Gemini 1.5 就学会把英语翻成 Kalamang,水平接近读同一本手册的人,且无需任何任务微调。

Gemini 1.5 会让 RAG 过时吗?

不会。1000 万 token 的窗口移动了检索与上下文之间的边界,但长提示依旧昂贵、对延迟敏感,因此在很多任务里检索管线仍更便宜、更可控。

Gemini 1.5 把上下文窗口从聊天框变成了工作台,还证明模型能在窗口里靠一本书学会一门全新语言。阅读报告:https://arxiv.org/abs/2403.05530