Gemini 1.5:千万 token 上下文里仍能近乎完美召回
Gemini 1.5 Pro 与 Flash 在至少 1000 万 token 的文本、视频、音频里保持 99% 以上召回,且 Pro 用更少算力追平 Gemini 1.0 Ultra。
快速答案
Gemini 1.5 在至少 1000 万 token 的上下文里仍保持 99% 以上的检索召回,覆盖长文档、数小时视频和数小时音频。相比报告引用的同代模型——Claude 3.0 的 20 万 token、GPT-4 Turbo 的 12.8 万 token——可用窗口大了约 50 倍。但有一句必须挑明:在大海里精准捞到一根针,和真正读懂整片大海,是两回事。
千万 token 上下文带来什么
多数模型逼你把世界切成小窗口:法律文件、代码库、长会议、数小时视频,都得先切块、检索、摘要,模型才看得到。藏在远处的关键细节,常常在错误的切点上被丢掉。Gemini 1.5 直接挑战窗口本身——不要求你先搭检索系统,而是把整份工作材料(文本、音频、视频一起)塞进去,再考核它能否从上百万 token 里捞出某个细粒度事实。报告发现,随着上下文变长,下一个 token 的预测持续改善,检索召回一路保持在 99% 以上,直到 1000 万 token。正因如此,“读完整个仓库""看完整部影片”才可能是一次提示,而不是一整套管线。
混合专家带来的效率
亮点不只是窗口数字更大。Gemini 1.5 以两个高算力效率的多模态模型交付:升级版 1.5 Pro 偏能力,1.5 Flash 是更轻量的变体,在质量几乎不退化的前提下追求效率。对成本真正重要的结论是:1.5 Pro 在广泛基准上达到或超过上一代旗舰 Gemini 1.0 Ultra,同时服务成本低得多。也就是说,这次长上下文飞跃不是靠堆一个更大的稠密模型换来的,而是和效率提升同时发生——这才让百万 token 级别的服务在经济上说得通。
关键结果
- 检索: 在至少 1000 万 token 的长上下文检索里召回率超过 99%,跨文本、视频、音频三种模态。
- 刷新榜单: 在长文档问答、长视频问答和长上下文语音识别(ASR)上提升了当时的最好成绩。
- 能力与成本: 1.5 Pro 在广泛基准上追平或超过 Gemini 1.0 Ultra,且算力效率更高。
- 真实工作流: 在覆盖 10 类职业的研究里,与模型协作的专业人士反馈节省了 26% 到 75% 的时间。
- 上下文内学语言: 只给一本 Kalamang 语法手册——这门语言全球使用者不到 200 人、网上几乎没有训练数据——模型就学会了把英语翻成 Kalamang,水平接近读同一本手册的人。
为什么 Kalamang 才是最值得看的结果
榜单成绩很快会过时,真正经得起时间的信号是 Kalamang 这个例子:模型并没有在这门低资源语言上做过预训练,却仅凭上下文里的一本语法书,学会了可用的翻译。这把长上下文重新定义成”大规模的上下文内学习”——窗口不再只是堆文档的地方,而成了在推理时教模型一项新技能的地方,完全不用微调。
局限与存疑
超长上下文既不免费,也不等于理解。长提示成本高、延迟依旧敏感,因此在很多场景里,短上下文模型加专门检索系统反而更便宜、更可控。近乎完美的”大海捞针”也会高估推理能力:从 1000 万 token 里定位一个事实,比把散落各处的证据综合起来要容易得多,而检索基准并不衡量后者。那个 26%–75% 的省时数字来自专业人士的自我报告研究,不是受控实验,只能当作方向性参考。诚实的结论是:Gemini 1.5 没有宣告 RAG 过时,而是把模型上下文、外部记忆和检索三者之间的边界往前推了一大步。
常见问题
Gemini 1.5 的上下文窗口有多长?
在报告的受控长上下文实验里,Gemini 1.5 在至少 1000 万 token 上保持 99% 以上的检索召回,覆盖长文档、数小时视频和数小时音频。
Gemini 1.5 Pro 比 Gemini 1.0 Ultra 更强吗?
Gemini 1.5 Pro 在广泛基准上达到或超过 Gemini 1.0 Ultra,同时算力效率更高,等于用更低的服务成本提供了上一代旗舰的质量。
Gemini 1.5 Pro 和 Flash 有什么区别?
Pro 偏能力,是面向最强表现的版本;Flash 是更轻量、更高效的变体,在质量几乎不退化的前提下用于更低成本的服务。
Gemini 1.5 能在上下文里学会一门新语言吗?
可以。只给一本 Kalamang(全球使用者不到 200 人)的语法手册,Gemini 1.5 就学会把英语翻成 Kalamang,水平接近读同一本手册的人,且无需任何任务微调。
Gemini 1.5 会让 RAG 过时吗?
不会。1000 万 token 的窗口移动了检索与上下文之间的边界,但长提示依旧昂贵、对延迟敏感,因此在很多任务里检索管线仍更便宜、更可控。
Gemini 1.5 把上下文窗口从聊天框变成了工作台,还证明模型能在窗口里靠一本书学会一门全新语言。阅读报告:https://arxiv.org/abs/2403.05530