多模态模型 · 视觉基础模型

Flamingo:把少样本提示带进视觉语言模型

Flamingo 将预训练视觉编码器和大语言模型连接起来,让图像、视频和文本任务可以通过少量示例完成。

解决什么问题

很多视觉语言系统需要针对每个任务单独微调。Flamingo 想解决的是:能不能像语言模型一样,把任务示例直接放进上下文,让模型看几例就能处理新的图文或视频问题?

核心方法

Flamingo 保留预训练视觉模型和语言模型的大部分能力,在中间加入可训练的跨注意力层,让语言 token 可以读取视觉输入。它支持图像、视频帧和文本交错放入同一个序列,因此提示词可以同时包含示例和待回答问题。

关键结果

Flamingo 在多种图像和视频理解基准上取得强少样本表现。更重要的是,它展示了单一模型可以通过上下文示例适配 caption、问答等多类任务,而不是为每个任务重新训练一套模型。

为什么重要

这篇论文推动了现代视觉语言模型的基本范式:保留强大的预训练骨干,用一个跨模态桥接层连接视觉和语言,再把提示词作为任务接口。后来的多模态助手、截图理解、文档理解和视频理解都能看到类似思想。

局限与存疑

少样本提示依赖示例选择,稳定性并不天然保证。模型还会继承视觉数据和语言数据中的偏差与幻觉问题。真正产品化时,还要解决视觉 grounding、隐私、延迟、成本和错误可解释性。

一句话:Flamingo 让多模态任务开始像提示语言模型一样工作。