解决什么问题
很多视觉语言系统需要针对每个任务单独微调。Flamingo 想解决的是:能不能像语言模型一样,把任务示例直接放进上下文,让模型看几例就能处理新的图文或视频问题?
核心方法
Flamingo 保留预训练视觉模型和语言模型的大部分能力,在中间加入可训练的跨注意力层,让语言 token 可以读取视觉输入。它支持图像、视频帧和文本交错放入同一个序列,因此提示词可以同时包含示例和待回答问题。
关键结果
Flamingo 在多种图像和视频理解基准上取得强少样本表现。更重要的是,它展示了单一模型可以通过上下文示例适配 caption、问答等多类任务,而不是为每个任务重新训练一套模型。
为什么重要
这篇论文推动了现代视觉语言模型的基本范式:保留强大的预训练骨干,用一个跨模态桥接层连接视觉和语言,再把提示词作为任务接口。后来的多模态助手、截图理解、文档理解和视频理解都能看到类似思想。
局限与存疑
少样本提示依赖示例选择,稳定性并不天然保证。模型还会继承视觉数据和语言数据中的偏差与幻觉问题。真正产品化时,还要解决视觉 grounding、隐私、延迟、成本和错误可解释性。
一句话:Flamingo 让多模态任务开始像提示语言模型一样工作。