DINOv2:不用标签学习通用视觉特征
DINOv2 通过大规模自监督训练和数据清洗,得到可迁移到多类视觉任务的稳健特征。
主题
可迁移到识别、定位与感知任务的大型视觉表征模型。
视觉基础模型把图像和视频变成可复用表征,而不是为每个任务单独训练模型。核心变化是从狭窄标签集上的分类器或检测器,转向能迁移到识别、分割、密集预测、检索和多模态推理的视觉骨干。
这个主题下的论文展示了三条互补路线。ViT 把 Transformer 的 token 接口引入图像。DINOv2 强调自监督特征和数据清洗。Segment Anything 把分割改造成可提示基础能力。SAM 2 又把这种交互模式推进到视频。它们共同解释了视觉 AI 为什么从专用基准模型走向通用感知基础设施。
DINOv2 通过大规模自监督训练和数据清洗,得到可迁移到多类视觉任务的稳健特征。
SAM 将图像分割重构为可提示任务,并用大模型和 SA-1B 大规模掩码数据集支撑泛化能力。
ViT 证明在足够大规模训练下,把图像切成 patch 后交给标准 Transformer,也能在图像识别中取得强表现。
ViT 证明在足够大规模训练下,把图像切成 patch 后交给标准 Transformer,也能在图像识别中取得强表现。
CLIP 用 4 亿互联网图文对训练图像和文本编码器,让自然语言成为零样本视觉识别的接口。
Flamingo 将预训练视觉编码器和大语言模型连接起来,让图像、视频和文本任务可以通过少量示例完成。
SAM 将图像分割重构为可提示任务,并用大模型和 SA-1B 大规模掩码数据集支撑泛化能力。
DINOv2 通过大规模自监督训练和数据清洗,得到可迁移到多类视觉任务的稳健特征。
Flamingo 将预训练视觉编码器和大语言模型连接起来,让图像、视频和文本任务可以通过少量示例完成。
SAM 将图像分割重构为可提示任务,并用大模型和 SA-1B 大规模掩码数据集支撑泛化能力。
ViT 证明在足够大规模训练下,把图像切成 patch 后交给标准 Transformer,也能在图像识别中取得强表现。
CLIP 用 4 亿互联网图文对训练图像和文本编码器,让自然语言成为零样本视觉识别的接口。
SAM 2 把可提示分割从静态图像扩展到实时视频,核心是流式记忆和围绕用户交互构建的数据引擎。
DINOv2 通过大规模自监督训练和数据清洗,得到可迁移到多类视觉任务的稳健特征。
Flamingo 将预训练视觉编码器和大语言模型连接起来,让图像、视频和文本任务可以通过少量示例完成。
SAM 将图像分割重构为可提示任务,并用大模型和 SA-1B 大规模掩码数据集支撑泛化能力。
ViT 证明在足够大规模训练下,把图像切成 patch 后交给标准 Transformer,也能在图像识别中取得强表现。
CLIP 用 4 亿互联网图文对训练图像和文本编码器,让自然语言成为零样本视觉识别的接口。
SAM 2 把可提示分割从静态图像扩展到实时视频,核心是流式记忆和围绕用户交互构建的数据引擎。