图像分割 · 视觉基础模型

Segment Anything:把图像分割做成可提示的基础能力

SAM 将图像分割重构为可提示任务,并用大模型和 SA-1B 大规模掩码数据集支撑泛化能力。

解决什么问题

传统分割模型往往绑定具体类别、场景或标注规范。Segment Anything 想解决的是:能否把分割做成通用、可提示的能力?用户点一个点、画一个框、给一个掩码提示,模型就返回有用的目标区域。

核心方法

SAM 由图像编码器、提示编码器和掩码解码器组成。论文还构建了数据引擎,产出包含超过十亿个掩码的 SA-1B 数据集。模型能力不是只来自结构,也来自足够大规模和多样化的掩码数据。

关键结果

SAM 能接受点、框、掩码等不同提示,并在很多新图像上零样本生成可用分割结果。论文贡献不只是模型,还有数据集和数据引擎,因为它让可提示分割可以在极大规模上训练。

为什么重要

SAM 把分割从单点模型变成了基础设施。标注工具、图像编辑、机器人感知、医学流程和数据管线都可以把它作为初始掩码生成器,再叠加领域规则和人工审核。

局限与存疑

SAM 不等于理解图像。它可以给出看似合理的掩码,但不一定知道对象类别、用途或安全含义。医学图像、微小结构、透明物体、强域偏移和视频时间一致性仍需要额外验证。

一句话:SAM 让图像分割成为可交互调用的基础模型能力。