解决什么问题
传统分割模型往往绑定具体类别、场景或标注规范。Segment Anything 想解决的是:能否把分割做成通用、可提示的能力?用户点一个点、画一个框、给一个掩码提示,模型就返回有用的目标区域。
核心方法
SAM 由图像编码器、提示编码器和掩码解码器组成。论文还构建了数据引擎,产出包含超过十亿个掩码的 SA-1B 数据集。模型能力不是只来自结构,也来自足够大规模和多样化的掩码数据。
关键结果
SAM 能接受点、框、掩码等不同提示,并在很多新图像上零样本生成可用分割结果。论文贡献不只是模型,还有数据集和数据引擎,因为它让可提示分割可以在极大规模上训练。
为什么重要
SAM 把分割从单点模型变成了基础设施。标注工具、图像编辑、机器人感知、医学流程和数据管线都可以把它作为初始掩码生成器,再叠加领域规则和人工审核。
局限与存疑
SAM 不等于理解图像。它可以给出看似合理的掩码,但不一定知道对象类别、用途或安全含义。医学图像、微小结构、透明物体、强域偏移和视频时间一致性仍需要额外验证。
一句话:SAM 让图像分割成为可交互调用的基础模型能力。