解决什么问题
第一代 Segment Anything 让图像分割变得通用、可交互。但视频更麻烦:物体会移动、消失、重新出现、改变尺度,还会被遮挡。逐帧调用图像分割模型可以得到每一帧的 mask,却不自然知道用户指的是同一个对象。SAM 2 要解决的是更实用的问题:用户提示一次对象,模型就在时间维度里持续跟踪并分割它。
核心方法
SAM 2 保留可提示分割界面,但加入带流式记忆的 transformer 架构。这个记忆模块让模型在实时处理视频时把对象信息传到后续帧,而不是把每帧都当成全新的图片。Meta 还构建了一个数据引擎,用用户交互不断改进模型和数据集,从而收集大规模视频分割数据用于训练和评测。
关键结果
论文报告称,SAM 2 在视频分割上比已有方法更准确,同时需要的用户交互减少到约三分之一。在图像分割上,SAM 2 也比第一代 SAM 更准确,速度快 6 倍。Meta 公开主模型、数据集、训练代码和 demo,这点很关键:分割工具只有能被社区检查、适配和嵌入工作流,才会真正形成基础设施。
为什么重要
分割是很多任务的底层能力:图像编辑、机器人、AR、医学标注、科学影像、数据集构建都需要先把对象分出来。SAM 2 把强图像基础模型推进到时间维度,更接近下游系统真实面对的世界:它们看到的是连续流,不是彼此无关的图片堆。
局限与存疑
流式记忆很有用,但记住什么、丢掉什么会变成新的研究和产品问题。长视频、严重遮挡、镜头切换和模糊提示仍可能让跟踪失败。交互式分割还取决于用户愿意纠正多少次。SAM 2 之后的问题是,可提示视频理解能否从 mask 扩展到更丰富的对象状态、动作和物理关系。
一句话:SAM 2 给分割模型加上了记忆。