主题

视觉基础模型

可迁移到识别、定位与感知任务的大型视觉表征模型。

视觉基础模型把图像和视频变成可复用表征，而不是为每个任务单独训练模型。核心变化是从狭窄标签集上的分类器或检测器，转向能迁移到识别、分割、密集预测、检索和多模态推理的视觉骨干。

这个主题下的论文展示了三条互补路线。ViT 把 Transformer 的 token 接口引入图像。DINOv2 强调自监督特征和数据清洗。Segment Anything 把分割改造成可提示基础能力。SAM 2 又把这种交互模式推进到视频。它们共同解释了视觉 AI 为什么从专用基准模型走向通用感知基础设施。

从这里开始

自监督学习 · Meta AI

DINOv2：不微调也能用的自监督视觉特征

DINOv2 用无标签自监督在精选的 1.42 亿张图上预训练 ViT，骨干冻结后只加一个线性探针，就能在多数图像级与像素级基准上追平甚至超过 OpenCLIP。

图像分割 · Meta AI

Segment Anything（SAM）：一个可提示模型，十亿掩码

Meta AI 的 SAM 把分割重构为可提示任务，并配套 SA-1B 数据集（1100 万图像、11 亿掩码），让单一模型零样本迁移到新对象与新分布。

视觉基础模型 · Google Research

Vision Transformer (ViT)：一张图等于 16x16 个词

ViT 把图像切成 16x16 patch 直接喂给标准 Transformer，在 JFT-300M 上预训练后超过顶尖 CNN，ImageNet 达 88.55%，且训练算力更省。

奠基论文

图像分割 · Independent Researcher

U-Net:生物医学图像分割基线

U-Net:生物医学图像分割基线把生物医学图像分割落到具体方法和可检查结果上,适合判断该方向的真实进展。

视觉基础模型 · Microsoft Research

ResNet 解读:用残差学习训练超深图像识别网络

ResNet 用跳跃连接让每层只学「残差」而非整个映射,使 152 层网络可训练;集成模型在 ImageNet 上 top-5 错误率 3.57%,夺得 ILSVRC 2015 冠军。

图像分割 · Google Research

DeepLab:空洞卷积语义分割

DeepLab:空洞卷积语义分割把语义图像分割落到具体方法和可检查结果上,适合判断该方向的真实进展。

图像分割 · Meta AI

Mask R-CNN:实例分割经典框架

Mask R-CNN:实例分割经典框架把实例分割落到具体方法和可检查结果上,适合判断该方向的真实进展。

近期解读

视觉基础模型 · Zhejiang University

VLM 还是视频生成:谁更适合空间智能

冻结特征探针对比 VLM 与视频生成模型:语义任务 VLM 赢(mAP 92.08 对 69.89),几何任务视频模型赢(相机 AUC 0.527 对 0.330),把两者拼起来比谁都强。

大模型推理 · Shanghai Jiao Tong University

ReRe:跨视角复看,提升 MLLM 空间推理

ReRe 让 MLLM 先答一遍空间问题,再看一段合成的新视角视频来修正。免训练,把 Qwen3-VL-2B 在 VSI-Bench 上从 22.5 拉到 31.0(+8.5)。

视觉基础模型 · ETH Zurich

ZipSplat:更少的高斯,更好的渲染

ZipSplat 用 k-means 场景 token 预测 3D 高斯,不再一像素一个。DL3DV 上 24.14 PSNR、249K 高斯胜过 YoNoSplat 的 1.2M,免位姿。

多模态模型 · Nanjing University

HYDRA-X:图像视频共用视觉 tokenizer

HYDRA-X 用单个 ViT 统一图像和视频 tokenization,tubelet attention 与层级时间压缩把 DAVIS rFVD 做到 11.19,编辑总分 4.34。

多模态模型 · HKUST

Robust-U1:先修复图像再理解

Robust-U1 让多模态模型先自恢复受损图像再推理,R-Bench 总分 0.7398,高于 BAGEL 的 0.5770 和 Robust-R1 的 0.5017。

AI 智能体 · NVIDIA

SpatialClaw:空间智能体为何需要Python工作区

SpatialClaw 用持久 Python kernel 替代僵硬工具调用,在 20 个空间推理基准上达到 59.9% 平均准确率,比近期 spatial agent 高 11.2 点。

视觉基础模型 · Zhejiang University

VLM 还是视频生成:谁更适合空间智能

冻结特征探针对比 VLM 与视频生成模型:语义任务 VLM 赢(mAP 92.08 对 69.89),几何任务视频模型赢(相机 AUC 0.527 对 0.330),把两者拼起来比谁都强。

大模型推理 · Shanghai Jiao Tong University

ReRe:跨视角复看,提升 MLLM 空间推理

ReRe 让 MLLM 先答一遍空间问题,再看一段合成的新视角视频来修正。免训练,把 Qwen3-VL-2B 在 VSI-Bench 上从 22.5 拉到 31.0(+8.5)。

视觉基础模型 · ETH Zurich

ZipSplat:更少的高斯,更好的渲染

ZipSplat 用 k-means 场景 token 预测 3D 高斯,不再一像素一个。DL3DV 上 24.14 PSNR、249K 高斯胜过 YoNoSplat 的 1.2M,免位姿。

多模态模型 · Nanjing University

HYDRA-X:图像视频共用视觉 tokenizer

HYDRA-X 用单个 ViT 统一图像和视频 tokenization,tubelet attention 与层级时间压缩把 DAVIS rFVD 做到 11.19,编辑总分 4.34。

多模态模型 · HKUST

Robust-U1:先修复图像再理解

Robust-U1 让多模态模型先自恢复受损图像再推理,R-Bench 总分 0.7398,高于 BAGEL 的 0.5770 和 Robust-R1 的 0.5017。

AI 智能体 · NVIDIA

SpatialClaw:空间智能体为何需要Python工作区

SpatialClaw 用持久 Python kernel 替代僵硬工具调用,在 20 个空间推理基准上达到 59.9% 平均准确率,比近期 spatial agent 高 11.2 点。

脑解码 · Independent Researcher

Brain-Diffuser:fMRI 自然场景重建

Brain-Diffuser:fMRI 自然场景重建把从 fMRI 信号重建自然场景落到具体方法和可检查结果上,适合判断该方向的真实进展。

自监督学习 · Google DeepMind

BYOL:没有负样本的自监督学习

BYOL:没有负样本的自监督学习把无负样本自监督视觉学习落到具体方法和可检查结果上,适合判断该方向的真实进展。

图像分割 · Google Research

DeepLab:空洞卷积语义分割

DeepLab:空洞卷积语义分割把语义图像分割落到具体方法和可检查结果上,适合判断该方向的真实进展。

文生图 · Independent Researcher

DIRECT:三维感知的对象插入

DIRECT:三维感知的对象插入把三维感知对象插入变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

扩散模型 · The Hong Kong Polytechnic University

GGT-100K:图像修复的生成式真值

GGT-100K:图像修复的生成式真值把真实图像修复数据变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

自监督学习 · Meta AI

MAE:可扩展视觉掩码自编码器论文详细解读

MAE:可扩展视觉掩码自编码器把视觉预训练中的掩码图像建模落到具体方法和可检查结果上,适合判断该方向的真实进展。

图像分割 · Meta AI

Mask R-CNN:实例分割经典框架

Mask R-CNN:实例分割经典框架把实例分割落到具体方法和可检查结果上,适合判断该方向的真实进展。

多模态模型 · Shanghai AI Laboratory

OVO-S-Bench:流式空间智能评测

OVO-S-Bench:流式空间智能评测把流式空间智能变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

自监督学习 · Google Research

SimCLR:对比学习视觉表征论文详细解读

SimCLR:对比学习视觉表征把对比式视觉表征学习落到具体方法和可检查结果上,适合判断该方向的真实进展。

机器人 · Independent Researcher

TVRBench:模型能否移动到目标视角

TVRBench:模型能否移动到目标视角把主动三维视角复现变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

图像分割 · Independent Researcher

U-Net:生物医学图像分割基线

U-Net:生物医学图像分割基线把生物医学图像分割落到具体方法和可检查结果上,适合判断该方向的真实进展。

图像分割 · Meta AI

Mask2Former:统一三类图像分割任务

Mask2Former 用 masked attention 统一语义、实例和全景分割,COCO panoptic 达 57.8 PQ,ADE20K 达 57.7 mIoU。

多模态模型 · Meta AI

VLM3：视觉语言模型天生就是 3D 学习者

VLM3 证明一个标准 4B 视觉语言模型无需 3D 专用架构就能比肩专家模型：深度精度 0.904、相机位姿 AUC 94.0%、物体级 3D 精度 91.35%。

脑解码 · MIT

BrainCause:在大脑中找出因果性的视觉表征

BrainCause 用文生图模型加 fMRI 编码器对脑区做因果检验,在 260 个视觉概念上把定位假阳性从 73.4% 压到 23%。

自监督学习 · Meta AI

DINOv2：不微调也能用的自监督视觉特征

DINOv2 用无标签自监督在精选的 1.42 亿张图上预训练 ViT，骨干冻结后只加一个线性探针，就能在多数图像级与像素级基准上追平甚至超过 OpenCLIP。

多模态模型 · Google DeepMind

Flamingo：面向少样本学习的视觉语言模型

Flamingo 冻结视觉编码器和语言模型，只训练中间的跨注意力桥接层，靠提示里的几个示例就能上手新的图像和视频任务，无需微调。

多模态模型 · NVIDIA

LocateAnything:并行框解码让视觉定位更快

LocateAnything 把整个检测框一步解出,而非逐位输出坐标,混合模式达每秒 12.7 个框,约为 Rex-Omni-3B 的 2.5 倍,3B 规模下领跑 COCO 与 LVIS。

视觉基础模型 · Microsoft Research

ResNet 解读:用残差学习训练超深图像识别网络

ResNet 用跳跃连接让每层只学「残差」而非整个映射,使 152 层网络可训练;集成模型在 ImageNet 上 top-5 错误率 3.57%,夺得 ILSVRC 2015 冠军。

图像分割 · Meta AI

Segment Anything（SAM）：一个可提示模型，十亿掩码

Meta AI 的 SAM 把分割重构为可提示任务，并配套 SA-1B 数据集（1100 万图像、11 亿掩码），让单一模型零样本迁移到新对象与新分布。

视觉基础模型 · Google Research

Vision Transformer (ViT)：一张图等于 16x16 个词

ViT 把图像切成 16x16 patch 直接喂给标准 Transformer，在 JFT-300M 上预训练后超过顶尖 CNN，ImageNet 达 88.55%，且训练算力更省。

多模态模型 · OpenAI

CLIP:用自然语言监督学习视觉模型

CLIP 在 4 亿互联网图文对上训练图像与文本编码器,零样本就追平原始 ResNet-50 的 ImageNet 准确率,却完全没用它那 128 万张标注样本。

图像分割 · Meta AI

SAM 2 解读:一次提示贯穿整段视频的分割模型

SAM 2 用流式记忆模块让一次点击跟住整段视频里的对象,视频分割交互比此前方法少约三分之二,图像分割比初代 SAM 快 6 倍。

从这里开始

奠基论文

近期解读

相关主题