多模态模型 · University of California, Davis
当视觉替声音作答:音视频模型的「聪明汉斯」效应
头部视频模型看似在听声音,实则靠画面猜。本文用 THUD 探针拆穿这一捷径,1 万样本的两阶段修复把音频理解平均拉高 28 个百分点。
机构
在自然语言处理、多模态学习与可信 AI 方向活跃的公立研究型大学。
多模态模型 · University of California, Davis
头部视频模型看似在听声音,实则靠画面猜。本文用 THUD 探针拆穿这一捷径,1 万样本的两阶段修复把音频理解平均拉高 28 个百分点。