视频生成 · 高效 AI

VideoMLA:低秩潜在 KV 缓存做分钟级视频扩散

VideoMLA 把多头潜在注意力搬进因果视频扩散,单 token KV 显存砍 92.7%(224 对 3,072 标量),VBench 60s 夺冠,B200 吞吐提升 1.23 倍。

VideoMLA:低秩潜在 KV 缓存做分钟级视频扩散

快速答案

VideoMLA 是首个把多头潜在注意力(MLA)引入因果视频扩散的研究。它把标准的逐头键值缓存换成一个共享低秩内容潜在,加一个共享解耦的 3D-RoPE 位置键,在每个缓存层把单 token 的 KV 显存砍掉 92.7%——每 token 224 个标量,而非 3,072 个,缩减 13.7 倍。VBench 上它短程匹配流式基线,长程在所有评测方法里拿到最佳总分(60s 为 0.859),单卡 B200 吞吐提升 1.23 倍。最反直觉的一点:它能成立,即便预训练视频注意力并不低秩,MLA 在语言模型里惯用的谱论据在这里根本不成立。

它要解决的流式显存问题

长滚动因果视频扩散已经统一到固定大小的滑窗 KV 缓存上。近期工作都在窗口内做文章——换哪些 token 占窗口、位置怎么编码——却几乎没动逐头 KV 布局本身。而这个布局正是流式显存和延迟的主要来源:每个缓存层都为每个头存完整的键和值,这份占用逼着你只能用小 batch,也限制了在爆显存前能滚出多长的视频。

VideoMLA 直接动布局。赌的是逐头缓存冗余,可以用一个小得多的共享潜在替掉,而不丢预训练注意力学到的质量。若成立,就能把流式占用压到足以滚出分钟级视频,并在同样硬件上塞进大得多的 batch。

VideoMLA 怎么压缩缓存

VideoMLA 从语言模型借来 MLA,再为视频改造。它不再每头缓存一个键一个值,而是缓存两样共享的东西:一个所有头共同投影的低秩内容潜在,和一个携带 3D 旋转位置编码的解耦位置键。推理时只缓存紧凑潜在,再现场重建逐头键值。解耦的 3D-RoPE 键把位置信息和内容分开,免得旋转编码被卷进低秩瓶颈。

难点在于它凭什么能成。语言模型里 MLA 通常靠谱论据:注意力近似低秩,小潜在损失很小。VideoMLA 表明这套在视频里不成立——预训练视频注意力的 99% 能量有效秩远高于任何实用潜在维度,按谱近似该预测出很大的重建误差。然而 VideoMLA 在那些压缩比下依然保住了质量。

为什么不低秩也能成

论文的核心发现是:决定有效秩的是 MLA 瓶颈,而非预训练谱。无论从顶部谱方向初始化潜在,还是从随机噪声初始化,投影从第一步起就几乎占满整个秩预算,训练保住这份预算并在其中自适应。换句话说,模型不是去逼近原本高秩的注意力图然后失败,而是学了一套新的、活在瓶颈所允许预算内的注意力。这给扩散里的 MLA 重新定调:潜在维度是个你训练进去的容量旋钮,而非一个你去压缩逼近的谱——这也解释了为何随机和谱初始化落到同一处。

关键结果

  • KV 显存:每个缓存层单 token KV 显存降 92.7%;每 token 224 标量对比逐头基线的 3,072,缩减 13.7 倍。
  • 长程质量:VBench 上短程匹配流式视频扩散基线,长程在评测方法中拿到最佳总分——60s 为 0.859。
  • 运动保持:动态程度在长滚动里依旧高——30s 为 0.981,60s 为 0.958。
  • 吞吐:单卡 B200 提升 1.23 倍;batch size 为 1 时报 23.96 FPS、延迟 3.38 秒。
  • batch 扩展:潜在内容维度 192 时,非爆显存 batch 最多扩大 8.0 倍,正是流式占用变小的直接红利。

老实说:这是效率与系统贡献,不是生成质量的飞跃。要点是用零头的流式显存保住基线水平质量,换来更长滚动和更大 batch 的余量,外加一个干净的机理解释——说明 MLA 为何能在标准低秩故事失效的场景里活下来。

局限与存疑

  • 单模型、单硬件证据:吞吐和 batch 扩展数据都在一套 B200 上得到,换其他加速器或带宽受限场景的收益没有刻画。
  • 以 VBench 为中心的质量:优势都按固定时长在 VBench 上度量,而 VBench 是自动代理指标,分钟级下这份长程优势能否扛住人类偏好仍是问号。
  • 重建并非免费:论文承认这些压缩比下直接谱近似会失败;现场重建逐头键值带来的计算部分抵消了显存收益。
  • 潜在维度是个旋钮:既然瓶颈决定秩,选潜在内容维度就是在质量与显存间权衡,论文没给出跨模型的通用选法。

常见问题

VideoMLA 里的多头潜在注意力(MLA)是什么?

MLA 把逐头缓存的键值换成一个共享低秩内容潜在,加一个共享解耦的 3D-RoPE 位置键。VideoMLA 只缓存紧凑潜在,推理时再现场重建逐头键值,单 token KV 显存因此降 92.7%。

视频注意力不低秩,VideoMLA 为何还能成?

预训练视频注意力的 99% 能量有效秩远高于任何实用潜在维度,所以它不低秩。VideoMLA 表明决定有效秩的是 MLA 瓶颈而非预训练谱:投影从初始化起就占满秩预算,训练在其中自适应,于是谱初始化和随机初始化殊途同归。

VideoMLA 快多少、轻多少?

单 token KV 显存降 92.7%(224 对 3,072 标量,13.7 倍),单卡 B200 吞吐提升 1.23 倍,内容维度 192 时非爆显存 batch 最多扩大 8.0 倍,同时 VBench 质量短程匹配基线、60s 领先。