VideoMLA:低秩潜在 KV 缓存做分钟级视频扩散
VideoMLA 把多头潜在注意力搬进因果视频扩散,单 token KV 显存砍 92.7%(224 对 3,072 标量),VBench 60s 夺冠,B200 吞吐提升 1.23 倍。
机构
美国公立研究型大学,活跃于生成式视频、扩散模型与高效深度学习研究。
VideoMLA 把多头潜在注意力搬进因果视频扩散,单 token KV 显存砍 92.7%(224 对 3,072 标量),VBench 60s 夺冠,B200 吞吐提升 1.23 倍。