Kwai Keye-VL-2.0:开放长视频多模态模型

快速答案

Kwai Keye-VL-2.0-30B-A3B 是快手 Keye 团队发布的开放多模态 MoE 模型,主攻长视频理解和 agentic 任务。它总规模是 30B 级,每次激活约 3B 参数,把 DeepSeek Sparse Attention 适配到 GQA 多模态架构,并训练到 256K 上下文。论文最强证据集中在长视频和时间定位:Keye-VL-2.0 在 LongVideoBench 报告 74.1,并在三个 TimeLens 子集上拿到表中最高分。

它想解决什么

小时级视频同时带来两个难点。模型既要在长视频里找到关键片段,又要跨很远的事件做推理。dense attention 让上下文成本很高,简单抽帧又容易错过证据。Keye-VL-2.0 的路线是稀疏长上下文多模态架构,再加分阶段训练和 RL。

30B-A3B 的 MoE 设置也有现实意义。它不是只追求最大参数量的闭源模型,而是试图在开放权重和可控成本下做长视频、多模态和 agent 能力。

稀疏注意力和训练配方

论文的技术核心是把 DeepSeek Sparse Attention 引入 GQA-based multimodal architecture。系统还配合 Chunk ViT、ViT-LM heterogeneous parallelism、自定义 DSA kernel 和 decode 优化。对于 128K 上下文,报告称 DSA-specific 优化相对 full attention 可让 prefill cost 降低超过 3 倍,decode cost 降低超过 5 倍。

后训练同样重要。Cross-Modal Multi-Teacher On-Policy Distillation 试图把多个 teacher 的反馈合并到一个 MoE backbone 中,并减少多任务对齐时的遗忘。Context-RL 和 Video-RL 则专门强化长上下文检索、时间定位和 agentic 行为。

这组设计才是论文真正的主张。长视频模型很容易在视觉优化后损失通用推理,也可能在追求指令跟随时牺牲时间定位。Keye-VL-2.0 试图把稀疏长上下文基础设施和分阶段对齐、RL 分开处理,再合并到一个开放 MoE 模型里。它的结果最好按系统工程来读,而不是只看单个 leaderboard 分数。

关键结果

长视频: Keye-VL-2.0 在 LongVideoBench 达到 74.1,高于表中 Qwen3-VL-235B-A22B Thinking 的 70.5。
Video-MME-v2: 64/512 frames 下 accuracy 为 35.3/42.4,说明更密集视觉上下文带来收益。
TimeLens: ActivityNet-TimeLens 58.5,QVHighlights-TimeLens 70.1,Charades-TimeLens 58.4,三个子集均领先表中对比。
代码能力: LiveCodeBench v6 为 64.2,OJBench 为 71.5,SWE-bench Verified 为 62.0。
工具使用: tau2-Bench 为 82.6,VitaBench 为 33.1,在对应表格中领先列出的对比模型。

哪些结论可信,哪些要打折

可信的是系统路线:稀疏长上下文、视频课程、时间定位数据、多模态 RL 与长视频结果相互吻合。论文还明确讨论了推理成本优化,这对小时级视频很关键。

需要打折的是「全能」叙事。技术报告列了大量 benchmark,但强项并不等于每项都第一。Keye-VL-2.0 在长视频和 temporal grounding 上很强,但在 Video-MME、MLVU 等成熟 benchmark 上,闭源或更大开放模型仍在同一档甚至更高。

局限与存疑

模型开放不等于完整复现容易。实际效果依赖 checkpoint、推理栈、抽帧设置、稀疏 kernel 和长上下文 serving 配置。只拿权重运行,未必能复现论文中的成本曲线。

第二个问题是 agent 能力迁移。SWE-bench Verified 和工具调用分数有价值,但 Keye-VL-2.0 首先还是多模态基础模型。真实多模态 agent 还依赖工具路由、记忆、UI 控制和外部验证。

还有数据透明度问题。报告描述了 dense caption、temporal grounding、Context-RL 和 agent 数据,但外部用户无法完整审计这些数据配比,也未必能在快手训练管线之外复现同样的后训练效果。

常见问题

Kwai Keye-VL-2.0 是什么？

Kwai Keye-VL-2.0-30B-A3B 是快手发布的开放多模态 MoE 模型,面向长视频理解、时间定位、代码、工具使用和多模态 agent 任务。

Keye-VL-2.0 的上下文长度是多少？

论文把 Keye-VL-2.0 训练到 256K 上下文,并通过适配到 GQA 架构的 DeepSeek Sparse Attention 降低长视频处理成本。

Keye-VL-2.0 最强结果是什么？

最强证据来自长视频和时间定位:LongVideoBench 74.1,ActivityNet-TimeLens 58.5,QVHighlights-TimeLens 70.1,Charades-TimeLens 58.4。

Keye-VL-2.0 是否全面强于 Qwen3-VL？

不是全面强于。它在若干长视频和时间定位指标上超过 Qwen3-VL 变体,但不是每个多模态指标都领先。更准确说法是:它在 active parameter 规模下尤其适合长视频和细粒度时间定位。

一句话:Keye-VL-2.0 值得写,因为它把稀疏长上下文工程和开放多模态视频智能体连了起来,不只是把文本窗口做长。阅读 arXiv 原文。