Kwai Keye-VL-2.0:开放长视频多模态模型
Kwai Keye-VL-2.0 是 30B-A3B 开放 MoE 多模态模型,支持 256K 上下文,在长视频、时间定位和代码智能体任务上表现突出。
机构
中国短视频与直播公司,其可灵(Kling)团队研发可灵系列视频生成模型,本论文由可灵团队主导完成。
Kwai Keye-VL-2.0 是 30B-A3B 开放 MoE 多模态模型,支持 256K 上下文,在长视频、时间定位和代码智能体任务上表现突出。
不让视频模型自己硬推,而是让 VLM 给中间帧打分、逐样本微调一个 LoRA。RULER-Bench 从 46.4 拉到 68.2。