Video2GUI:从互联网视频里挖出 1200 万条 GUI 智能体轨迹
Video2GUI 把 5 亿条无标注教程视频自动转成 WildGUI 数据集——1200 万条 GUI 交互轨迹,在其上预训练让多项 GUI 基准提升 5-20%。
快速答案
Video2GUI 是一条全自动流水线,它读无标注的互联网教程视频,输出”带定位的 GUI 智能体轨迹”——也就是截图加上在该截图上发生的点击、输入、滚动动作。把它跑在 5 亿条视频元数据上,构建出 WildGUI 数据集:1200 万条交互轨迹,覆盖 1500 多个应用和网站。在 WildGUI 上预训练 Qwen2.5-VL 和 Mimo-VL,多项 GUI 定位与动作基准提升 5-20%,达到或超过当前最优水平。它的价值不在新模型结构,而在于一种无需人工标注、按网页规模批量制造 GUI 训练数据的方法。
GUI 智能体为什么”缺数据”
一个 GUI 智能体要看着屏幕决定点哪里、输什么、何时滚动。训练它需要”轨迹”:一张截图、在它上面采取的动作、以及随之变化的新屏幕。今天这些轨迹大多靠人工标注员手动操作应用产生,慢、贵,而且只覆盖少数几个移动应用或一组固定网站。这正是 GUI 智能体一遇到训练集之外的界面就泛化失灵的原因。Video2GUI 押的是:这些数据其实早已存在——网上几百万段屏幕录制的软件教程,本质上就是有人在真实界面上完成任务的演示。难点在于把原始视频转成干净、带定位的动作标签。
Video2GUI 怎样把视频变成轨迹
流水线采用由粗到细的过滤,而过滤本身才是真正的贡献。它先从 5 亿条视频元数据中廉价地剔除一切非屏幕录制的 GUI 教程——真人出镜、游戏画面、幻灯片。留下来的视频再逐帧检查,找到界面因用户操作而变化的时刻,并反推出那一步动作是什么:在某个位置点击、输入某段文字、滚动。最终产出的是结构化轨迹,形状和 GUI 智能体训练时消费的数据一致——截图进、带定位的动作出——但全程零人工标注。产量是亮点:5 亿候选过滤到 1200 万条可用轨迹,覆盖 1500 多个不同应用和网站,这正是数据集广度的来源。
关键结果
- WildGUI 规模: 1200 万条带定位的交互轨迹,从 5 亿条视频元数据中挖出,覆盖 1500 多个应用与网站,领域广度远超人工标注的 GUI 数据集。
- 预训练增益: 在 WildGUI 上预训练 Qwen2.5-VL 与 Mimo-VL,在多个 GUI 定位与动作基准上稳定提升 5-20%。
- 竞争力: 尽管训练信号完全来自自动挖掘的视频而非精修标注,WildGUI 预训练后的模型在这些基准上达到或超过当前最优水平。
- 通用性: 两个不同基座模型(Qwen2.5-VL 和 Mimo-VL)上都出现增益,说明真正起作用的是数据本身,而非单一模型的特性。
为什么现在重要
2026 年 GUI 与计算机操作智能体的瓶颈不在模型容量,而在覆盖真实软件长尾的带定位数据。Video2GUI 把这个瓶颈重新定义成一个”挖矿”问题,挖的是一座被领域长期忽视的矿——开放网络上海量的屏幕录制教程。如果开源的流水线和 WildGUI 数据集站得住脚,有意思的后果是:任何人都能靠对更多视频运行过滤器来扩充 GUI 训练数据,而不必按条付钱给标注员。这与今天多数 GUI 智能体工作所处的”受标注预算约束”的扩展曲线截然不同。
局限与存疑
5-20% 是跨基准的一个区间,摘要没有点明哪个基准只涨 5%、哪个涨 20%——所以上限真实但参差,最弱的基准可能几乎不动。从视频挖的数据也继承了视频的偏置:教程过度代表热门消费类应用和”顺利路径”流程,而很少覆盖出错状态、企业级工具,以及让智能体真正鲁棒的纠错恢复行为。从像素反推确切动作本就有噪声——靠帧间变化推断的点击位置可能偏移,而 1200 万规模上的标签噪声很难审计。最后,目前展示的是两个视觉语言基座上的预训练增益;这些轨迹是否能提升在完整操作系统或浏览器等真实环境中的端到端任务成功率(而不只是离线的定位与动作基准),是摘要留下的问题。
常见问题
Video2GUI 是什么?
Video2GUI 是一套自动框架,直接从无标注的互联网教程视频中提取带定位的 GUI 交互轨迹——截图配上引发界面变化的点击、输入、滚动动作——全程无需人工标注。
WildGUI 数据集是什么?
WildGUI 是 Video2GUI 产出的数据集:从 5 亿条视频元数据中挖出的 1200 万条 GUI 交互轨迹,覆盖 1500 多个应用与网站。作者表示会连同流水线一起开源。
Video2GUI 能把 GUI 智能体提升多少?
在 WildGUI 上预训练 Qwen2.5-VL 和 Mimo-VL,多个 GUI 定位与动作基准稳定提升 5-20%,达到或超过当前最优水平。
Video2GUI 和人工标注的 GUI 数据集有何不同?
人工标注数据集小、贵、局限于窄领域。Video2GUI 自动从网络视频挖数据,因此覆盖 1500+ 应用与网站,且随可用视频规模扩展,而非受标注预算约束。
Video2GUI 的主要局限是什么?
5-20% 的增益跨基准并不均匀;挖出的轨迹带有视频偏向热门应用和顺利路径的偏置;像素反推的动作标签在 1200 万规模上有噪声;展示的增益是离线基准而非真实环境的端到端任务成功率。
一句话:GUI 智能体要的数据早已作为教程视频躺在网上,Video2GUI 学会了把它读出来。详见 arXiv 原文。