Humanoid-GPT:GPT 式 Transformer 做人形动作跟踪
在 20 亿帧动作语料(比此前大 200 倍)上,从约 384 个 PPO 专家蒸馏出因果 Transformer。仿真成功率 92.58 percent,单步推理低于 1.5ms。
快速答案
Humanoid-GPT 是一个 GPT 式因果 Transformer,用来零样本跟踪参考动作、控制人形机器人全身。它在一个 20 亿帧的重定向动作语料上训练,作者称这比此前的跟踪数据集大 200 倍。在仿真基准上,大号变体达到 92.58 percent 的跟踪成功率,平均每关键点误差 40.99mm,在单张 RTX 4090 上单步推理低于 1.5ms。工作来自清华大学,联合 Galbot、上海交通大学、北京大学与上海期智研究院,已被 CVPR 2026 接收。
核心判断:动作跟踪长期被小数据集和浅层 MLP 策略卡住,所以解法是像语言建模那样,同时把数据和模型都做大。
问题:跟踪器太小、太窄
此前的全身动作跟踪器是在稀缺数据上训练的浅层 MLP,卡在一个有记录的”敏捷性 vs 泛化”的取舍上:为动态动作调好的策略会过拟合这些动作、在没见过的片段上失败;而广泛训练的策略又会在敏捷度上变软。在只有数千到数万条动作片段可用的情况下,根本无法训出一个既能跟踪高动态动作、又能泛化到未见动作的单一网络。
Humanoid-GPT 把这件事重新定义为数据与容量问题,而非算法问题。只要你能凑齐足够的动作、再配一个大到能吸收它们的模型,单一策略就该像大语言模型在文本上那样泛化。
方法:先训专家,再蒸馏进一个 Transformer
整条管线分三步。
第一步,数据整理。作者把主要动捕数据集——AMASS、LAFAN1、MotionMillion、PHUMA——与大规模自采录制统一起来,把每条片段重定向到人形机器人,再做时间扭曲增强,得到 20 亿帧的语料。
第二步,专家训练。他们用一个 Harmonic Motion Embedding 对动作聚类,训练约 384 个 PPO 专家,每个专家专精一个动作簇,用关键点级跟踪奖励。把语料拆给多个专家,在专家层面绕开了敏捷性与泛化的取舍——每个专家只要把自己那一片做好就行。
第三步,蒸馏。一个带因果注意力的 GPT 式 Transformer 通过 DAgger 训练,把所有专家整合成一个输出各关节 PD 目标的策略。Transformer 变体的参数量在 22.1M 到 80.4M 之间。正是这一步把 384 个窄专家变成一个能零样本跟踪的通才。
为什么用因果 Transformer,为什么是现在
因果注意力是这篇工作的结构性主张。动作跟踪本质是序列问题——下一个控制目标依赖于历史状态和参考轨迹——所以因果 Transformer 可以像自回归语言模型条件于前文 token 那样,条件于上下文。论文把这种结构和规模放在一起,报告了干净的扩展行为:成功率随模型规模和数据规模一起上升,这正是当年支撑语言建模 scaling law 的性质。
为什么是现在:人形硬件和大规模重定向动捕语料,直到最近才在这个量级上可得;而”把多个 RL 专家蒸馏进一个 Transformer”的配方,正是让单一可部署策略继承数百个专家广度的关键。
关键结果
- Humanoid-GPT-L 在完整 2B token 语料上训练,仿真跟踪成功率 92.58 percent。
- 仿真中平均每关键点位置误差(MPKPE)40.99mm;MPJPE 0.0735 rad;MPJVE 0.4820 rad/s;根速度误差 0.1785 m/s。
- 20 亿帧重定向动作,称为比此前跟踪数据集大 200 倍。
- 约 384 个 PPO 动作专家,蒸馏进单个 22.1M-80.4M 参数的 Transformer。
- RTX 4090 上单步推理延迟 低于 1.5ms,即可实时部署。
- 真实硬件上的舞蹈跟踪:四段舞蹈动作的 MPJPE 0.0856-0.1180 rad、MPJVE 0.6158-1.2362 rad/s。
局限与存疑
论文指出 200M 到 2B token 之间的扩展收益已经很边际,作者把这解读为在当前模型容量下进入了数据受限区间——也就是说,在固定模型规模下单纯加帧未必继续奏效,而这里最大的变体也只有约 80M 参数。真实世界误差明显高于仿真(硬件上 MPJPE 约 0.086-0.118 rad,仿真为 0.0735 rad),印证了一个论文并未完全消除的 sim-to-real 差距。展示的真实评测只限四段舞蹈动作,硬件上的广度远窄于仿真基准。而且模型是跟踪参考动作而非生成目标——它是跟踪器,不是规划器,参考轨迹从哪来不在讨论范围内。
常见问题
Humanoid-GPT 是什么?
Humanoid-GPT 是一个用于零样本人形全身动作跟踪的 GPT 式因果 Transformer,从约 384 个在 20 亿帧重定向动作语料上训练的 PPO 专家蒸馏而来。它在仿真中达到 92.58 percent 的跟踪成功率,RTX 4090 上单步推理低于 1.5ms。
Humanoid-GPT 和此前的动作跟踪器有何不同?
此前的跟踪器是在稀缺数据上训练的浅层 MLP,困在敏捷性与泛化的取舍里。Humanoid-GPT 同时放大数据(语料大 200 倍)和结构(因果 Transformer),把多个专精 RL 专家蒸馏成一个能零样本泛化的策略。
Humanoid-GPT 用什么数据训练?
一个 20 亿帧的语料,统一了 AMASS、LAFAN1、MotionMillion、PHUMA 与大规模自采动捕,全部重定向到人形机器人,并做时间扭曲增强。
Humanoid-GPT 跟踪动作的效果如何?
仿真中大号变体达到 92.58 percent 成功率、40.99mm 平均每关键点误差、0.0735 rad MPJPE。真实硬件上四段舞蹈的 MPJPE 在 0.0856-0.1180 rad,存在可测的 sim-to-real 差距。
Humanoid-GPT 能在机器人上实时运行吗?
能。RTX 4090 上单步推理延迟低于 1.5ms,论文报告了在人形硬件上跟踪舞蹈动作的真实部署。
一句话:把数据放大 200 倍、把 MLP 换成因果 Transformer,一个人形策略就能零样本跟踪动态动作。阅读 arXiv 上的原始论文。