DeepSeek-V3 解读:671B MoE 只花 278.8 万 GPU 时

快速答案

DeepSeek-V3 是一个 6710 亿(671B)参数的混合专家(MoE)语言模型,每个 token 只激活 370 亿(37B)参数,在 14.8 万亿 token 上预训练并开源权重。真正的看点是账单。整个训练仅耗费 278.8 万 H800 GPU 时,按报告假设的每 GPU 时 2 美元算约 560 万美元,却在大量基准上比肩头部闭源模型、超过其他开源模型。它的卖点不在「分数最高」,而在「用比外界以为低一个数量级的算力做出了前沿级模型」。

DeepSeek-V3 为何如此省算力

DeepSeek-V3 的稀疏是设计出来的。6710 亿参数里,路由器把每个 token 只送给一小撮专家,因此每 token 只点亮 370 亿参数:你付的是 671B 模型的知识容量,花的却是 37B 模型的单 token 算力。它的架构(多头潜在注意力,即 MLA,加上 DeepSeekMoE 的专家布局)在 DeepSeek-V2 里已验证过,所以 V3 与其说是新设计,不如说是把一套成熟设计做了规模化、加固与成本工程化的落地。

多头潜在注意力

MLA 攻的是推理里通常最吃内存的部分:键值缓存(KV cache)。标准多头注意力要为每个 token 存一整套键和值,这块缓存会随上下文长度和批量大小暴涨。MLA 改成把键和值压成一个低秩潜在向量、只缓存它,用时再实时重建出每个头的表示。结果是 KV 缓存大幅缩小,这正是让一个 671B 模型跑长上下文推理在经济上「活得下去」的关键。它把「巨大的模型」变成「你真能上线服务的巨大模型」。

无辅助损失的负载均衡

MoE 模型有个老毛病:路由器要是偏爱少数几个专家,其余专家就闲置、容量被浪费。常规做法是加一个辅助均衡损失,但它会与主目标打架,悄悄拉低质量。DeepSeek-V3 的贡献是一种无辅助损失策略:靠调整路由时每个专家的偏置项来引导均衡,而不是再塞一个互相竞争的损失项。区别微妙却实在:让专家都忙起来,却不去课税你真正在乎的东西,也就是模型质量。

多 token 预测与 FP8 训练

还有两个杠杆撑起了省算力。多 token 预测(MTP) 训练模型在每个位置预测未来的多个 token 而不止一个,既加密学习信号,之后还能复用为投机解码来加速推理。FP8 混合精度训练把大量前向和反向计算放在 8 位浮点而非 16 位上跑,把最重算子的显存和带宽开销大致砍半。难点在于:在这种规模上跑 FP8 还不让训练发散。报告最有价值的地方,正是这套让它保持稳定的工程配方。

在紧绷的算力预算下训练

到处流传的数字是:在 14.8 万亿 token 上完成全程训练只花了 278.8 万 H800 GPU 时。同样要紧的一点是这次训练很稳,作者报告整个预训练没有任何不可恢复的 loss 尖峰、没有一次回滚。这份稳定本身就是结果。一次不可恢复的发散就能烧掉数周集群时间,所以「从没回滚过」是比那个原始 GPU 时数字更硬的效率主张。也要看清边界:这 278.8 万 GPU 时涵盖预训练、上下文扩展与后训练,但不含此前的研究、消融与失败训练。

关键结果

规模对成本: 总参数 6710 亿,每 token 激活 370 亿,训练 token 14.8 万亿,全流程训练 278.8 万 H800 GPU 时。
质量档位: 在报告的评测套件里,DeepSeek-V3 超过其他开源模型,并达到与头部闭源模型相当的水平,在数学和代码上尤其突出。
被验证有效的效率原语: MLA 压缩 KV 缓存;无辅助损失均衡在不侵蚀质量的前提下让专家都被用上;MTP 加密监督信号并支持投机解码。
训练稳定性: 整个预训练零不可恢复 loss 尖峰、零回滚,在这种规模上并不常见。
开放性: 模型权重已发布,因此效率主张是可被检视的,而非营销话术。

为什么现在重要

DeepSeek-V3 重置了「前沿级开源模型」的隐含价码。在它之前,「你得有闭源实验室的预算」是没人明说的前提;V3 的 278.8 万 GPU 时让这条前提变得可以谈判,而它又成了 DeepSeek-R1 推理系统的基座,它的效率直接撑起了那个让闭源实验室紧张的推理模型。对实践者而言,更深的价值是这套打法:MLA、无辅助损失路由、MTP 与稳定的 FP8 训练,是一套具体、可复用的「每一美元换更多模型」的技术栈。

局限与存疑

那个成本数字是真的,但很容易被误读。278.8 万 GPU 时是最终一次训练的算力;它不含产出这套配方的研究、失败实验、数据管线与人力,所以「约 560 万美元训出来」是一次成功训练的边际成本,不是从零复现 DeepSeek 的成本。架构也依赖具体硬件:FP8 稳定性与 MLA 服务都是针对特定集群调出来的,换地方照搬未必拿到同样数字。作为技术报告,它在失败分析和广义安全评测上着墨较少;开源权重也很大,「开源」仍意味着「对拥有大量 GPU 的人开放」。最后,V3 是强大的通用模型,但不是专门的推理模型,那份能力随 R1 才到来。

常见问题

DeepSeek-V3 有 6710 亿参数,凭什么还省算力?

它是混合专家模型,每个 token 只激活 6710 亿里的 370 亿参数,因此单 token 算力相当于一个小得多的模型,而总容量保持很大。多头潜在注意力还进一步压缩了推理时的 KV 缓存。

训练 DeepSeek-V3 花了多少钱?

全程训练耗费 278.8 万 H800 GPU 时,按报告假设的每 GPU 时 2 美元算约 560 万美元。这个数字只是最终一次训练,不含研究、消融与失败实验。

DeepSeek-V3 里的多头潜在注意力(MLA)是什么?

MLA 把键和值压成一个低秩的潜在向量并只缓存它,而不是缓存每个头的完整键值张量,从而大幅减少通常主导长上下文推理成本的 KV 缓存内存。

DeepSeek-V3 和 DeepSeek-R1 是一回事吗?

不是。DeepSeek-V3 是开源基座模型;DeepSeek-R1 是在 V3 基座之上用强化学习训出的推理模型。那个刷屏的「几百万美元」成本说的是 V3 的预训练,而不是 R1 的推理阶段。

一句话:DeepSeek-V3 证明一个 671B 开源模型能用 278.8 万 GPU 时摸到闭源档位,有巨人的容量,却只花小得多模型的单 token 成本。阅读 arXiv 原文。