Chinchilla：算力最优的模型为何能打赢更大的模型

快速答案

在算力预算固定时，应该让参数量和训练 token 等比例增长：模型翻倍，数据也翻倍。DeepMind 用这条结论训练了 Chinchilla：700 亿参数，约 1.4 万亿 token（约为 Gopher 的 4 倍数据），却和 2800 亿参数的 Gopher 用掉同样多的算力。结果 Chinchilla 在各项任务上全面超过 Gopher，MMLU 平均准确率达到当时最优的 67.5%，比 Gopher 高出 7 个百分点以上。核心结论一句话：2021 年那批旗舰模型不是太小，而是训练得远远不够。

所有人都在犯的缩放错误

上一代缩放研究（尤其是指导 GPT-3 的 2020 年 Kaplan 等人定律）给出的建议是：算力变多时，绝大部分应该投到更多参数上，数据只需小幅增加。这套建议直接催生了一场堆参数的军备竞赛：Gopher 2800 亿、GPT-3 1750 亿、MT-NLG 5300 亿，但不管模型多大，训练数据都卡在 3000 亿 token 左右。

Chinchilla 的作者把实验重做得更严谨：训练了 400 多个模型，参数从 7000 万到 160 亿以上，数据从 50 亿到 5000 亿 token，再用三种独立方法去拟合损失曲面。三种方法结论一致，且都推翻了此前的判断：参数和 token 的指数大致相等，应当同步增长。按这个算法，一个 5300 亿参数的模型若要做到算力最优，需要约 10 万亿 token，远超当时这些巨头实际吃到的数据量。

数据与参数等比例扩张

落到实操上规则非常直白：模型规模每翻一倍，训练 token 数也翻一倍。最优点不是一条窄缝，而是一个较宽的盆地，但 2020 年那套配方明显偏到了「数据严重不足」的一侧。

Chinchilla 就是这条结论的实证。它和 Gopher 用掉一样的浮点运算量，只是重新分配：模型缩小到四分之一，数据扩大到四倍。整篇论文的贡献就在这次重新分配：没有新结构、没有新目标函数、没有花哨的数据管线，只是把预算切对了。也正因为如此简单，结论才让那些手握巨大却训练不足的模型的实验室格外难堪。

关键结果

Chinchilla 为 700 亿参数、约 1.4 万亿训练 token，算力预算与 2800 亿参数的 Gopher 完全相同。
MMLU 平均准确率 67.5%，为当时最优，比 Gopher 提升 7 个百分点以上。
在大量下游任务上全面超过 Gopher（280B）、GPT-3（175B）、Jurassic-1（178B）和 MT-NLG（530B），而它的参数量只有对手的 1/2.5 到 1/7.5。
因为模型小，Chinchilla 的微调和推理成本都低得多，效率优势会在落地阶段持续放大，而不只体现在训练时。

局限与存疑

缩放定律是经验拟合，不是物理规律。它的指数会随数据质量、分词器、模型结构和优化器策略而变。后续复现工作已对原始的「Chinchilla 最优」系数提出部分质疑，论文本身也发过一份勘误修正了部分拟合。更关键的是，这套定律优化的是单次训练的预训练损失，如果一个模型要被调用数十亿次，这就是错的目标：那种场景下应该刻意把较小模型训练到超过算力最优点（LLaMA 的思路），用训练换推理成本。

Chinchilla 也完全没有触及指令微调、对齐、工具调用或长上下文——它只是一篇关于「预训练经济学」的论文。而且现实天花板已经变了：当高质量 token 变得稀缺，「数据直接翻倍」就不再是免费的建议。

常见问题

Chinchilla 缩放定律一句话怎么说？

算力最优训练下，参数量和训练 token 应等比例增长——参数每翻一倍，数据也要翻一倍。

Chinchilla 有多大、训练用了多少数据？

Chinchilla 有 700 亿参数，使用约 1.4 万亿 token 训练，算力预算和 2800 亿参数的 Gopher 完全相同。

Chinchilla 真的打赢了 GPT-3 和 Gopher 吗？

是的。Chinchilla 在大量下游任务上全面且显著超过 Gopher（280B）、GPT-3（175B）、Jurassic-1（178B）和 MT-NLG（530B），MMLU 达到 67.5%，明显高于 Gopher。

Chinchilla 的配方现在还是训练大模型的正解吗？

不一定。Chinchilla 优化的是固定预算下的训练成本；但如果模型要大规模上线服务，团队现在反而会把较小模型训练到超过 Chinchilla 点，以节省推理开销，而高质量数据稀缺也让「数据翻倍」这条规则变得复杂。

Chinchilla 真正留下的，是被修正的一个数字：数据是和参数同等重要的缩放变量，一个吃饱的 700 亿可以让饿着肚子的 5300 亿颜面扫地。原文见 arXiv。