PaLM:把 dense 语言模型扩展到 540B 参数
PaLM 用 Pathways 系统训练 540B dense Transformer,展示规模如何提升少样本语言、推理和代码能力。
解决什么问题
GPT-3 让规模成为核心变量,但研究者仍需要更清楚地知道 dense 语言模型能被推到多远,以及超大规模会带来哪些能力。PaLM 用 Google Pathways 基础设施训练 540B 参数模型,系统研究这个问题。
核心方法
PaLM 是 dense 激活的 decoder-only Transformer。工程重点是 Pathways,它负责协调超大规模分布式训练。论文不只看单个榜单,而是评估语言理解、生成、推理、多语言、代码、偏见、毒性和记忆等多个方面。
关键结果
PaLM 在许多任务上提升少样本表现,并在推理和代码基准上有强结果。论文也展示了规模似乎改善多步推理的定性例子,同时分析偏见、毒性和记忆问题。它证明在 MoE 系统受到关注时,dense 扩展路线仍然有竞争力。
为什么重要
PaLM 是 GPT-3 式规模和后来的 Gemini 路线之间的重要桥梁。它说明基础设施和训练系统已经和架构本身一样重要。前沿模型不再只是神经网络设计,而是大型分布式系统工程。
局限与存疑
PaLM 训练和服务成本都很高,规模本身也不解决事实性或对齐。部分推理例子很有说服力,但不能证明模型具备稳定推理能力。PaLM 的更大启发是:规模会改变行为,但行为是否有用仍取决于数据、评测和后训练。
一句话:PaLM 把语言模型扩展变成了系统工程问题。