BERT:重塑 NLP 的双向预训练配方
BERT 让深度双向 Transformer 预训练变得实用,一个预训练编码器只需少量任务层就能微调成强 NLP 系统。
主题
用于大规模理解、生成和转换自然语言的模型。
语言模型是现代 AI 基础设施的中心,因为它把文本变成了推理、检索、代码、智能体和多模态系统的通用接口。真正重要的研究线索不是某一个模型家族,而是一系列让规模变得有效的设计选择:双向预训练、decoder-only 少样本学习、指令跟随、算力最优训练和开放模型发布。
从 SEO 和学习路径看,这个主题应该被理解为能力迁移图谱。BERT 让预训练 encoder 成为 NLP 标准底座。GPT-3 让上下文学习变得可见。InstructGPT 说明人类偏好数据为什么重要。Chinchilla 修正了大家对数据和算力配比的直觉。Llama 类开放模型则把语言模型变成可部署生态,而不只是闭源前沿竞赛。
BERT 让深度双向 Transformer 预训练变得实用,一个预训练编码器只需少量任务层就能微调成强 NLP 系统。
Chinchilla 证明许多大语言模型不是参数太少,而是训练 token 不够;同样算力下,参数与数据的配比更关键。
GPT-3 证明 175B 自回归语言模型可以通过提示词里的示例完成许多任务,无需梯度更新或任务专用微调。
BERT 让深度双向 Transformer 预训练变得实用,一个预训练编码器只需少量任务层就能微调成强 NLP 系统。
T5 用 text-to-text 格式统一 NLP 迁移学习,并系统比较预训练目标、数据、规模和微调选择。
GPT-3 证明 175B 自回归语言模型可以通过提示词里的示例完成许多任务,无需梯度更新或任务专用微调。
InstructGPT 证明,人类偏好数据和 RLHF 可以让更小模型比大得多的原始语言模型更有用、更符合用户意图。
AlphaCode 通过生成大量候选程序、过滤并选择多样化解法,挑战需要算法推理和隐藏测试的编程竞赛题。
BERT 让深度双向 Transformer 预训练变得实用,一个预训练编码器只需少量任务层就能微调成强 NLP 系统。
Chinchilla 证明许多大语言模型不是参数太少,而是训练 token 不够;同样算力下,参数与数据的配比更关键。
Code Llama 在 Llama 系列基础上继续训练代码能力,支持代码生成、补全、填空和指令跟随。
GPT-3 证明 175B 自回归语言模型可以通过提示词里的示例完成许多任务,无需梯度更新或任务专用微调。
InstructGPT 证明,人类偏好数据和 RLHF 可以让更小模型比大得多的原始语言模型更有用、更符合用户意图。
AlphaCode 通过生成大量候选程序、过滤并选择多样化解法,挑战需要算法推理和隐藏测试的编程竞赛题。
BERT 让深度双向 Transformer 预训练变得实用,一个预训练编码器只需少量任务层就能微调成强 NLP 系统。
Chinchilla 证明许多大语言模型不是参数太少,而是训练 token 不够;同样算力下,参数与数据的配比更关键。
Code Llama 在 Llama 系列基础上继续训练代码能力,支持代码生成、补全、填空和指令跟随。
GPT-3 证明 175B 自回归语言模型可以通过提示词里的示例完成许多任务,无需梯度更新或任务专用微调。
InstructGPT 证明,人类偏好数据和 RLHF 可以让更小模型比大得多的原始语言模型更有用、更符合用户意图。
PaLM 用 Pathways 系统训练 540B dense Transformer,展示规模如何提升少样本语言、推理和代码能力。
T5 用 text-to-text 格式统一 NLP 迁移学习,并系统比较预训练目标、数据、规模和微调选择。