BERT:重塑 NLP 的双向预训练配方
BERT 让深度双向 Transformer 预训练变得实用,一个预训练编码器只需少量任务层就能微调成强 NLP 系统。
主题
以注意力机制为核心、成为现代语言和多模态模型骨架的架构。
BERT 让深度双向 Transformer 预训练变得实用,一个预训练编码器只需少量任务层就能微调成强 NLP 系统。
Chinchilla 证明许多大语言模型不是参数太少,而是训练 token 不够;同样算力下,参数与数据的配比更关键。
GPT-3 证明 175B 自回归语言模型可以通过提示词里的示例完成许多任务,无需梯度更新或任务专用微调。
PaLM 用 Pathways 系统训练 540B dense Transformer,展示规模如何提升少样本语言、推理和代码能力。
T5 用 text-to-text 格式统一 NLP 迁移学习,并系统比较预训练目标、数据、规模和微调选择。
ViT 证明在足够大规模训练下,把图像切成 patch 后交给标准 Transformer,也能在图像识别中取得强表现。
Transformer 去掉循环和卷积,用注意力机制与并行训练处理序列任务;几乎所有现代大模型都站在这一步之上。
FlashAttention 保持注意力计算精确,但让算法具备 IO awareness,通过 tiling 减少慢速 GPU 内存访问,让长序列 Transformer 更快、更省显存。