语言模型 · Transformer

BERT:重塑 NLP 的双向预训练配方

BERT 让深度双向 Transformer 预训练变得实用,一个预训练编码器只需少量任务层就能微调成强 NLP 系统。

研究工作站上的代码与语言模型轨迹

解决什么问题

BERT 之前,NLP 迁移学习已经在进步,但很多系统仍依赖任务专用架构或从左到右的表示。这样很难让一个预训练模型成为广泛复用的语言理解 backbone。BERT 要补的是这个缺口:让模型在适配下游任务前,先深度读取左右两侧上下文。

核心方法

BERT 是 encoder-only Transformer,用 masked language modeling 和 next sentence prediction 预训练。masked language modeling 会遮住部分 token,要求模型利用双向上下文恢复它们。完成大规模无标注文本预训练后,BERT 只需加一个小的任务输出层,就能微调用于问答、推理、分类等任务。

关键结果

论文在 11 个 NLP 任务上刷新 SOTA,包括 GLUE、MultiNLI、SQuAD v1.1 和 SQuAD v2.0。真正重要的不是某个单项分数,而是模式本身可复用:先预训练一次,再广泛微调,不必为每个任务重做架构。

为什么重要

BERT 在很长一段时间里成为语言理解默认 backbone。搜索、问答、企业 NLP、生物医学文本挖掘和各种专用编码器都受它影响。它也让预训练目标变成核心设计问题:模型在看到任务标签之前,到底应该先学会什么。

局限与存疑

BERT 不是生成式助手,也不天然擅长长篇回答。next sentence prediction 目标后来受到质疑,小数据微调也可能不稳定。但它的核心思想,双向预训练再广泛适配,仍是 NLP 最清晰的转折点之一。

一句话:BERT 把语言理解变成了先预训练、再微调的问题。