Attention Is All You Need:Transformer 架构详解

快速答案

Transformer 是一个完全由注意力构成的序列模型,没有循环,没有卷积。它在 WMT 2014 英德翻译上拿到 28.4 BLEU,比此前最佳结果(含集成模型)高出 2 BLEU 以上;在英法翻译上以 41.8 BLEU 刷新单模型纪录,只用 8 块 GPU 训练了 3.5 天。真正的看点不是 BLEU 分数,而是去掉循环让训练变成完全并行,而同一套架构后来直接长成了 GPT、BERT,以及之后几乎所有大模型。

循环结构为什么是瓶颈

2017 年之前,最强的翻译模型是循环网络(LSTM/GRU)做的 encoder-decoder,中间常用注意力搭桥。问题出在结构上:RNN 必须先算完第 t-1 步才能算第 t 步,于是一句 50 个词的句子要做 50 次串行运算,GPU 根本没法并行。长距离依赖还得挤过一长串隐状态,早期的信号一路衰减。卷积序列模型并行性好一些,但要连接远距离位置仍得堆很多层。论文赌的是:注意力本来只是个辅助组件,却能独自扛起全部工作,彻底消除这种串行依赖。

自注意力是怎么工作的

自注意力让每个 token 在一步之内直接看到序列里所有其他 token。每个 token 发出一组 query、key、value;query 与所有 key 做点积,再除以 √d 缩放,经 softmax 变成权重,然后对 value 加权求和。任意两个 token 之间的路径长度因此是常数,而不是随距离线性增长。这正是 RNN 给不了的。

两个设计让它真正可用。多头注意力在多个低维投影上并行做注意力,模型因此能同时追踪不同关系(句法、位置、共指)。位置编码(加在词向量上的固定正弦波)把词序信息重新注入,因为注意力本身对顺序无感。完整模型是 6 层 encoder 加 6 层 decoder,每层把注意力和逐位置前馈网络配对,再加残差连接与层归一化。

关键结果

**WMT 2014 英德:**28.4 BLEU,比此前最佳(含集成)高出 2 BLEU 以上。
**WMT 2014 英法:**41.8 BLEU,刷新单模型 SOTA。
**训练成本:**大模型在 8 块 P100 GPU 上训练 3.5 天,只是竞争模型所报算力的一小部分。
**泛化能力:**迁移到英文成分句法分析,在数据充足和受限两种情形下都能与专用系统抗衡,说明这套架构并非只为翻译而生。

被低估的恰恰是那个效率数字。用极小一部分训练成本就追平甚至超过精心调过的集成模型,这才是它值得被放大、而不是只发一篇论文的原因。

局限与存疑

自注意力对序列长度是 O(n²):每个 token 都要关注其他所有 token,开销随长度平方增长,长文档很快就贵得吓人。后续关于稀疏、线性、FlashAttention 等方法的整条研究线,都是在啃这块硬骨头,而且没有一个真正取代了原版。论文也没有证明任何关于推理、事实性、grounding 或对齐的东西;那些是叠在上面的规模、数据和训练目标带来的性质,而非架构本身。正弦位置编码也很快被取代(先是可学习编码,再是旋转位置编码),提醒人们:具体配方比核心思想老得快。

常见问题

Attention Is All You Need 最核心的贡献是什么?

它提出了 Transformer,第一个不用循环、不用卷积也能打的序列转导模型,序列内的信息混合全交给注意力。这让训练得以并行,架构也极易扩展。

Transformer 为什么比 RNN 训练得更快?

RNN 必须按顺序处理 token,每一步都依赖上一步。Transformer 在一层之内并行算完所有 token 之间的交互,整条序列一次矩阵运算搞定,而不是 n 次串行。这正是它能在 8 卡上 3.5 天训完的原因。

Attention Is All You Need 讲的是大语言模型吗?

不是。2017 年这篇论文讲的是机器翻译和句法分析。GPT、BERT 及之后的大模型复用了 Transformer 模块,但叠加了规模、预训练目标和大得多的数据,这些都不在本文研究范围内。

原始 Transformer 最大的弱点是什么?

注意力开销随序列长度平方增长,长上下文因此很贵。2017 年以来大量效率研究都在攻这一点,但标准注意力机制至今仍是所有人对标的基线。

Transformer 真正的主张从来不是某个 BLEU 分数,而是证明了注意力可以独自取代循环;这个赌注如今撑起了整个领域。原文见 arXiv 来源。