Transformer 六周年：在它之前世界平淡，在它之后世界地覆天翻

理解了人类的语言，就理解了世界。

一直以来，人工智能领域的学者和工程师们都试图让机器学习人类的语言和说话方式，但进展始终不大。

因为人类的语言太复杂，太多样，而组成它背后的机制，往往又充满着不可名状的规律。

(相关资料图)

过去人们在自然语言处理中多采用 RNN 循环神经网络，它十分类似于人类逻辑上对语言的理解——强调上下文顺序、前后文逻辑关系。

但是这种顺序方式让 RNN 无法实现并行计算，也就是说，它的速度十分缓慢，而规模也很难扩大。

直到 2017 年 6 月 12 日，一篇名为 Attention is All You Need 的论文被提交到预印论文平台 arXiv 上。

一切从此改变。

Transformer 的提出直接导致导致了现在生成式 AI 风暴。机器好像在一瞬间就学会了如何与人类自如交流。

在 Transformer 提出前，人们讨论的是如何让智能音箱听懂你的提问，而 Transformer 之后，人们讨论的重点变成了该如何防范 AGI 通用智能对人类造成的危险。

Attention is All You Need 这篇论文的重要性可见一斑，刚刚过去的 12 号正是它六周岁生日。

Transformer 这个名字据说来自论文联合作者之一的 Llion Jones，原因无它，因为 attention （注意力）这个词听上去实在是有点不酷。

Llion Jones 也是目前八个论文联合作者中唯一一个还在谷歌上班的人。剩下的七个人都纷纷离职创业。最有名的大概是 Character AI，创始人是论文作者之一的 Noam Shazeer，他之前在谷歌工作了 20 年，负责构建了 LaMDA。

那么 Transformer 究竟有什么点石成金的魔力呢？我们尽量用通俗易懂的话来解释。

Transformer 彻底抛弃了前面提到的 RNN 循环神经网络这套逻辑，它完全由自注意力机制组成。

大家都有过这样的经验，打乱个一子句中字词序顺的多很时候不并响影对你句子的解理。比如上面这句。

这是因为人脑在处理信息时会区分权重，也就是说，我们的注意力总是被最重要的东西吸引走，次要的细节则被忽略。

Transformer 模仿了这一点，它能够自动学习输入的序列中不同位置之间的依赖关系并计算其相关性（而不是对整个输入进行编码）。这让针对序列的建模变得更加容易和精准。

在深度学习中引入这种机制，产生了两个明显好处。

一方面，并行计算得以实现，基于 Transformer 架构的模型可以更好地利用 GPU 进行加速。由此，Transformer 为预训练模型的兴起奠定了基础，随着模型的规模越来越大，神经网络开始出现所谓 " 智能涌现 "，这正是人们认为像 GPT 这样的大模型打开了 AGI 通用人工智能大门的原因。

另一方面，尽管最开始 Transformer 的提出是被用来解决自然语言，更准确地说，机器翻译问题，但很快人们就发现，这种注意力机制可以推广到更多领域——比如语音识别和计算机视觉。基于 Transformer 的深度学习方法实际上适用于任何序列——无论是语言还是图像，在机器眼中它们不过是一个个带规律的向量。

在这两种优点的共同作用下，人工智能领域迎来了前所未有的爆发，后面的故事我们都知道了。

下面是关于 Transformer 的几个 fun facts。前面三个来自英伟达 AI 科学家 Jim Fan 庆祝 Transformer 架构被提出六周年的推文。

1、注意力机制不是 Transformer 提出的。

注意力机制是深度学习三巨头之一的 Yoshua Bengio 于 2014 年提出的。这篇名为 Neural Machine Translation by Jointly Learning to Align and Translate 的论文中首次提出了注意力机制。堪称自然语言处理里程碑级的论文。在那之后许多人都投身于对注意力机制的研究，但直到 Transformer 论文的出现大家才明白——相对别的因素而言，只有注意力机制本身才是重要的。

2、Transformer 和注意力机制最初都只为了解决机器翻译问题。

未来人们回溯 AGI 的起源，说不定要从谷歌翻译开始。尽管注意力机制几乎可以用在深度学习的所有领域，但一开始不管是 Yoshua Bengio 的论文还是 Transformer 架构，都单纯是为了提高机器翻译的效果。

3、Transformer 一开始并未引人注意，至少对 NeurIPS 来说如此。

NeurIPS 2017 上一共有 600 多篇论文被接受，Transformer 是其中之一，但也仅此而已了。讽刺的是当年 NeurIPS 上的三篇最佳论文联合起来的引用次数只有五百多次。

4、OpenAI 在 Transformer 发布的第二天就 all in 。

虽然很多人一开始并没有意识到 Transformer 的威力，但这其中显然不包括 OpenAI。他们在 Transformer 甫一发布就迅速意识到了这意味着什么，并迅速决定完全投入其中。

实际上，GPT 中的 T 正是 Transformer。

5、Transformer 几乎立刻取代了 LSTM 的地位。

在 Transformer 提出之前，自然语言处理使用广泛的是名叫长短期记忆网络 LSTM 的序列生成模型，它的一大缺陷是对输入内容的先后顺序敏感，因此无法大规模使用并行网络计算。

然而在 Transformer 被提出之前，许多人都认为 LSTM 将在很长一段时间内容主导 NLP 的发展。