首页

设置

日夜间

随系统

浅色

深色
主题色
黑色

首页 > 科学探索>科技前沿

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

新智元 2023/6/15 12:40:01 责编：梦泽

评论：

原文标题：《Transformer 全新里程碑！诞生 6 年，开山之作被引近 8 万，没夺下 NeurIPS 最佳论文，却彻底改变 AI 界》

Transformer，6 岁了！2017 年，Attention is All You Need 奠基之作问世，至今被引数近 8 万。这个王者架构还能继续打多久？

2017 年 6 月 12 日，Attention is All You Need，一声炸雷，大名鼎鼎的 Transformer 横空出世。

它的出现，不仅让 NLP 变了天，成为自然语言领域的主流模型，还成功跨界 CV，给 AI 界带来了意外的惊喜。

到今天为止，Transformer 诞生 6 周年。而这篇论文被引数高达 77926。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

英伟达科学家 Jim Fan 对这篇盖世之作做了深度总结：

1. Transformer 并没有发明注意力，而是将其推向极致。

第一篇注意力论文是在 3 年前（2014 年）发表的。

这篇论文来自 Yoshua Bengio 的实验室，而标题并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

它是「RNN + 上下文向量」（即注意力）的组合。

或许很多人都没有听说过这篇论文，但它是 NLP 中最伟大的里程碑之一，已经被引用了 29K 次（相比之下，Transformer 为 77K）。

2. Transformer 和最初的注意力论文，都没有谈到通用序列计算机。

相反，两者都为了解决一个狭隘而具体的问题：机器翻译。值得注意的是，AGI（不久的某一天）可以追溯到不起眼的谷歌翻译。

3. Transformer 发表在 2017 年的 NeurIPS 上，这是全球顶级的人工智能会议之一。然而，它甚至没有获得 Oral 演讲，更不用说获奖了。

那一年的 NeurIPS 上有 3 篇最佳论文。截止到今天，它们加起来有 529 次引用。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

Transformer 这一经典之作却在 NeurIPS 2017 没有引起很多人的关注。

对此，Jim Fan 认为，在一项出色的工作变得有影响力之前，很难让人们认可它。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

我不会责怪 NeurIPS 委员会 —— 获奖论文仍然是一流的，但影响力没有那么大。一个反例是 ResNet。

何凯明等人在 CVPR 2016 年获得了最佳论文。这篇论文当之无愧，得到了正确的认可。

2017 年，该领域聪明的人中，很少有人能够预测到今天 LLM 革命性的规模。就像 20 世纪 80 年代一样，很少有人能预见自 2012 年以来深度学习的海啸。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

OpenAI 科学家 Andrej Karpathy 对 Jim Fan 第 2 点总结颇感兴趣，并表示，

介绍注意力的论文（由 @DBahdanau , @kchonyc , Bengio）比「Attention is All You Need」的论文受到的关注要少 1000 倍。而且从历史上看，这两篇论文都非常普通，但有趣的是恰好都是为机器翻译而开发的。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

你只需要注意力！

Transformer 诞生之前，AI 圈的人在自然语言处理中大都采用基于 RNN（循环神经网络）的编码器-解码器（Encoder-Decoder）结构来完成序列翻译。

然而，RNN 及其衍生的网络最致命的缺点就是慢。关键问题就在于前后隐藏状态的依赖性，无法实现并行。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

Transformer 的现世可谓是如日中天，让许多研究人员开启了追星之旅。

2017 年，8 位谷歌研究人员发表了 Attention is All You Need。可以说，这篇论文是 NLP 领域的颠覆者。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

论文地址：https://arxiv.org/ pdf / 1706.03762.pdf

它完全摒弃了递归结构，依赖注意力机制，挖掘输入和输出之间的关系，进而实现了并行计算。

甚至，有人发问「有了 Transformer 框架后是不是 RNN 完全可以废弃了？」

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

JimFan 所称 Transformer 当初的设计是为了解决翻译问题，毋庸置疑。

谷歌当年发的博客，便阐述了 Transformer 是一种语言理解的新型神经网络架构。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

文章地址：https://ai.googleblog.com/ 2017/08 / transformer-novel-neural-network.html

具体来讲，Transformer 由四部分组成：输入、编码器、解码器，以及输出。

输入字符首先通过 Embedding 转为向量，并加入位置编码（Positional Encoding）来添加位置信息。

然后，通过使用多头自注意力和前馈神经网络的「编码器」和「解码器」来提取特征，最后输出结果。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

如下图所示，谷歌给出了 Transformer 如何用在机器翻译中的例子。

机器翻译的神经网络通常包含一个编码器，在读取完句子后生成一个表征。空心圆代表着 Transformer 为每个单词生成的初始表征。

然后，利用自注意力，从所有其他的词中聚合信息，在整个上下文中为每个词产生一个新表征，由实心圆表示。

接着，将这个步骤对所有单词并行重复多次，依次生成新的表征。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

同样，解码器的过程与之类似，但每次从左到右生成一个词。它不仅关注其他先前生成的单词，还关注编码器生成的最终表征。

2019 年，谷歌还专门为其申请了专利。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

自此，在自然语言处理中，Transformer 逆袭之路颇有王者之风。

归宗溯源，现在各类层出不穷的 GPT（Generative Pre-trained Transformer），都起源于这篇 17 年的论文。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

然而，Transformer 燃爆的不仅是 NLP 学术圈。

万能 Transformer：从 NLP 跨到 CV

2017 年的谷歌博客中，研究人员曾对 Transformer 未来应用潜力进行了畅享：

不仅涉及自然语言，还涉及非常不同的输入和输出，如图像和视频。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

没错，在 NLP 领域掀起巨浪后，Transformer 又来「踢馆」计算机视觉领域。甚至，当时许多人狂呼 Transformer 又攻下一城。

自 2012 年以来，CNN 已经成为视觉任务的首选架构。

随着越来越高效的结构出现，使用 Transformer 来完成 CV 任务成为了一个新的研究方向，能够降低结构的复杂性，探索可扩展性和训练效率。

2020 年 10 月，谷歌提出的 Vision Transformer (ViT)，不用卷积神经网络（CNN），可以直接用 Transformer 对图像进行分类。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

值得一提的是，ViT 性能表现出色，在计算资源减少 4 倍的情况下，超过最先进的 CNN。

紧接着，2021 年，OpenAI 连仍两颗炸弹，发布了基于 Transformer 打造的 DALL-E，还有 CLIP。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

这两个模型借助 Transformer 实现了很好的效果。DALL-E 能够根据文字输出稳定的图像。而 CLIP 能够实现图像与文本的分类。

再到后来的 DALL-E 进化版 DALL-E 2，还有 Stable Diffusion，同样基于 Transformer 架构，再次颠覆了 AI 绘画。

以下，便是基于 Transformer 诞生的模型的整条时间线。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

由此可见，Transformer 是有多么地能打。

2021 年，当时就连谷歌的研究人员 David Ha 表示，Transformers 是新的 LSTMs。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

而他曾在 Transformer 诞生之前，还称 LSTM 就像神经网络中的 AK47。无论我们如何努力用新的东西来取代它，它仍然会在 50 年后被使用。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

Transformer 仅用 4 年的时间，打破了这一预言。

新硅谷「七叛徒」

如今，6 年过去了，曾经联手打造出谷歌最强 Transformer 的「变形金刚们」怎么样了？

Jakob Uszkoreit 被公认是 Transformer 架构的主要贡献者。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

他在 2021 年中离开了 Google，并共同创立了 Inceptive Labs，致力于使用神经网络设计 mRNA。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

到目前为止，他们已经筹集了 2000 万美元，并且团队规模也超过了 20 人。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

Ashish Vaswani 在 2021 年底离开 Google，创立了 AdeptAILabs。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

可以说，AdeptAILabs 正处在高速发展的阶段。

目前，公司不仅已经筹集了 4.15 亿美元，而且也估值超过了 10 亿美元。

此外，团队规模也刚刚超过了 40 人。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

然而，Ashish 却在几个月前离开了 Adept。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

在 Transformers 论文中，Niki Parmar 是唯一的女性作者。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

她在 2021 年底离开 Google，并和刚刚提到的 Ashish Vaswani 一起，创立了 AdeptAILabs。

不过，Niki 在几个月前也离开了 Adept。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

Noam Shazeer 在 Google 工作了 20 年后，于 2021 年底离开了 Google。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

随后，他便立刻与自己的朋友 Dan Abitbol 一起，创立了 Character AI。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

虽然公司只有大约 20 名员工，但效率却相当之高。

目前，他们已经筹集了近 2 亿美元，并即将跻身独角兽的行列。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

Aidan Gomez 在 2019 年 9 月离开了 Google Brain，创立了 CohereAI。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

经过 3 年的稳定发展后，公司依然正在扩大规模 ——Cohere 的员工数量最近超过了 180 名。

与此同时，公司筹集到的资金也即将突破 4 亿美元大关。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

Lukasz Kaiser 是 TensorFlow 的共同作者人之一，他在 2021 年中离开了 Google，加入了 OpenAI。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

Illia Polosukhin 在 2017 年 2 月离开了 Google，于 2017 年 6 月创立了 NEAR Protocol。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

目前，NEAR 估值约为 20 亿美元。

与此同时，公司已经筹集了约 3.75 亿美元，并进行了大量的二次融资。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

现在，只有 Llion Jones 还在谷歌工作。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

在论文的贡献方面，他风趣地调侃道：「自己最大的意义在于 —— 起标题。」

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

网友热评

走到现在，回看 Transformer，还是会引发不少网友的思考。

AI 中的开创性论文。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

马库斯表示，这有点像波特兰开拓者队对迈克尔・乔丹的放弃。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

这件事说明了，即使在这样的一级研究水平上，也很难预测哪篇论文会在该领域产生何种程度的影响。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

这个故事告诉我们，一篇研究文章的真正价值是以一种长期的方式体现出来的。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

哇，时间过得真快！令人惊讶的是，这个模型突破了注意力的极限，彻底改变了 NLP。

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

在我攻读博士期间，我的导师 @WenmeiHwu 总是教育我们，最有影响力的论文永远不会获得最佳论文奖或任何认可，但随着时间的推移，它们最终会改变世界。我们不应该为奖项而奋斗，而应该专注于有影响力的研究！

Transformer 全新里程碑，诞生 6 年，开山之作被引近 8 万

参考资料：

https://twitter.com/DrJimFan/status/1668287791200108544
https://twitter.com/karpathy/status/1668302116576976906
https://twitter.com/JosephJacks_/status/1647328379266551808

本文来自微信公众号：新智元（ID：AI_era）

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

相关文章

关键词：Transformer

软媒旗下网站： IT之家最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件： 软媒手机APP应用魔方最会买要知