机器之心从word2vec开始，说下GPT庞大的家族系谱

机器之心分析师网络
作者：王子嘉
编辑：H4O
本文从从老祖级别的 word2vec 开始，从头到尾梳理了 GPT 的「家谱」和 word2vec 领衔的庞大的 NLP「家族集团」。
GPT 不是凭空而出，它是经过了很多人的努力，以及很长一段时间的演化得来的。因此，梳理一下 GPT 的庞大 “家族” 还是很有必要的，看看他继承了什么，学习了什么，又改进了什么，这样也能更好地理解 GPT 各个部分的原理。
现在很多人把 2018 年（BERT 提出）作为 NLP 元年（类似于当时 ImageNet 的提出），其趋势与当年的图像领域也极其类似——模型越来越大。 2018 年的 BERT-large（最大的 BERT 模型）的参数量是 340M ，而到了 2020 年的 GPT-3 ，这个数字已经翻了无数倍了。很多人第一次了解到 GPT 大概是 2018 年，那个时候 GPT 还是个配角（被其兄弟 BERT 拉出来示众），当时的主角是 BERT ， BERT 的成功让当时论文中作为前身的 ELMo 和 GPT 也火了一把。其实当时的 GPT 也没有 BERT 第一版论文中说的那么差，现在的 BERT 论文也已经没有了当时的对比图片，而最近的 GPT-3 总结了当时的失败经验，也开始重视媒体宣传，让 GPT 成功以 C 位出道，结结实实当了次主角。
一提到 GPT3 ，大家第一印象大概就是异常庞大的参数量——1750 亿，比其前身多 100 倍，比之前最大的同类 NLP 模型要多 10 倍。事实上，如今的 GPT-3 是在很长一段时间的演变后得到的（汇聚了老祖宗们的优秀智慧），从 word2vec 开始，各式各样的语言模型就开始变得让人眼花缭乱，也有很多给 GPT 的诞生提供了很大的启发，我们今天就从老祖级别的 word2vec 开始，从头到尾梳理一下 GPT 的 “家谱” 和 word2vec 领衔的庞大的 NLP“家族集团” 。
值得注意的是，这里列出的家族成员都是跟 GPT 关系比较近的，所以本文列举的内容并不能完全囊括所有语言模型的发展，本文的主要目的是为了梳理 GPT 的原理脉络，并与一些类似的模型做必要的对比以加深理解。
家谱总览
为了更好地给 GPT 建立一个“家谱” ，也让你们知道这篇文章会涉及什么内容，首先要宏观的比较一下这个庞大的家族各个成员的出生时间（图 1）。

本文插图
图 1：家族成员出生日期。
有了这个出生时间表，再对他们有一定的了解（本文的主要目的），它们的关系其实就很好确定了，所以这个庞大家族的族谱大概可以画成图 2 的这个样子。

本文插图
图 2：GPT 族谱。
读到这里对这些模型不够了解或者有完全没有听过的也没有关系，细心的同学可能会发现 Attention 的出生日期并没有列在图 1 中，因为 Attention 算是 GPT 的一个远方表亲，因为 Attention 业务的特殊性（主要是外包工作，后面会详细说）， GPT 对其没有完全的继承关系，但是 GPT 和他的兄弟姐妹们都有 attention 的影子。
对 GPT 族谱有了宏观的了解后，就可以开始正式进入正题了。
Word Embedding [1,2]
Word Embedding（词嵌入）作为这个庞大家族集团的创始人，为整个 “集团” 的蓬勃发展奠定了坚实的基础。到目前为止，词嵌入一直是 NLP 集团的中坚力量。 Word2Vec 和 Glove 等方法就是很好的例子，为了避免对 “集团” 的根基不明白，这里先对词嵌入进行简要介绍。
对于要被机器学习模型处理的单词，它们需要以某种形式的数字表示，从而在模型中使用这些数字（向量）。 Word2Vec 的思想就是我们可以用一个向量（数字）来表征单词的语义和词间的联系（相似或相反，比如 “斯德哥尔摩” 和“瑞典”这两个词之间的关系就像 “开罗” 和“埃及”之间的关系一样），以及语法联系（如英文中的‘had’和‘has’的关系跟‘was’和‘is’的关系一样）。