机器之心从word2vec开始,说下GPT庞大的家族系谱


机器之心分析师网络
作者:王子嘉
编辑:H4O
本文从从老祖级别的 word2vec 开始 , 从头到尾梳理了 GPT 的 「家谱」 和 word2vec 领衔的庞大的 NLP「家族集团」 。
GPT 不是凭空而出 , 它是经过了很多人的努力 , 以及很长一段时间的演化得来的 。 因此 , 梳理一下 GPT 的庞大 “家族” 还是很有必要的 , 看看他继承了什么 , 学习了什么 , 又改进了什么 , 这样也能更好地理解 GPT 各个部分的原理 。
现在很多人把 2018 年(BERT 提出)作为 NLP 元年(类似于当时 ImageNet 的提出) , 其趋势与当年的图像领域也极其类似——模型越来越大 。 2018 年的 BERT-large(最大的 BERT 模型)的参数量是 340M , 而到了 2020 年的 GPT-3 , 这个数字已经翻了无数倍了 。 很多人第一次了解到 GPT 大概是 2018 年 , 那个时候 GPT 还是个配角(被其兄弟 BERT 拉出来示众) , 当时的主角是 BERT , BERT 的成功让当时论文中作为前身的 ELMo 和 GPT 也火了一把 。 其实当时的 GPT 也没有 BERT 第一版论文中说的那么差 , 现在的 BERT 论文也已经没有了当时的对比图片 , 而最近的 GPT-3 总结了当时的失败经验 , 也开始重视媒体宣传 , 让 GPT 成功以 C 位出道 , 结结实实当了次主角 。
一提到 GPT3 , 大家第一印象大概就是异常庞大的参数量——1750 亿 , 比其前身多 100 倍 , 比之前最大的同类 NLP 模型要多 10 倍 。 事实上 , 如今的 GPT-3 是在很长一段时间的演变后得到的(汇聚了老祖宗们的优秀智慧) , 从 word2vec 开始 , 各式各样的语言模型就开始变得让人眼花缭乱 , 也有很多给 GPT 的诞生提供了很大的启发 , 我们今天就从老祖级别的 word2vec 开始 , 从头到尾梳理一下 GPT 的 “家谱” 和 word2vec 领衔的庞大的 NLP“家族集团” 。
值得注意的是 , 这里列出的家族成员都是跟 GPT 关系比较近的 , 所以本文列举的内容并不能完全囊括所有语言模型的发展 , 本文的主要目的是为了梳理 GPT 的原理脉络 , 并与一些类似的模型做必要的对比以加深理解 。
家谱总览
为了更好地给 GPT 建立一个“家谱” , 也让你们知道这篇文章会涉及什么内容 , 首先要宏观的比较一下这个庞大的家族各个成员的出生时间(图 1) 。
机器之心从word2vec开始,说下GPT庞大的家族系谱
本文插图
图 1:家族成员出生日期 。
有了这个出生时间表 , 再对他们有一定的了解(本文的主要目的) , 它们的关系其实就很好确定了 , 所以这个庞大家族的族谱大概可以画成图 2 的这个样子 。
机器之心从word2vec开始,说下GPT庞大的家族系谱
本文插图
图 2:GPT 族谱 。
读到这里对这些模型不够了解或者有完全没有听过的也没有关系 , 细心的同学可能会发现 Attention 的出生日期并没有列在图 1 中 , 因为 Attention 算是 GPT 的一个远方表亲 , 因为 Attention 业务的特殊性(主要是外包工作 , 后面会详细说) , GPT 对其没有完全的继承关系 , 但是 GPT 和他的兄弟姐妹们都有 attention 的影子 。
对 GPT 族谱有了宏观的了解后 , 就可以开始正式进入正题了 。
Word Embedding [1,2]
Word Embedding(词嵌入)作为这个庞大家族集团的创始人 , 为整个 “集团” 的蓬勃发展奠定了坚实的基础 。 到目前为止 , 词嵌入一直是 NLP 集团的中坚力量 。 Word2Vec 和 Glove 等方法就是很好的例子 , 为了避免对 “集团” 的根基不明白 , 这里先对词嵌入进行简要介绍 。
对于要被机器学习模型处理的单词 , 它们需要以某种形式的数字表示 , 从而在模型中使用这些数字(向量) 。 Word2Vec 的思想就是我们可以用一个向量(数字)来表征单词的语义和词间的联系(相似或相反 , 比如 “斯德哥尔摩” 和“瑞典”这两个词之间的关系就像 “开罗” 和“埃及”之间的关系一样) , 以及语法联系(如英文中的‘had’和‘has’的关系跟‘was’和‘is’的关系一样) 。