机器之心从word2vec开始，说下GPT庞大的家族系谱( 九 )

本文插图
图 17：新时代（图源：http://jalammar.github.io/）
回到 GPT ，在介绍 GPT-1 的后代们做了什么之前（主要是扩大模型），先看一下 GPT-2 和 GPT-3 的论文名字：
Language models are unsupervised multitask learners. (GPT-2)
Language Models are Few-Shot Learners. (GPT-3)
看到这些名字，第一感觉大概就是“一脉相承” 。实际上 GPT 的后代们也是这么做的， GPT-1 的后代们的目标是实现 zero-shot learning ，取消 fine-tune 机制！这也是为什么 GPT-3 能够大火，给人以经验的原因。到了 GPT-2 ，就开始跨出了创造性的一步——去掉了 fine-tuning 层，再针对不同任务分别进行微调建模，而是不定义这个模型应该做什么任务，模型会自动识别出来需要做什么任务。这就好比一个人博览群书，你问他什么类型的问题，他都可以顺手拈来， GPT-2 就是这样一个博览群书的模型 [18] 。其他的特征主要就是扩大了公司规模（扩大数据及，增加参数，加大词汇表，上下文大小从 512 提升到了 1024 tokens），除此之外，也对 transformer 进行了调整，将 layer normalization 放到每个 sub-block 之前，并在最后一个 Self-attention 后再增加一个 layer normalization 。
总的来说 GPT-2 跟 GPT-1 的区别如 GPT-2 的名字所示，他要让语言模型变成 unsupervised multitask learner ， [19]给了一个很简洁的对比，我搬运过来供大家参考理解：
数据质量：GPT 2 更高，进行了筛选
数据广度：GPT 2 更广，包含网页数据和各种领域数据
数据数量：GPT 2 更大， WebText ， 800 万网页
数据模型：模型更大， 15 亿参数
结构变化：变化不大
两阶段 vs 一步到位：GPT 1 是两阶段模型，通过语言模型预训练，然后通过 Finetuning 训练不同任务参数。而 GPT 2 直接通过引入特殊字符，从而一步到位解决问题
到了 GPT-3 ，如果去看一下论文就发现其实 GPT-3 更像一个厚厚的技术报告，来告诉大家 GPT-3 怎么做到 few-shot 甚至 zero-shot learning ，他的内核细节这里已经没有什么要单独提及的了，他的庞大和财大气粗就是他最大的特色（整个英语维基百科（约 600 万个词条）仅占其训练数据的 0.6％），如果有机会，还是希望大家可以自己去试一下这个模型，去体验一下 GPT-3 带来的魅力。
总结
读完这篇文章，估计就可以发现，所有的技术都不是凭空而来的，都是一点一点进步得来的，从源头开始，梳理一下一个模型的“集团成员” ，不仅仅可以对这个领域有更深刻的理解，对于这个模型的每一块技术，都能有更加深刻的理解。
同时，在实际应用的时候，不是最新的模型就是最好的，还要考虑这个模型的大小是否合适，模型在你特定所需的任务上表现是否优秀等等等等，对整个 NLP 领域有更广泛的理解，你在做选择的时候就更能做出更好地选择，而不是在别人问到你为什么选择 BERT 的时候说一句， “哦，我只会 BERT 。 ”
参考文献
[1] Mikolov, Tomas; et al. (2013). "Efficient Estimation of Word Representations in Vector Space". arXiv (https://en.wikipedia.org/wiki/ArXiv_(identifier)):1301.3781 (https://arxiv.org/abs/1301.3781) [cs.CL (https://arxiv.org/archive/cs.CL)].
[2]Mikolov, Tomas (2013). "Distributed representations of words and phrases and their compositionality". Advances in neural information processing systems.
[3] Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, & Luke Zettlemoyer. (2018). Deep contextualized word representations.