机器之心从word2vec开始,说下GPT庞大的家族系谱( 九 )


本文插图
图 17:新时代(图源:http://jalammar.github.io/)
回到 GPT , 在介绍 GPT-1 的后代们做了什么之前(主要是扩大模型) , 先看一下 GPT-2 和 GPT-3 的论文名字:
Language models are unsupervised multitask learners. (GPT-2)
Language Models are Few-Shot Learners. (GPT-3)
看到这些名字 , 第一感觉大概就是“一脉相承” 。 实际上 GPT 的后代们也是这么做的 , GPT-1 的后代们的目标是实现 zero-shot learning , 取消 fine-tune 机制!这也是为什么 GPT-3 能够大火 , 给人以经验的原因 。 到了 GPT-2 , 就开始跨出了创造性的一步——去掉了 fine-tuning 层 , 再针对不同任务分别进行微调建模 , 而是不定义这个模型应该做什么任务 , 模型会自动识别出来需要做什么任务 。 这就好比一个人博览群书 , 你问他什么类型的问题 , 他都可以顺手拈来 , GPT-2 就是这样一个博览群书的模型 [18] 。 其他的特征主要就是扩大了公司规模(扩大数据及 , 增加参数 , 加大词汇表 , 上下文大小从 512 提升到了 1024 tokens) , 除此之外 , 也对 transformer 进行了调整 , 将 layer normalization 放到每个 sub-block 之前 , 并在最后一个 Self-attention 后再增加一个 layer normalization 。
总的来说 GPT-2 跟 GPT-1 的区别如 GPT-2 的名字所示 , 他要让语言模型变成 unsupervised multitask learner , [19]给了一个很简洁的对比 , 我搬运过来供大家参考理解:
数据质量:GPT 2 更高 , 进行了筛选
数据广度:GPT 2 更广 ,包含网页数据和各种领域数据
数据数量:GPT 2 更大 , WebText , 800 万网页
数据模型:模型更大 , 15 亿参数
结构变化:变化不大
两阶段 vs 一步到位:GPT 1 是两阶段模型 , 通过语言模型预训练 , 然后通过 Finetuning 训练不同任务参数 。 而 GPT 2 直接通过引入特殊字符 , 从而一步到位解决问题
到了 GPT-3 , 如果去看一下论文就发现其实 GPT-3 更像一个厚厚的技术报告 , 来告诉大家 GPT-3 怎么做到 few-shot 甚至 zero-shot learning , 他的内核细节这里已经没有什么要单独提及的了 , 他的庞大和财大气粗就是他最大的特色(整个英语维基百科(约 600 万个词条)仅占其训练数据的 0.6%) , 如果有机会 , 还是希望大家可以自己去试一下这个模型 , 去体验一下 GPT-3 带来的魅力 。
总结
读完这篇文章 , 估计就可以发现 , 所有的技术都不是凭空而来的 , 都是一点一点进步得来的 , 从源头开始 , 梳理一下一个模型的“集团成员” , 不仅仅可以对这个领域有更深刻的理解 , 对于这个模型的每一块技术 , 都能有更加深刻的理解 。
同时 , 在实际应用的时候 , 不是最新的模型就是最好的 , 还要考虑这个模型的大小是否合适 , 模型在你特定所需的任务上表现是否优秀等等等等 , 对整个 NLP 领域有更广泛的理解 , 你在做选择的时候就更能做出更好地选择 , 而不是在别人问到你为什么选择 BERT 的时候说一句 , “哦 , 我只会 BERT 。 ”
参考文献
[1] Mikolov, Tomas; et al. (2013). "Efficient Estimation of Word Representations in Vector Space". arXiv (https://en.wikipedia.org/wiki/ArXiv_(identifier)):1301.3781 (https://arxiv.org/abs/1301.3781) [cs.CL (https://arxiv.org/archive/cs.CL)].
[2]Mikolov, Tomas (2013). "Distributed representations of words and phrases and their compositionality". Advances in neural information processing systems.
[3] Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, & Luke Zettlemoyer. (2018). Deep contextualized word representations.