机器之心从word2vec开始,说下GPT庞大的家族系谱( 七 )
具体 GPT-1 的具体工作流程如图 13 所示:
本文插图
图 13:如何使用 GPT(OpenAI Transformer)进行 Finetune(图源:http://jalammar.github.io/)
图 14 展示了 GPT-1 给出的 finetune 方案 , 也就是前面说的对应不同任务的 input transformation , 这些方案非常巧妙 , 也取得了很多成功 , 同样也使其获得了广泛的应用 。 但是 GPT-1 的热度并没有 BERT 高 , 因为当时的 GPT-1 没有足够商业头脑 , 媒体宣传度不够 , 从而在其兄弟 BERT 公司开张的时候被当做 “反面典型” 示众 。 当然 , 当时的 GPT 家族野心也不够大 , 他的 few-shot learning 的强大力量还没有展现出来(GPT-2 开始在做的事 , 后面详述) 。
本文插图
图 14:如何进行 Finetune(图源:http://jalammar.github.io/)
小儿子 BERT —— Encoder 也能撑起半边天
在 GPT 的公司开的如日中天的时候 , 小儿子 BERT 也悄悄地长大了 。 叔叔 ELMo 最喜欢他兄弟的这个小儿子 , 所以常常带他来公司玩 , 也会给他讲一讲他们公司的业务 , 因此 “双向信息很重要” 这个概念也在小 BERT 的脑海中深深烙下了烙印 。 当他长大后 , 看到哥哥 GPT 公司的宣传标语时 , 觉得这不就是语言模型吗?不行 , 双向信息都没得到 , 得改!可是他不想直接进叔叔 ELMo 的公司 , 父亲 Transformer 又直接抛弃了叔叔公司的核心技术之一——LSTM , 双向信息无法直接应用在 transformer 中(看一下 LSTM 和基于 self attention 的 Decoder 的工作机制就可以发现 Decoder 没办法像 LSTM 那样获得反向的信息) 。
冥思苦想之后 , 他突然发现 , 父亲的 Encoder 不正是最好的选择吗?哥哥们用了 Decoder 做语言模型 , 那他用 Encoder 不也可以吗 , 而且还能获得双向信息(Masked language Model, MLM) 。 MLM 的大概思想就是本来自注意力机制不是主要注意自己嘛(类似于照镜子) , 那我就挡住你自己的脸 , 让你自己根据兄弟姐妹的样子(前后文信息)来猜自己的样子 , 等你能猜得八九不离十了 , 你就出师了 , 可以干活了 。
但是小 BERT 还是太天真了 , 哥哥们选择 decoder 不是没有理由的 , 比如一个很实际的问题就是 , BERT 既然用的是 Encoder , 因为 encoder 输入的就是一个带 mask 的句子 , 那么怎么去做“双句问题”(如给定两个句子 , 说明是否是表达同一个意思)呢?经过仔细的考量 , BERT 决定再学习一下哥哥们语言模型的特性 , 在预训练的时候加入了 Next sentence prediction 任务——就是给定句子 A , 让你猜句子 B 是不是 A 后面的句子 , 这样句间关系也学到了 。 这个时候 , BERT 公司就可以正式开业了 。 具体业务和工作方式如图 15 所示:
本文插图
图 15:BERT 业务(图源:[10])
最后 , 还是要说一下 Encoder 和 Decoder 的区别 , 其实本质上是自回归模型(Auto regression)和自编码模型(Auto Encoder)的区别 , 他们并不是谁比谁更好的关系 , 而是一种要做权衡的关系 。 BERT 选择了 Encoder 给其带来的一个很重要的问题 , Encoder 不具备 Decoder 的自回归特性(Auto Regressive) , 而自回归特性可以让模型有很明确的概率依据 。 这个区别在 XLNet(不重要的儿子们之一 , 后面会再稍微提一下)提出的时候尤为明显 , 因为 XLNet 属于 Auto Regressive 模型 , 而 BERT 属于 Auto Encoder 模型 , 为了更好地理解 AR 和 AE 模型的差异 , 我们来看一下 BERT 和 XLNet 的目标函数:
- 狼|日本居民区摆出红眼机器“魔鬼狼”,为防熊出没
- 葡萄|到底要不要去葡萄皮?果酒机器:酿葡萄酒
- 穿越火线|CF:除2018圣诞和水晶之心,这些稀有的尼泊尔军刀期待也能送永久!
- 机器之心旷视物流,一个AI独角兽的B面
- 人工智能领军企业达观数据推出新一代RPA智能办公机器人集群
- 当人工智能遇上服务机器人 机器人被赋予了人类的“灵魂”
- 王国之心|switch游戏日报:怪猎崛起新情报!NS版王国之心有望了?
- 智能机器人和机器人对战乒乓球,你玩过吗?要不来试试?
- 海外网|为防熊出没,日本居民区摆出红眼机器“魔鬼狼”[图]
- 读芯术七个关键因素:如何选择出最佳机器学习算法?