【变形金刚】ICLR 2020上，Transformers 有何新动向？ |文章|何新|人工智能|

本文插图
雷锋网AI科技评论：继昨天的「知识图谱@ICLR2020」之后，我们今天关注ICLR 2020 上 Transformer的研究动态。
Transformers ，作为一种基于注意力的神经架构，在自然语言处理中已经无处不在，在过去一年多的时间里也将自然语言处理推向了新的高度。那么，在ICLR 2020 上有什么新的内容呢？在这篇文章中，我们从三个维度：对架构的修改、训练方法的创新以及应用——介绍相关的 9 篇文章。

本文插图
注：文中涉及论文，可关注「AI科技评论」微信公众号，并后台回复「Transformer@ICLR2020」打包下载。
一、对架构的修改 1、轻量级BERT

本文插图
论文：ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
链接：https://openreview.net/pdf?id=H1eA7AEtvS
曾经，预训练是大模型（玩家）的天下，直到出现了 ALBERT 。
预训练自然语言表征时，增加模型大小一般是可以提升模型在下游任务中的性能。但是这种纯粹依赖模型尺寸进而期望大力出奇迹的想法在未来会越发困难。进一步增加模型大小将带来三点困难：1）GPU/TPU内存不足；2）训练时间会更长；3）模型退化。
为了解决这些问题，谷歌研究人员提出了「一个精简的 BERT」（A Lite BERT ， ALBERT），参数量远远少于传统的 BERT 架构，而性能方面则基本一致。
ALBERT的优化包括三个方面
嵌入向量参数化的因式分解：通过使用与词嵌入大小不同的隐藏大小，可以对嵌入参数化进行因式分解，将其大小从O（Vocab×Hidden）减小为O（Vocab×Emb + Emb + Emb×Hidden），当 Hidden >> Emb时，这种减小会有实质性意义。
跨层参数共享：重新使用不同 Transformer 模块的参数，例如FFN 或注意力权重。句子间顺序预测：作者认为从原始的BERT预测下一个句子并不是什么有挑战的事情，因此引入了新的句子级自监督目标。
结果？与BERT-Large相比，参数可减少18倍，性能相当，推理速度稍快。
2、高效 Transformer

本文插图
论文：Reformer: The Efficient Transformer
链接：https://openreview.net/pdf?id=rkgNKkHtvB
Transformer是NLP中广为应用的成熟技术，在许多任务中取得了骄人的成绩，尤其是长序列文本上表现突出，但却极其耗费算力和内存资源， Transformer网络一层的参数量约0.5B ，需要2G的内存空间，单层网络的Transformer在单台机器上尚可满足，但鉴于以下考虑，整个Transformer网络所需要的资源是惊人的：

一个N层的网络需要的内存资源要多于一层所需内存的N倍，因为同时需要存储激活结果，在反向传播时使用。
Transformer前馈全连接神经网络的宽度（神经单元数）要比attention激活的宽度（可理解为embedding的size）多，需要更多的内存消耗。
对一个长度为L的序列， Attention层的复杂度是，这对长序列文本处理是无法接受的。

本文插图
Source: Reformer: The Efficient Transformer
这篇文章通过下面几项技术解决上面提到的几个问题：