【变形金刚】ICLR 2020上，Transformers 有何新动向？( 二 ) |文章|何新|人工智能|

使用可逆残差层取代标准残差层，在训练阶段只需要存储一层的激活结果而不是N层（N是网络层数）（消除了网络中N的倍数）。
分离前馈全连接层的激活部分，分区块进行处理，消除对内存的消耗。
使用局部敏感哈希（Local-Sensitive Hashing, LSH）技术把计算attention部分的复杂度O（L2）（主要来自于点乘）从降至O（L log L）（其中L代表序列长度）。

3、CPU 上的 Transformer

本文插图
论文：Lite Transformer with Long-Short Range Attention (LSRA)
链接：https://openreview.net/pdf?id=ByeMPlHKPH
这篇文章针对Transformer 在mobile device（CPU）上做了改进。
Transformer 要实现高性能，需要大量计算，这显然不适用于受硬件限制的移动设备。在这篇文章中，作者提出了一种高效的移动端的轻量级的 Transformer ，以此来促进在边缘设备上部署NLP应用程序。

本文插图

本文插图
Source: Lite Transformer with Long-Short Range Attention (LSRA)
关键点是，作者提出了一个长短距离注意力(Long-Short Range Attention ， LSRA），其中一组heads专门（通过卷积）对局部上下文进行建模，另一组heads（通过注意力）对长程关系进行建模。
这个模型虽然在最终结果上与那些大型Transformer不可比，但1）其研究动机；2）其创新性的架构，值得我们重点关注。
目前这篇文章已经开源：https://github.com/mit-han-lab/lite-transformer
二、训练方法的创新 Transformer架构重要，训练方法也同样。在今年的ICLR上出现了不少令人耳目一新的训练方法。
4、ELECTRA：GAN的巧妙运用

本文插图
论文：ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
链接：https://openreview.net/pdf?id=r1xMH1BtvB
这是斯坦福SAIL实验室Manning组与谷歌合作的工作。 ELECTRA的全称是Efficiently Learning an Encoder that Classifies Token Replacements Accurately 。网传这是2019年最佳NLP预训练模型。
在去年11月份， ELECTRA一经发布，迅速火爆整个NLP圈，其中ELECTRA-small模型参数量仅为 BERT-base模型的1/10 ，性能却依然能与BERT、RoBERTa等模型相媲美。
在前不久，谷歌也开源了ELECTRA ，并发布了预训练模型。中文社区，哈工大讯飞联合实验室（HFL）基于ELECTRA开源代码，也发布了中文版的 ELECTRA 预训练模型。 https://github.com/ymcui/Chinese-ELECTRA
感受一下ELECTRA的效果：

本文插图
Source: ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
ELECTRA能够取得如此优异结果，基于其新颖的预训练框架，其中包含两个部分：Generator和Discriminator 。

本文插图
Generator: 一个小的MLM ，在[MASK]的位置预测原来的词。 Generator将用来把输入文本做部分词的替换。