【变形金刚】ICLR 2020上,Transformers 有何新动向?( 二 )


  • 使用可逆残差层取代标准残差层 , 在训练阶段只需要存储一层的激活结果而不是N层(N是网络层数)(消除了网络中N的倍数) 。
  • 分离前馈全连接层的激活部分 , 分区块进行处理 , 消除对内存的消耗 。
  • 使用局部敏感哈希(Local-Sensitive Hashing, LSH)技术把计算attention部分的复杂度O(L2)(主要来自于点乘)从降至O(L log L)(其中L代表序列长度) 。

3、CPU 上的 Transformer
【变形金刚】ICLR 2020上,Transformers 有何新动向?
本文插图
论文:Lite Transformer with Long-Short Range Attention (LSRA)
链接:https://openreview.net/pdf?id=ByeMPlHKPH
这篇文章针对Transformer 在mobile device(CPU)上做了改进 。
Transformer 要实现高性能 , 需要大量计算 , 这显然不适用于受硬件限制的移动设备 。 在这篇文章中 , 作者提出了一种高效的移动端的轻量级的 Transformer , 以此来促进在边缘设备上部署NLP应用程序 。
【变形金刚】ICLR 2020上,Transformers 有何新动向?
本文插图

【变形金刚】ICLR 2020上,Transformers 有何新动向?
本文插图
Source: Lite Transformer with Long-Short Range Attention (LSRA)
关键点是 , 作者提出了一个长短距离注意力(Long-Short Range Attention , LSRA) , 其中一组heads专门(通过卷积)对局部上下文进行建模 , 另一组heads(通过注意力)对长程关系进行建模 。
这个模型虽然在最终结果上与那些大型Transformer不可比 , 但1)其研究动机;2)其创新性的架构 , 值得我们重点关注 。
目前这篇文章已经开源:https://github.com/mit-han-lab/lite-transformer
二、训练方法的创新 Transformer架构重要 , 训练方法也同样 。 在今年的ICLR上出现了不少令人耳目一新的训练方法 。
4、ELECTRA:GAN的巧妙运用
【变形金刚】ICLR 2020上,Transformers 有何新动向?
本文插图
论文:ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
链接:https://openreview.net/pdf?id=r1xMH1BtvB
这是斯坦福SAIL实验室Manning组与谷歌合作的工作 。 ELECTRA的全称是Efficiently Learning an Encoder that Classifies Token Replacements Accurately 。 网传这是2019年最佳NLP预训练模型 。
在去年11月份 , ELECTRA一经发布 , 迅速火爆整个NLP圈 , 其中ELECTRA-small模型参数量仅为 BERT-base模型的1/10 , 性能却依然能与BERT、RoBERTa等模型相媲美 。
在前不久 , 谷歌也开源了ELECTRA , 并发布了预训练模型 。 中文社区 , 哈工大讯飞联合实验室(HFL)基于ELECTRA开源代码 , 也发布了中文版的 ELECTRA 预训练模型 。 https://github.com/ymcui/Chinese-ELECTRA
感受一下ELECTRA的效果:
【变形金刚】ICLR 2020上,Transformers 有何新动向?
本文插图
Source: ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
ELECTRA能够取得如此优异结果 , 基于其新颖的预训练框架 , 其中包含两个部分:Generator和Discriminator 。
【变形金刚】ICLR 2020上,Transformers 有何新动向?
本文插图
Generator: 一个小的MLM , 在[MASK]的位置预测原来的词 。 Generator将用来把输入文本做部分词的替换 。