【变形金刚】ICLR 2020上,Transformers 有何新动向?( 二 )
- 使用可逆残差层取代标准残差层 , 在训练阶段只需要存储一层的激活结果而不是N层(N是网络层数)(消除了网络中N的倍数) 。
- 分离前馈全连接层的激活部分 , 分区块进行处理 , 消除对内存的消耗 。
- 使用局部敏感哈希(Local-Sensitive Hashing, LSH)技术把计算attention部分的复杂度O(L2)(主要来自于点乘)从降至O(L log L)(其中L代表序列长度) 。
3、CPU 上的 Transformer
本文插图
论文:Lite Transformer with Long-Short Range Attention (LSRA)
链接:https://openreview.net/pdf?id=ByeMPlHKPH
这篇文章针对Transformer 在mobile device(CPU)上做了改进 。
Transformer 要实现高性能 , 需要大量计算 , 这显然不适用于受硬件限制的移动设备 。 在这篇文章中 , 作者提出了一种高效的移动端的轻量级的 Transformer , 以此来促进在边缘设备上部署NLP应用程序 。
本文插图
本文插图
Source: Lite Transformer with Long-Short Range Attention (LSRA)
关键点是 , 作者提出了一个长短距离注意力(Long-Short Range Attention , LSRA) , 其中一组heads专门(通过卷积)对局部上下文进行建模 , 另一组heads(通过注意力)对长程关系进行建模 。
这个模型虽然在最终结果上与那些大型Transformer不可比 , 但1)其研究动机;2)其创新性的架构 , 值得我们重点关注 。
目前这篇文章已经开源:https://github.com/mit-han-lab/lite-transformer
二、训练方法的创新 Transformer架构重要 , 训练方法也同样 。 在今年的ICLR上出现了不少令人耳目一新的训练方法 。
4、ELECTRA:GAN的巧妙运用
本文插图
论文:ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
链接:https://openreview.net/pdf?id=r1xMH1BtvB
这是斯坦福SAIL实验室Manning组与谷歌合作的工作 。 ELECTRA的全称是Efficiently Learning an Encoder that Classifies Token Replacements Accurately 。 网传这是2019年最佳NLP预训练模型 。
在去年11月份 , ELECTRA一经发布 , 迅速火爆整个NLP圈 , 其中ELECTRA-small模型参数量仅为 BERT-base模型的1/10 , 性能却依然能与BERT、RoBERTa等模型相媲美 。
在前不久 , 谷歌也开源了ELECTRA , 并发布了预训练模型 。 中文社区 , 哈工大讯飞联合实验室(HFL)基于ELECTRA开源代码 , 也发布了中文版的 ELECTRA 预训练模型 。 https://github.com/ymcui/Chinese-ELECTRA
感受一下ELECTRA的效果:
本文插图
Source: ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
ELECTRA能够取得如此优异结果 , 基于其新颖的预训练框架 , 其中包含两个部分:Generator和Discriminator 。
本文插图
Generator: 一个小的MLM , 在[MASK]的位置预测原来的词 。 Generator将用来把输入文本做部分词的替换 。
- 标志情报局TB发布全新品牌字体,2020真蓝!魅族更新LOGO品牌色
- 娱乐大爆料康崇利:2020年5月十大金股及市场展望
- 『中国』相约云上!省发改委牵头召开云上2020年中国品牌日活动福建分会场新闻通气会
- 缓缓静水流深不语中科大、北大、南京大学进入前三,2020中国一流大学排行榜出炉
- [教育局]实锤了!教育局发布了2020年暑假放假的通知
- 爵士浩南2020年5月装机配置推荐,4000元科学装机,性价比巨高
- 『深圳市』最新!吉林省疫情通报来了
- 「临床医学」2020广州一模理科数学试题及答案
- 爵士浩南4000元科学装机,性价比巨高,2020年5月装机配置推荐
- 前瞻网产销量逆向增长、市场价格再度回升,2020年中国电解铝行业发展现状分析