技术编程ACL 2020 | MobileBERT:一种与任务无关的模型压缩方法( 二 )
本文插图
3.3 Pre-training Distillation (PD)
除了 layer-wise 的知识转移外 , 作者还在对 MobileBERT 进行预训练时使用知识蒸馏损失 。 作者使用原始的线性组合掩码语言模型(MLM) , 下一句预测(NSP)和新的 MLM 知识蒸馏(KD)是我们的预训练蒸馏损失:
鉴于上述 target , 在训练中可以有各种组合策略 。 作者讨论了三种策略 。
本文插图
辅助知识迁移
在这个策略中将中间知识转移视为知识蒸馏的辅助任务 。 使用 single 损失 , 这是来自所有层的知识转移损失以及预训练蒸馏损失 。
联合知识迁移
IB-BERT 的中级知识(即attention map和feature map)可能不是 MobileBERT 学生的最佳解决方案 。 因此 , 作者建议将这两个 Loss 分开 。 首先在 MobileBERT 上训练所有 layer-wise 知识转移损失 , 然后通过预训练蒸馏进一步训练它 。
渐进知识转移
作者也担心如果 MobileBERT 无法完美模仿 IB-BERT , 下层可能会影响更高的层次的知识转移 。 因此 , 作者建议逐步培训知识转移的每一层 。 渐进式知识转移分为 L 个阶段 , 其中 L 是层数 。
实验结果
表格还是很清晰的 , 就不多做解释了 。
本文插图
本文插图
本文插图
本文插图
本文插图
本文插图
结论
本文介绍了 MobileBERT , 它是 BERT 的与任务无关的紧凑型变体 。 流行的 NLP 基准测试 GLUE 的经验结果表明 , MobileBERT 与 BERT-base 相当 , 但体积更小 , 速度更快 。
? 稿件确系个人 原创作品 , 来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
? PaperWeekly 默认每篇文章都是首发 , 均会添加“原创”标志
- 更名为广东职业技术师范学院天河学院
- 36氪利用无人驾驶技术切入水域智慧环卫与维护,“欧卡智能”获千万元级融资
- 上游新闻|精度达到2-3米,北斗系统发言人:中国北斗攻克160余项关键技术
- IT之家|三星Galaxy Note 20将搭载UWP技术 传文件比NFC更快
- 央视新闻客户端|北斗系统工程新技术应用超过70%
- 问董秘|提供设备和技术的正是克劳...,投资者提问:中石油系统已经大量加入做聚丙烯熔喷料
- 我国|我国封锁“世界唯一专利”,日本出3000亿要买,美国要求技术共享
- 检测|辽宁派16支核酸检测医疗队驰援大连,研发10合1混采技术
- 北斗办:北斗与5G融合将推动无人驾驶等技术发展
- 北斗系统工程新技术应用超过70%