技术编程ACL 2020 | MobileBERT:一种与任务无关的模型压缩方法( 二 )


技术编程ACL 2020 | MobileBERT:一种与任务无关的模型压缩方法
本文插图
3.3 Pre-training Distillation (PD)
除了 layer-wise 的知识转移外 , 作者还在对 MobileBERT 进行预训练时使用知识蒸馏损失 。 作者使用原始的线性组合掩码语言模型(MLM) , 下一句预测(NSP)和新的 MLM 知识蒸馏(KD)是我们的预训练蒸馏损失:
鉴于上述 target , 在训练中可以有各种组合策略 。 作者讨论了三种策略 。
技术编程ACL 2020 | MobileBERT:一种与任务无关的模型压缩方法
本文插图
辅助知识迁移
在这个策略中将中间知识转移视为知识蒸馏的辅助任务 。 使用 single 损失 , 这是来自所有层的知识转移损失以及预训练蒸馏损失 。
联合知识迁移
IB-BERT 的中级知识(即attention map和feature map)可能不是 MobileBERT 学生的最佳解决方案 。 因此 , 作者建议将这两个 Loss 分开 。 首先在 MobileBERT 上训练所有 layer-wise 知识转移损失 , 然后通过预训练蒸馏进一步训练它 。
渐进知识转移
作者也担心如果 MobileBERT 无法完美模仿 IB-BERT , 下层可能会影响更高的层次的知识转移 。 因此 , 作者建议逐步培训知识转移的每一层 。 渐进式知识转移分为 L 个阶段 , 其中 L 是层数 。
实验结果
表格还是很清晰的 , 就不多做解释了 。
技术编程ACL 2020 | MobileBERT:一种与任务无关的模型压缩方法
本文插图
技术编程ACL 2020 | MobileBERT:一种与任务无关的模型压缩方法
本文插图
技术编程ACL 2020 | MobileBERT:一种与任务无关的模型压缩方法
本文插图
技术编程ACL 2020 | MobileBERT:一种与任务无关的模型压缩方法
本文插图
技术编程ACL 2020 | MobileBERT:一种与任务无关的模型压缩方法
本文插图
技术编程ACL 2020 | MobileBERT:一种与任务无关的模型压缩方法
本文插图
结论
本文介绍了 MobileBERT , 它是 BERT 的与任务无关的紧凑型变体 。 流行的 NLP 基准测试 GLUE 的经验结果表明 , MobileBERT 与 BERT-base 相当 , 但体积更小 , 速度更快 。
? 稿件确系个人 原创作品 , 来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
? PaperWeekly 默认每篇文章都是首发 , 均会添加“原创”标志