ACL2020| 模型压缩25倍,MIT韩松组提出高效适配不同硬件的HAT模型( 四 )


实验表明 , 他们的预测器可以得到很精确的结果 , 在树莓派上的 RMSE 仅为 0.1 秒:
ACL2020| 模型压缩25倍,MIT韩松组提出高效适配不同硬件的HAT模型
本文插图
图 9: 运行时间预测器 。
最终 , 他们将搜得的子网络从头进行一次完整的训练 , 并测试得到最终的模型精度 。
实验
研究者在四个机器翻译任务和三种硬件平台上进行了实验和分析 。 四个任务为:WMT‘14 EN-De(英语 - 德语)、WMT’14 EN-Fr(英语 - 法语)、WMT’19 EN-DE(英语 - 德语)、IWSLT‘14 De-En(德语 - 英语);三种硬件为:配备 ARM Cortex-A72 CPU 的树莓派、Intel Xeon E5-2640 CPU 和 Nvidia TITAN Xp GPU 。
与基线 Transformer 对比
在多种平台和任务中 , HAT 相比基线 Transformer 均有更好的精度 - 速度 trade-off 曲线 , 在相同精度下可取得 3 倍加速和 3.7 倍的模型压缩 。
ACL2020| 模型压缩25倍,MIT韩松组提出高效适配不同硬件的HAT模型
本文插图
图 10:HAT 相比基线 Transformer 有更好的精度 - 速度 trade-off 。
专用模型的必要性
两个搜索得到的模型表现如下 。 可以看到 , GPU 高效模型在 ARM CPU 上并不是最高效的 , ARM CPU 高效模型在 GPU 上也不高效 。 这进一步证明了为不同硬件设计专用模型的必要性 。

ACL2020| 模型压缩25倍,MIT韩松组提出高效适配不同硬件的HAT模型
本文插图
图 11:有必要为不同硬件设计专用模型 。
与 Evolved Transformer 对比
在树莓派上运行 WMT‘14 EN-Fr(英语 - 法语)任务时 , 相比 Evolved Transformer , HAT 可以取得 2.7 倍加速 , 3.7 倍模型压缩 , 3.2 倍计算量降低 , 并节省超过 1 万倍的搜索开销 。
ACL2020| 模型压缩25倍,MIT韩松组提出高效适配不同硬件的HAT模型
本文插图
图 12:HAT 与 Evolved Transformer 对比 。
与 Levenshtein Transformer 和 Lite Transformer 对比
下图为不同模型在树莓派上运行 WMT‘14 EN-De(英语 - 德语)任务的对比 。 相比其他模型 , HAT 可以获得最高的 BLEU 和最低的运行时间 。 值得注意的是 , HAT 方法与 Levenshtein 和 Lite Transformer 中提出的新操作具有正交性(Orthogonal) , 可以结合使用 。
ACL2020| 模型压缩25倍,MIT韩松组提出高效适配不同硬件的HAT模型
本文插图
图 13:HAT 与 Levenshtein Transformer 和 Lite Transformer 等对比 。
与其他压缩方法相兼容
下图为在 WMT’14 EN-Fr(英语 - 法语)任务上 , 对 HAT 搜索模型进行量化的结果 , 在 4-bit 量化的情况下 , HAT 模型与基线 Transformer 有相近的精度 , 但是模型大小可压缩 25 倍 。
ACL2020| 模型压缩25倍,MIT韩松组提出高效适配不同硬件的HAT模型
本文插图
图 14:HAT 与通用模型压缩方法兼容 , 获得 25 倍压缩 。
【ACL2020| 模型压缩25倍,MIT韩松组提出高效适配不同硬件的HAT模型】最后 , 研究者表示 , 他们将在 ACL 2020 大会上介绍自己的工作 , 在线问答将在 7 月 8 日北京时间晚 21 点 @13B Machine Translation-15 频道以及 7 月 9 日北京时间早 5 点 @15B Machine Translation-18 频道进行 , 感兴趣的老师、同学和工业界同事们可以前去交流 。