ACL2020| 模型压缩25倍,MIT韩松组提出高效适配不同硬件的HAT模型( 四 )

实验表明，他们的预测器可以得到很精确的结果，在树莓派上的 RMSE 仅为 0.1 秒：

本文插图
图 9: 运行时间预测器。
最终，他们将搜得的子网络从头进行一次完整的训练，并测试得到最终的模型精度。
实验
研究者在四个机器翻译任务和三种硬件平台上进行了实验和分析。四个任务为：WMT‘14 EN-De（英语 - 德语）、WMT’14 EN-Fr（英语 - 法语）、WMT’19 EN-DE（英语 - 德语）、IWSLT‘14 De-En（德语 - 英语）；三种硬件为：配备 ARM Cortex-A72 CPU 的树莓派、Intel Xeon E5-2640 CPU 和 Nvidia TITAN Xp GPU 。
与基线 Transformer 对比
在多种平台和任务中， HAT 相比基线 Transformer 均有更好的精度 - 速度 trade-off 曲线，在相同精度下可取得 3 倍加速和 3.7 倍的模型压缩。

本文插图
图 10：HAT 相比基线 Transformer 有更好的精度 - 速度 trade-off 。
专用模型的必要性
两个搜索得到的模型表现如下。可以看到， GPU 高效模型在 ARM CPU 上并不是最高效的， ARM CPU 高效模型在 GPU 上也不高效。这进一步证明了为不同硬件设计专用模型的必要性。

本文插图
图 11：有必要为不同硬件设计专用模型。
与 Evolved Transformer 对比
在树莓派上运行 WMT‘14 EN-Fr（英语 - 法语）任务时，相比 Evolved Transformer ， HAT 可以取得 2.7 倍加速， 3.7 倍模型压缩， 3.2 倍计算量降低，并节省超过 1 万倍的搜索开销。

本文插图
图 12：HAT 与 Evolved Transformer 对比。
与 Levenshtein Transformer 和 Lite Transformer 对比
下图为不同模型在树莓派上运行 WMT‘14 EN-De（英语 - 德语）任务的对比。相比其他模型， HAT 可以获得最高的 BLEU 和最低的运行时间。值得注意的是， HAT 方法与 Levenshtein 和 Lite Transformer 中提出的新操作具有正交性（Orthogonal），可以结合使用。

本文插图
图 13：HAT 与 Levenshtein Transformer 和 Lite Transformer 等对比。
与其他压缩方法相兼容
下图为在 WMT’14 EN-Fr（英语 - 法语）任务上，对 HAT 搜索模型进行量化的结果，在 4-bit 量化的情况下， HAT 模型与基线 Transformer 有相近的精度，但是模型大小可压缩 25 倍。

本文插图
图 14：HAT 与通用模型压缩方法兼容，获得 25 倍压缩。
【ACL2020| 模型压缩25倍,MIT韩松组提出高效适配不同硬件的HAT模型】最后，研究者表示，他们将在 ACL 2020 大会上介绍自己的工作，在线问答将在 7 月 8 日北京时间晚 21 点 @13B Machine Translation-15 频道以及 7 月 9 日北京时间早 5 点 @15B Machine Translation-18 频道进行，感兴趣的老师、同学和工业界同事们可以前去交流。