研究员们提出|忒修斯之船启发下的知识蒸馏新思路( 二 )


利用Theseus 压缩方法压缩得到的 BERT 模型运算速度是之前的1.94 倍,并且保留了原始模型超过 98% 的性能,优于其它基于知识蒸馏的压缩的基线方法。
研究员们提出|忒修斯之船启发下的知识蒸馏新思路
文章插图
通过在预训练语言模型 BERT 上的成功实验,微软亚洲研究院的研究员们希望可以为模型压缩打开一种全新的思路,并希望看到这一方法在计算机视觉等领域的更广泛应用。