量子位■Transformer训练时间减少40%，谷歌提出“洗发水”二阶优化算法( 二 ) 晓查发自凹非寺量子位报道|公众号QbitA

最高提速67%在WMT’14英语到法语翻译的Transformer训练任务中，该算法实现了1.67倍的加速，将时间减少了40% 。

文章图片
洗发水算法在和Adam或AdaGrad精度相同的情况下，只需后两者实现了约一半的相同的精度AdaGrad或亚当许多步骤，而且对学习率的宽容度比AdaGrad高。
之前异步计算中的N是一个可调参数，决定了训练的计算量， N越大，计算量越小。当然N也会对结果造成影响。我们需要在训练过程的性能和结果的质量之间做出权衡。
实验表明，这种方法可以承受多达1200个步骤的延迟，而不会造成任何明显的质量损失。

文章图片
洗发水也可以用在图像分类任务中。
作者还在ImageNet-2012数据集上训练了ResNet-50模型，结果比带动量的SGD收敛更快，但是训练损失与SGD相近，但是在测试集上的效果不如后者。

文章图片

文章图片
至于在泛化能力上的劣势，洗发水算法还有待进一步的改进。
论文地址：
https://arxiv.org/abs/2002.09018
https://arxiv.org/abs/1802.09568
—完—
量子位QbitAI·***签约作者
?'?'?追踪AI技术和产品新动态