量子位■Transformer训练时间减少40%,谷歌提出“洗发水”二阶优化算法( 二 )


最高提速67%在WMT’14英语到法语翻译的Transformer训练任务中 , 该算法实现了1.67倍的加速 , 将时间减少了40% 。
量子位■Transformer训练时间减少40%,谷歌提出“洗发水”二阶优化算法
文章图片
洗发水算法在和Adam或AdaGrad精度相同的情况下 , 只需后两者实现了约一半的相同的精度AdaGrad或亚当许多步骤 , 而且对学习率的宽容度比AdaGrad高 。
之前异步计算中的N是一个可调参数 , 决定了训练的计算量 , N越大 , 计算量越小 。 当然N也会对结果造成影响 。 我们需要在训练过程的性能和结果的质量之间做出权衡 。
实验表明 , 这种方法可以承受多达1200个步骤的延迟 , 而不会造成任何明显的质量损失 。
量子位■Transformer训练时间减少40%,谷歌提出“洗发水”二阶优化算法
文章图片
洗发水也可以用在图像分类任务中 。
作者还在ImageNet-2012数据集上训练了ResNet-50模型 , 结果比带动量的SGD收敛更快 , 但是训练损失与SGD相近 , 但是在测试集上的效果不如后者 。
量子位■Transformer训练时间减少40%,谷歌提出“洗发水”二阶优化算法
文章图片
量子位■Transformer训练时间减少40%,谷歌提出“洗发水”二阶优化算法
文章图片
至于在泛化能力上的劣势 , 洗发水算法还有待进一步的改进 。
论文地址:
https://arxiv.org/abs/2002.09018
https://arxiv.org/abs/1802.09568
—完—
量子位QbitAI·***签约作者
?'?'?追踪AI技术和产品新动态