#量子位#Transformer训练时间减少40%,谷歌提出“洗发水”二阶优化算法( 二 )
最高提速67%在WMT’14英语到法语翻译的Transformer训练任务中 , 该算法实现了1.67倍的加速 , 将时间减少了40% 。
文章图片
洗发水算法在和Adam或AdaGrad精度相同的情况下 , 只需后两者实现了约一半的相同的精度AdaGrad或亚当许多步骤 , 而且对学习率的宽容度比AdaGrad高 。
之前异步计算中的N是一个可调参数 , 决定了训练的计算量 , N越大 , 计算量越小 。 当然N也会对结果造成影响 。 我们需要在训练过程的性能和结果的质量之间做出权衡 。
实验表明 , 这种方法可以承受多达1200个步骤的延迟 , 而不会造成任何明显的质量损失 。
文章图片
洗发水也可以用在图像分类任务中 。
作者还在ImageNet-2012数据集上训练了ResNet-50模型 , 结果比带动量的SGD收敛更快 , 但是训练损失与SGD相近 , 但是在测试集上的效果不如后者 。
文章图片
文章图片
至于在泛化能力上的劣势 , 洗发水算法还有待进一步的改进 。
论文地址:
https://arxiv.org/abs/2002.09018
https://arxiv.org/abs/1802.09568
—完—
量子位QbitAI·***签约作者
?'?'?追踪AI技术和产品新动态
- [量子位]传狗难,Nature报道新冠病毒新研究:传猫易
- 『科技生活快报』有助研量子电脑,科学家首次在陨石里发现超导电晶体
- 科学家:未来科学8:别睡的太死,你的记忆可能正被盗取,量子科学大发现
- #量子力学#量子力学中最神奇的实验,双缝实验为什么让科学家感到不安?
- 量子位■曾获孙正义重金投资,马斯克星链劲敌申请破产!烧光34亿美元
- 媒体训练营▲爱奇艺随刻将建起优质UP主“引力场”,走在前列优化分成策略
- 量子位@猎豹的最后一根救命稻草,人工智能
- 『量子位』GPU、CPU统统能加速,朱俊彦团队提出GAN压缩算法:计算量减20倍
- 量子位:此前软银宣布出售阿里股份等资产,传孙正义领投滴滴无人车3亿美元融资
- 【量子计算机】中国量子计算机技术究竟是什么水平?中科大教授说出实话让人清醒