量子位■Transformer训练时间减少40%,谷歌提出“洗发水”二阶优化算法( 二 )
最高提速67%在WMT’14英语到法语翻译的Transformer训练任务中 , 该算法实现了1.67倍的加速 , 将时间减少了40% 。
文章图片
洗发水算法在和Adam或AdaGrad精度相同的情况下 , 只需后两者实现了约一半的相同的精度AdaGrad或亚当许多步骤 , 而且对学习率的宽容度比AdaGrad高 。
之前异步计算中的N是一个可调参数 , 决定了训练的计算量 , N越大 , 计算量越小 。 当然N也会对结果造成影响 。 我们需要在训练过程的性能和结果的质量之间做出权衡 。
实验表明 , 这种方法可以承受多达1200个步骤的延迟 , 而不会造成任何明显的质量损失 。
文章图片
洗发水也可以用在图像分类任务中 。
作者还在ImageNet-2012数据集上训练了ResNet-50模型 , 结果比带动量的SGD收敛更快 , 但是训练损失与SGD相近 , 但是在测试集上的效果不如后者 。
文章图片
文章图片
至于在泛化能力上的劣势 , 洗发水算法还有待进一步的改进 。
论文地址:
https://arxiv.org/abs/2002.09018
https://arxiv.org/abs/1802.09568
—完—
量子位QbitAI·***签约作者
?'?'?追踪AI技术和产品新动态
- 「量子位」淘汰人工审核,自动给arXiv打分,船新论文评审Python程序
- 「挖贝网」持有公司64.28%股份,ST量子花任命恽为民为公司董事长兼总经理
- #小评历史#他们自有一套想法,抗战时期的远征军接受的是全美式训练吗?不
- #量子位#苹果破例允许员工将未发布原型机带回家,造新iPhone全靠远程指挥
- #哥哥#春季大练兵!看武警小哥哥如何“玩转”训练场
- 『直播吧』接受三周军事训练,孙兴慜本月将加入济州海军陆战队
- 「娜娜聊娱乐」谈一下我的看法!,方舟子说潘建伟的量子通讯技术是吹牛皮
- 『军中三剑客』美隐身轰炸机编队实弹飞行训练
- 「量子学派」疫情二次爆发计算公式,别大意
- 量子学派■别大意,疫情二次爆发计算公式