深度学习Adam又要“退休”了?耶鲁大学团队提出AdaBelief优化器( 二 )


在CIFAR-10和CIFAR-100数据集上 , 用VGG11、ResNet34和DenseNet121三种网络进行训练 , AdaBelief都显示出更好的收敛结果 。
而且在ImageNet数据上 , AdaBelief在Top-1准确率上仅次于SGD 。
深度学习Adam又要“退休”了?耶鲁大学团队提出AdaBelief优化器
本文插图
时间序列建模
在Penn TreeBank数据集上 , 用LSTM进行实验 , AdaBelief都实现了最低的困惑度 。
深度学习Adam又要“退休”了?耶鲁大学团队提出AdaBelief优化器
本文插图
GAN
在WGAN和WGAN-GP上的实验表明 , 经AdaBelief训练的结果都得到了最低的FID 。
深度学习Adam又要“退休”了?耶鲁大学团队提出AdaBelief优化器
本文插图
网友质疑
虽然AdaBelief在多个任务上取得了不错的效果 , 但该方法还是遭到不少网友质疑 。
因为这些年来号称取代Adam的优化器不计其数 , 但最终获得时间检验的却寥寥无几 。
网友首先质疑的是实验baseline的选取问题 。
有人认为 , 在CIFAR上 , 很难相信2020年SOTA模型的准确率低于96% , 因此AdaBelief论文最终在选取baseline时有可能是选择了与不太好的结果进行比较 。
在ImageNet测试的表2里 , 为什么要使用ResNet18代替更标准的ResNet50?而且AdaBelief不是最优结果 , 却用加粗方式标出 , 容易让人产生误解 。 绝妙的技巧是将提出的方法的得分加粗 。
另外 , 还有人在作者未测试的NLP任务上进行实验 , 很快AdaBelief就“崩溃”了 , 而SGD能够很好地收敛 。
深度学习Adam又要“退休”了?耶鲁大学团队提出AdaBelief优化器
本文插图
【深度学习Adam又要“退休”了?耶鲁大学团队提出AdaBelief优化器】AdaBelief不会是最后一个意图取代Adam的优化器 , 它的泛化能力究竟如何 , 还有待更多研究者进一步地检验 。