深度学习Adam又要“退休”了？耶鲁大学团队提出AdaBelief优化器( 二 ) |优化器|AI|

在CIFAR-10和CIFAR-100数据集上，用VGG11、ResNet34和DenseNet121三种网络进行训练， AdaBelief都显示出更好的收敛结果。
而且在ImageNet数据上， AdaBelief在Top-1准确率上仅次于SGD 。

本文插图
时间序列建模
在Penn TreeBank数据集上，用LSTM进行实验， AdaBelief都实现了最低的困惑度。

本文插图
GAN
在WGAN和WGAN-GP上的实验表明，经AdaBelief训练的结果都得到了最低的FID 。

本文插图
网友质疑
虽然AdaBelief在多个任务上取得了不错的效果，但该方法还是遭到不少网友质疑。
因为这些年来号称取代Adam的优化器不计其数，但最终获得时间检验的却寥寥无几。
网友首先质疑的是实验baseline的选取问题。
有人认为，在CIFAR上，很难相信2020年SOTA模型的准确率低于96％，因此AdaBelief论文最终在选取baseline时有可能是选择了与不太好的结果进行比较。
在ImageNet测试的表2里，为什么要使用ResNet18代替更标准的ResNet50？而且AdaBelief不是最优结果，却用加粗方式标出，容易让人产生误解。绝妙的技巧是将提出的方法的得分加粗。
另外，还有人在作者未测试的NLP任务上进行实验，很快AdaBelief就“崩溃”了，而SGD能够很好地收敛。

本文插图
【深度学习Adam又要“退休”了？耶鲁大学团队提出AdaBelief优化器】AdaBelief不会是最后一个意图取代Adam的优化器，它的泛化能力究竟如何，还有待更多研究者进一步地检验。