深度学习Adam又要“退休”了?耶鲁大学团队提出AdaBelief优化器( 二 )
在CIFAR-10和CIFAR-100数据集上 , 用VGG11、ResNet34和DenseNet121三种网络进行训练 , AdaBelief都显示出更好的收敛结果 。
而且在ImageNet数据上 , AdaBelief在Top-1准确率上仅次于SGD 。
本文插图
时间序列建模
在Penn TreeBank数据集上 , 用LSTM进行实验 , AdaBelief都实现了最低的困惑度 。
本文插图
GAN
在WGAN和WGAN-GP上的实验表明 , 经AdaBelief训练的结果都得到了最低的FID 。
本文插图
网友质疑
虽然AdaBelief在多个任务上取得了不错的效果 , 但该方法还是遭到不少网友质疑 。
因为这些年来号称取代Adam的优化器不计其数 , 但最终获得时间检验的却寥寥无几 。
网友首先质疑的是实验baseline的选取问题 。
有人认为 , 在CIFAR上 , 很难相信2020年SOTA模型的准确率低于96% , 因此AdaBelief论文最终在选取baseline时有可能是选择了与不太好的结果进行比较 。
在ImageNet测试的表2里 , 为什么要使用ResNet18代替更标准的ResNet50?而且AdaBelief不是最优结果 , 却用加粗方式标出 , 容易让人产生误解 。 绝妙的技巧是将提出的方法的得分加粗 。
另外 , 还有人在作者未测试的NLP任务上进行实验 , 很快AdaBelief就“崩溃”了 , 而SGD能够很好地收敛 。
本文插图
【深度学习Adam又要“退休”了?耶鲁大学团队提出AdaBelief优化器】AdaBelief不会是最后一个意图取代Adam的优化器 , 它的泛化能力究竟如何 , 还有待更多研究者进一步地检验 。
- 中国地震局网站|震源深度380千米,班达海发生5.5级地震
- 静安区委组织部|静安区社会组织联合会:“活学活用”让学习教育“有声有色”
- 中国酒业财经|筑牢根基:金徽酒生产团队赴五粮液考察学习,学习标杆
- C114通信网|助力MEC“乘风破浪”,专访诺基亚贝尔周新宇:深度挖掘三大价值
- 重磅!政治局集体学习量子科技,量子通信板块集体上涨,最全概念股名单来了
- 上海市体育局网站|[场馆设施中心]场馆设施中心退休党支部开展“四史”学习教育组织生活
- 上海市体育局网站|[场馆设施中心]召开青年学习交流会
- 上海市体育局网站|[二体校](体育中学)、田径运动中心开展党风廉政警示教育学习会
- 共识区块链|以太坊金融股权UFI亮点深度剖析
- 2020创想联盟大会宁夏考察团:考察学习促发展 交流互动共提升