深度学习面试79题:涵盖深度学习所有考点(66-79)( 四 )

在 Sebastian Ruder 的这篇论文中给出了常用优化器的比较 , 今天来学习一下:
本文将梳理:
每个算法的梯度更新规则和缺点
为了应对这个不足而提出的下一个算法
超参数的一般设定值
几种算法的效果比较
选择哪种算法
74、Adam 算法的原理机制是怎么样的?它与相关的 AdaGrad 和 RMSProp 方法有什么区别深度学习常常需要大量的时间和机算资源进行训练 , 这也是困扰深度学习算法开发的重大原因 。 虽然我们可以采用分布式并行训练加速模型的学习 , 但所需的计算资源并没有丝毫减少 。 而唯有需要资源更少、令模型收敛更快的最优化算法 , 才能从根本上加速机器的学习速度和效果 , Adam 算法正为此而生!
Adam 优化算法是随机梯度下降算法的扩展式 , 近来其广泛用于深度学习应用中 , 尤其是计算机视觉和自然语言处理等任务 。 本文分为两部分 , 前一部分简要介绍了 Adam 优化算法的特性和其在深度学习中的应用 , 后一部分从 Adam 优化算法的原论文出发 , 详细解释和推导了它的算法过程和更新规则 。
我们希望读者在读完两部分后能了解掌握以下几点:
Adam 算法是什么 , 它为优化深度学习模型带来了哪些优势 。
Adam 算法的原理机制是怎么样的 , 它与相关的 AdaGrad 和 RMSProp 方法有什么区别 。
Adam 算法应该如何调参 , 它常用的配置参数是怎么样的 。
Adam 的实现优化的过程和权重更新规则
Adam 的初始化偏差修正的推导Adam 的扩展形式:AdaMax
强化学习(Reinforcement Learning, RL) , 又称增强学习 , 是机器学习的范式和方法论之一 , 用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 。
监督学习一般有标签信息 , 而且是单步决策问题 , 比如分类问题 。 监督学习的样本一般是独立同分布的 。 无监督学习没有任何标签信息 , 一般对应的是聚类问题 。 强化学习介于监督和无监督学 习之间 , 每一步决策之后会有一个标量的反馈信号 , 即回报 。 通过最大化回报以获得一个最优策略 。因此强化学习一般是多步决策 , 并且样本之间有强的相关性 。
强化学习适合于解决模型未知 , 且当前决策会影响环境状态的(序列)决策问题 。
一般是根据经验手动调参 , 二分查找 , 参考论文经验参数等 。 如果是搜索超参的话 , 可以使用的方法有:网格搜索、随机搜索、启发式算法搜索和遗传算法搜索 。
谈谈深度学习中的 Batch_Size
Batch_Size(批尺寸)是机器学习中一个重要参数 , 涉及诸多矛盾 , 下面逐一展开 。
首先 , 为什么需要有 Batch_Size 这个参数?