深度学习面试79题:涵盖深度学习所有考点(66-79)( 三 )


本题解析来源于:如何理解随机梯度下降(stochastic gradient descent , SGD)?
理解随机梯度下降 , 首先要知道梯度下降法 , 故先介绍梯度下降法:
梯度下降法
大多数机器学习或者深度学习算法都涉及某种形式的优化 。优化指的是改变以最小化或最大化某个函数的任务 。我们通常以最小化指代大多数最优化问题 。最大化可经由最小化算法最小化来实现 。
我们把要最小化或最大化的函数称为目标函数或准则 。当我们对其进行最小化时 , 我们也把它称为代价函数、损失函数或误差函数 。
著名的模拟退火算法 , 它是一种基于蒙特卡洛思想设计的近似求解最优化问题的方法 。
一点历史——如果你不感兴趣 , 可以跳过
美国物理学家 N.Metropolis 和同仁在1953年发表研究复杂系统、计算其中能量分布的文章 , 他们使用蒙特卡罗模拟法计算多分子系统中分子的能量分布 。 这相当于是本文所探讨之问题的开始 , 事实上 , 模拟退火中常常被提到的一个名词就是Metropolis准则 , 后面我们还会介绍 。
美国IBM公司物理学家 S.Kirkpatrick、C. D. Gelatt 和 M. P. Vecchi 于1983年在《Science》上发表了一篇颇具影响力的文章:《以模拟退火法进行最优化(Optimization by Simulated Annealing)》 。 他们借用了Metropolis等人的方法探讨一种旋转玻璃态系统(spin glass system)时 , 发觉其物理系统的能量和一些组合最优(combinatorial optimization)问题(著名的旅行推销员问题TSP即是一个代表例子)的成本函数相当类似:寻求最低成本即似寻求最低能量 。 由此 , 他们发展出以 Metropolis 方法为本的一套算法 , 并用其来解决组合问题等的寻求最优解 。
几乎同时 , 欧洲物理学家 V.Carny 也发表了几乎相同的成果 , 但两者是各自独立发现的;只是Carny“运气不佳” , 当时没什么人注意到他的大作;或许可以说 , 《Science》杂志行销全球 , “曝光度”很高 , 素负盛名 , 而Carny却在另外一本发行量很小的专门学术期刊《J.Opt.Theory Appl.》发表其成果因而并未引起应有的关注 。
Kirkpatrick等人受到Metropolis等人用蒙特卡罗模拟的启发而发明了“模拟退火”这个名词 , 因为它和物体退火过程相类似 。 寻找问题的最优解(最值)即类似寻找系统的最低能量 。 因此系统降温时 , 能量也逐渐下降 , 而同样意义地 , 问题的解也“下降”到最值 。
73、请说下常见优化方法各自的优缺点(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)在机器学习、深度学习中使用的优化算法除了常见的梯度下降 , 还有 Adadelta , Adagrad , RMSProp 等几种优化器 , 都是什么呢 , 又该怎么选择呢?
【深度学习面试79题:涵盖深度学习所有考点(66-79)】