深度学习面试79题:涵盖深度学习所有考点(66-79)( 三 )
本题解析来源于:如何理解随机梯度下降(stochastic gradient descent , SGD)?
理解随机梯度下降 , 首先要知道梯度下降法 , 故先介绍梯度下降法:
梯度下降法
大多数机器学习或者深度学习算法都涉及某种形式的优化 。优化指的是改变以最小化或最大化某个函数的任务 。我们通常以最小化指代大多数最优化问题 。最大化可经由最小化算法最小化来实现 。
我们把要最小化或最大化的函数称为目标函数或准则 。当我们对其进行最小化时 , 我们也把它称为代价函数、损失函数或误差函数 。
著名的模拟退火算法 , 它是一种基于蒙特卡洛思想设计的近似求解最优化问题的方法 。
一点历史——如果你不感兴趣 , 可以跳过
美国物理学家 N.Metropolis 和同仁在1953年发表研究复杂系统、计算其中能量分布的文章 , 他们使用蒙特卡罗模拟法计算多分子系统中分子的能量分布 。 这相当于是本文所探讨之问题的开始 , 事实上 , 模拟退火中常常被提到的一个名词就是Metropolis准则 , 后面我们还会介绍 。
美国IBM公司物理学家 S.Kirkpatrick、C. D. Gelatt 和 M. P. Vecchi 于1983年在《Science》上发表了一篇颇具影响力的文章:《以模拟退火法进行最优化(Optimization by Simulated Annealing)》 。 他们借用了Metropolis等人的方法探讨一种旋转玻璃态系统(spin glass system)时 , 发觉其物理系统的能量和一些组合最优(combinatorial optimization)问题(著名的旅行推销员问题TSP即是一个代表例子)的成本函数相当类似:寻求最低成本即似寻求最低能量 。 由此 , 他们发展出以 Metropolis 方法为本的一套算法 , 并用其来解决组合问题等的寻求最优解 。
几乎同时 , 欧洲物理学家 V.Carny 也发表了几乎相同的成果 , 但两者是各自独立发现的;只是Carny“运气不佳” , 当时没什么人注意到他的大作;或许可以说 , 《Science》杂志行销全球 , “曝光度”很高 , 素负盛名 , 而Carny却在另外一本发行量很小的专门学术期刊《J.Opt.Theory Appl.》发表其成果因而并未引起应有的关注 。
Kirkpatrick等人受到Metropolis等人用蒙特卡罗模拟的启发而发明了“模拟退火”这个名词 , 因为它和物体退火过程相类似 。 寻找问题的最优解(最值)即类似寻找系统的最低能量 。 因此系统降温时 , 能量也逐渐下降 , 而同样意义地 , 问题的解也“下降”到最值 。
73、请说下常见优化方法各自的优缺点(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)在机器学习、深度学习中使用的优化算法除了常见的梯度下降 , 还有 Adadelta , Adagrad , RMSProp 等几种优化器 , 都是什么呢 , 又该怎么选择呢?
【深度学习面试79题:涵盖深度学习所有考点(66-79)】
- 亚马逊|机器学习解决了谁是谁的问题
- 华为|华为平板电脑,办公学习都用它!
- 卫星|“将来是他们来学习!”海归科学家钻研“酶”30年,终成业界翘楚
- 欧洲|清华元宇宙深度报告!理论框架产业真相一文看懂,揭秘十大风险 | 智东西内参
- 自动化|腾讯近三年 78 道软件测试面试题(包含答案)
- |深度!详解为何小米手机京东好评率垫底
- Java|2022年如何学习自动化测试?
- 联想|性价比出众的联想小新平板,学习娱乐信手拈来
- 深度学习|面对会议平板的“挤压”,投影机在商务市场的“反击”战或将打响?
- |飞往38万公里外的月球容易,下潜到1万米深度的海底难,为什么?