井贤栋|可视化损失函数空间三维图( 三 )


另一方面 , 在某些情况下 , 某些单元对网络的大权值的扰动影响很小 。 但是有时对同一单元的敏感权重做同样的操作可能会造成混乱 。 为了解决这个问题 , 可以将随机生成的方向向量(如\uD835\uDEFF)归一化 , 使其具有与\uD835\uDEC9*相同的方向 。 更具体地说 , \uD835\uDEFF中的每个filer与\uD835\uDEC9*[3
中的对应层方向相同:
这样做的好处是当方向(\uD835\uDEFF和\uD835\uDF02)以[3
的方式归一化时 , 等高线图能够捕捉损失表面的距离比例(例如 , 比较上面的两个图) 。
确定解空间(solution space)区域
考虑两组经过训练的参数:\uD835\uDEC9? 和 \uD835\uDEC9? 。前者在大BS的数据集上训练 , 后者在小BS上训练 。两组参数的插值显示解决方案空间的宽度取决于批的大小 。
例如 , 考虑以下轮廓从一个用 256 的批大小训练的模型 (13.74MB) 生成 , 而上面的一个用 64 的批大小训练的 。
许多起伏说明 , 当使用大BS时 , 得到的权重往往小于小BS得到的权重[3

使用两个训练过的参数\uD835\uDEC9?和\uD835\uDEC9? , 以下参数是插值:
def tau_compare(alpha theta_l theta_s):
 return theta_s + alpha * (theta_l - theta_s)
这个插值现在是一个基于批大小64到256之间的参数的函数 。 这种比较有助于发现更改批大小是否能够产生更好的优化 。
虽然这只是基于批量大小寻找好的解决方案空间的一个例子 , 但其他参数和超参数也可以优化 。一些关键要点 [3
包括以下内容:

  1. 更宽的网络可以防止混乱的局面
  2. 跳过连接会扩大解空间(或最小化方案)
  3. 空间中有浅谷会导致训练和测试的损失不理想
  4. 视觉上更平坦空间会对应较低的测试误差
引用
  1. Ian J Goodfellow Oriol Vinyals and Andrew M Saxe. Qualitatively characterizing neural network optimization problems. In ICLR 2015
  2. Daniel Jiwoong ImMichael Tao and Kristin Branson. An empirical analysis of deep network loss surfaces. arXiv:1612.04010 2016
  3. Hao Li Zheng Xu Gavin Taylor Christoph Studer Tom Goldstein: Visualizing the Loss Landscape of Neural Nets. In NeurIPS 2018
  4. Laurent Dinh Razvan Pascanu Samy Bengio and Yoshua Bengio. Sharp minima can generalize for deep nets. In ICML 2017
  5. Kenji Kawaguchi Leslie Pack Kaelbling and Yoshua Bengio. Generalization in deep learning. arXiv:1710.05468 2017
作者:Sujal Vijayaraghavan