另一方面 , 在某些情况下 , 某些单元对网络的大权值的扰动影响很小 。 但是有时对同一单元的敏感权重做同样的操作可能会造成混乱 。 为了解决这个问题 , 可以将随机生成的方向向量(如\uD835\uDEFF)归一化 , 使其具有与\uD835\uDEC9*相同的方向 。 更具体地说 , \uD835\uDEFF中的每个filer与\uD835\uDEC9*[3
中的对应层方向相同:
这样做的好处是当方向(\uD835\uDEFF和\uD835\uDF02)以[3
的方式归一化时 , 等高线图能够捕捉损失表面的距离比例(例如 , 比较上面的两个图) 。
确定解空间(solution space)区域
考虑两组经过训练的参数:\uD835\uDEC9? 和 \uD835\uDEC9? 。前者在大BS的数据集上训练 , 后者在小BS上训练 。两组参数的插值显示解决方案空间的宽度取决于批的大小 。
例如 , 考虑以下轮廓从一个用 256 的批大小训练的模型 (13.74MB) 生成 , 而上面的一个用 64 的批大小训练的 。
许多起伏说明 , 当使用大BS时 , 得到的权重往往小于小BS得到的权重[3
。
使用两个训练过的参数\uD835\uDEC9?和\uD835\uDEC9? , 以下参数是插值:
def tau_compare(alpha theta_l theta_s):
return theta_s + alpha * (theta_l - theta_s)
这个插值现在是一个基于批大小64到256之间的参数的函数 。 这种比较有助于发现更改批大小是否能够产生更好的优化 。
虽然这只是基于批量大小寻找好的解决方案空间的一个例子 , 但其他参数和超参数也可以优化 。一些关键要点 [3
包括以下内容:
- 更宽的网络可以防止混乱的局面
- 跳过连接会扩大解空间(或最小化方案)
- 空间中有浅谷会导致训练和测试的损失不理想
- 视觉上更平坦空间会对应较低的测试误差
- Ian J Goodfellow Oriol Vinyals and Andrew M Saxe. Qualitatively characterizing neural network optimization problems. In ICLR 2015
- Daniel Jiwoong ImMichael Tao and Kristin Branson. An empirical analysis of deep network loss surfaces. arXiv:1612.04010 2016
- Hao Li Zheng Xu Gavin Taylor Christoph Studer Tom Goldstein: Visualizing the Loss Landscape of Neural Nets. In NeurIPS 2018
- Laurent Dinh Razvan Pascanu Samy Bengio and Yoshua Bengio. Sharp minima can generalize for deep nets. In ICML 2017
- Kenji Kawaguchi Leslie Pack Kaelbling and Yoshua Bengio. Generalization in deep learning. arXiv:1710.05468 2017
- Linux|整理了10个行业的30份可视化大屏模板,可直接拿走套用
- 高黎贡山|Facebook进元宇宙,快手入新市井,都有美好的未来
- 腾讯|新市井商业,与超5亿老铁共同进击
- 干旱|冰岛开打全球首个岩浆井
- |狂蟒之灾——井里全是蛇
- Netflix|助力网络安全发展,安全态势攻防赛事可视化
- 航天|智慧航天,数字孪生货运飞船运行可视化
- 北新桥|科学解密“锁龙井”拉不完的铁链,真的锁着龙吗?
- 马云|马云成立大井头,5名顾问月薪125万元,只为调动四大势力背后资源
- 无底洞|科拉钻井:是否真的存在“无底洞”?可以确定并不是什么地狱