联合优化数据增强和网络训练:人体姿态判断中的对抗性数据扩增

Jointly Optimize Data Augmentation and Network Training:
Adversarial Data Augmentation in Human Pose Estimation
论文:X. Peng, Z. Tang, F. Yang, R. S. Feris and D. Metaxas, "Jointly Optimize Data Augmentation and Network Training: Adversarial Data Augmentation in Human Pose Estimation," 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, 2018, pp. 2226-2234, doi: 10.1109/CVPR.2018.00237.
摘要:在深度神经网络模型的训练中 , 随机数据增强是避免过度拟合的关键技术 。 然而 , 数据增强和网络训练通常被视为两个孤立的过程 , 限制了网络训练的有效性 。 为什么不联合优化两者呢?作者建议对抗性数据增强来解决这个限制 。 其主要思想是设计一个增强网络(生成器), 通过在线生成“硬”增强操作来与目标网络(鉴别器)竞争 。 增强网络探索目标网络的弱点 , 而后者从“硬”增强中学习以获得更好的性能 。 作者也为有效的联合训练设计奖惩策略 。 演示了该方法在人体姿态判断的问题 , 并进行了全面的实验分析 , 表明该方法可以在没有额外的数据的情况吓显着改善最先进的模型 。
背景: 深层神经网络(DNNs)在许多计算机视觉任务中取得了显著的改进[1] 。 最先进的深度学习模型成功的一个关键因素是大量训练数据的可用性 。 然而 , 数据收集和注释是昂贵的 , 而且对于许多任务来说 , 只有少数的训练例子是可用的 。 另外 , 自然图像通常遵循长尾分布[2] 。 即使已经收集了大量的数据 , 导致更强大的分类器的有效训练例子仍然可能很少 。
联合优化数据增强和网络训练:人体姿态判断中的对抗性数据扩增文章插图
图 1:数据准备和网络培训通常是隔离的 。 建议通过在线生成对抗增强来桥接两者 。 世代受训练图像和目标网络状态的制约 。
这个问题的一个常见解决方案是执行随机数据增强[3] 。 训练图像通过预先定义的转换(例如缩放 , 旋转 , 闭塞)启发性地抖动以增加变化 。 这个策略很简单 , 但是数据增强和网络培训仍然被视为孤立的过程 , 导致以下问题 。 首先 , 整个训练集通常采用相同的随机数据增强策略 , 而不考虑个体差异 。 那么 , 数据增强和神经网络训练能否进行联合优化 , 以便在线生成有效的增益 , 从而提高培训效果呢?
在这项工作中 , 作者通过提出一种新的方法来回答上述问题 , 这种方法利用对抗性学习来联合优化数据增强和网络训练(见图 1) 。 具体而言 , 作者研究人体姿态判断问题 , 旨在改善有界数据集的网络训练 。 请注意 , 作者的方法可以泛化到其他视觉任务 , 如人脸对齐[25]和实例分割 。
联合优化这两个网络是一项非同小可的任务 。 本文实验表明 , 一个简单的设计 , 如直接生成对立像素或变形 , 将产生有问题的收敛行为(如发散和模型崩溃) 。 相反 , 增强网络被设计用来产生对抗性分布 , 从中增强操作(例如缩放、旋转、遮挡)被采样以创建新的数据点 。 此外 , 作者提出了一个新的奖惩政策 , 以解决联合训练期间缺少监督的问题 。 此外 , 与原始图像不同 , 增强网络被设计成以姿态网络的副产品 , 即层次特征作为输入 。 这可以进一步提高联合训练效率使用额外的空间约束 。
1 对抗性数据增强给定一个预先设计的姿态网络 , 例如叠加沙漏姿态判断器 , 作者的目标是改善它的训练 , 而不是寻找更多的数据 。 随机数据增强广泛用于深度神经网络训练 。 然而 , 从静态分布中采样的随机数据增量很难跟随动态训练状态 , 这可能会产生许多无效的变化 , 这些变化要么过于“困难” , 要么过于“容易”, 无助于网络训练 。
相反 , 作者建议利用对抗性学习来优化数据增强和网络训练 。 主要的想法是学习一个增强网络 , 产生“硬”增强 , 可能会增加姿态网络损失 。 另一方面 , 姿态网络试图从对抗性增强中学习 , 同时评价代数的质量 。
作者的方法与最近的对抗性人体姿势判断技术有着巨大的区别 。 后者通常遵循一个共同的设计 , 将姿态网络(生成器)与附加网络(鉴别器)连接起来 , 以获得对抗性损失 。 相比之下 , 本文建议学习一个对抗性网络(生成器)来改进姿态网络(鉴别器) , 通过联合优化数据扩充和网络训练 。
作者的方法也不同于其他执行在线硬示例挖掘的方法 。 该方法可以创建数据集中可能不存在的新数据点 , 而后者通常由数据集限定 。 一个例外是使用 GANs 来生成用于对象检测的变形 。 然而 , 如何联合优化数据增强和网络训练 , 特别是对人体姿态判断 , 仍然是一个尚未解决的问题 。