联合优化数据增强和网络训练：人体姿态判断中的对抗性数据扩增( 二 ) JointlyOptimizeDataAugmentationandNe

2 对抗性人体姿态判断作者的任务是改进预先设计好的姿势网络的训练。以广泛使用的 U-net 设计为例，增强网络遵循编码器架构。它以 U-net 的桥接特征代替原始图像作为输入，有效地进行训练。然后生成一组分布来采样三种典型的增强：缩放、旋转和分层遮挡。此外，本文还提出了一种有效的联合训练奖惩策略。
2.1 对抗性缩放和旋转（ASR）增强网络通过缩放和旋转训练图像来生成对抗性建议。然后，姿势网络从对抗增强中学习，以进行更有效的训练。在作者的实验中，发现直接生成会破坏训练，在大多数情况下，这很容易产生上下颠倒的增强效果。取而代之的是，作者将扩展范围分为 m 个和 n 个 bin（例如， m = 7 用于缩放， n = 9 用于旋转）。每个 bin 对应一个小有界高斯。扩展网络将首先预测缩放和旋转箱的分布。然后，通过从分布中采样来激活相应的高斯。图 2 说明了采样过程。
文章插图
图 2：对抗性缩放和旋转。生成器预测混合高斯分布，然后从中采样缩放和旋转以增强训练图像。
ASR 预训练：预训练增强网络非常关键，这样它才能在联合训练之前获得增强分布的感觉。预测分布而不是直接扩增有两个优点。首先，它引入不确定性，以避免在预训练过程中倒置增加。其次，它有助于解决联合训练中遗漏的地面真相的问题。在本文的设计中，缩放和旋转直接应用于训练图像，而不是深层功能。原因是作者要保留图像像素和界标坐标之间的位置对应。否则，一旦干扰了中间特征图，可能会损害定位精度。
2.2 对抗等级遮挡（AHO）
除了缩放和旋转外，增强网络还生成遮挡操作，以使任务更加“艰巨” 。人体具有链接的结构，其中关节位置彼此高度相关。通过遮挡图像的某些部分，可以鼓励姿势网络学习可见和不可见关节之间的牢固参考。
与缩放和旋转不同，作者发现遮挡较深的特征而不是图像像素更有效。它没有位置对应问题，因为闭塞后关节位置没有变化。具体来说，增强网络生成一个掩码，指示要遮挡特征的哪一部分，从而使姿势网络具有更多的判断误差。作者仅以最低分辨率 4×4 生成蒙版。然后将蒙版放大到 64×64 ，以应用于 U-net 的网桥功能。图 4 说明了建议的层次遮挡。
文章插图
图 3：对抗性等级遮挡。遮挡遮罩以最低分辨率生成，然后按比例放大以应用于姿势网络的分层桥特征。
AHO 预训练：与缩放和旋转类似，增强网络会预测遮挡分布而不是实例遮挡遮罩。
直观地讲，存在三种应用层次遮挡的方法：（1）单个蒙版从最低分辨率放大到最高分辨率；（2）单个蒙版从最高分辨率缩小到最低分辨率；（3）独立蒙版以不同的分辨率生成。在第二种情况下由于接收域较大，它会遮挡超出需要的部分，因此在我们的方法中仅使用第一种设计，而在第三种情况下，可以用其他分辨率补偿遮挡的信息。
2.3 两个网络的联合培训一旦对 ASR 和 AHO 进行了预训练，就可以共同优化增强网络和姿势网络。但是，由于存在大量的扩充组合，因此这将非常耗时。作者提出了奖励和惩罚政策来解决此问题。关键思想是，应根据目标网络的当前状态来更新增强网络的预测，同时应通过与参考进行比较来评估其质量。
为此，作者为每个图像采样了一对增强：1）对抗增强 τa； 2）随机增强 τr 。如果对抗竞争的难度比随机竞争的困难，将通过增加采样箱（ASR）或单元（AHO）的概率来奖励增强网络。否则，会通过相应降低概率来对其进行惩罚。
实验及结果实验使用堆叠的沙漏作为姿势网络。增强网络占用了一个沙漏的自上而下的部分，并且在每个分辨率块中仅使用一个单元模块。为了评估所提出的对抗增强的泛化能力，作者测试了两种类型的模块：残余模块和密集模块。密集块提供了不同层之间的直接连接，这有助于反向传播中的梯度流。
1 可视化培训状态在此实验中，作者使用单个残余沙漏。每个残余块包含 3 个残余模块。我们有兴趣了解姿势网络如何处理具有不同数据增强的人体图像：旋转，缩放和遮挡。以旋转为例，作者将沙漏的损耗分布可视化为具有不同旋转度的图像。
随机数据扩充：作者使用从零中心高斯分布中采样的随机旋转来训练姿势网络。然后，通过对测试数据应用相同的旋转分布来测试训练后的姿势网络。作者发现，在不同的训练阶段（训练时期），目标网络损耗总是呈现出类似高斯分布的倒数。