PaperWeekly 大幅提高CIFAR-10数据生成,?NVIDIA针对数据不充分数据集进行生成改进( 二 )


PaperWeekly 大幅提高CIFAR-10数据生成,?NVIDIA针对数据不充分数据集进行生成改进
文章图片
▲图2.bCR与DA下生成模型设计
文章设计了一种新的扩充方式 , 与bCR相似也是对输入到判别器的图像应用了增强 。 但是 , 该方法并没有使用单独的CR损失项 , 而是仅使用增强图像来评估判别器 , 并且在训练生成器时也要这样做(图2b) 。
文章称之为判别器增强(discriminatoraugmentation , DA) , 这种方法看上去非常简单 , 甚至你在乍一看都会质疑它是否可以正常工作 , 是不是会怀疑判别器从未看到训练图像的真实外观的情况下 , 能否可以正确地指导生成器(图2c) 。 为此 , 文章研究了在何种情况下DA不会泄漏对所生成图像的增强 。
2.2设计不会"泄漏"的数据扩充(DA)
[1]考虑了训练GAN时的类似问题 , 并表明只要隐含的过程由数据空间上概率分布的可逆转换来表示 , 训练就隐式地消除了损坏并找到了正确的分布 , 称这种增强算子为非泄漏 。 这些可逆变换的功能在于 , 它们可以通过仅观察扩充的集合来得出有关基础集合的相等性或不平等性的结论 。
在图2b中 , 我们可以看到DA设计的时候在数据增强上(数据增强这里可以理解为数据扩充) , 做了增强概率的设计 , 以的概率进行数据的增强 , 此时的数据增强将不是绝对的改变数据(旋转、翻转和缩放、色彩增强等) 。
这样生成模型将看到的是更多正常的图像 , 然而一些数据增强是不会影响最后的生成结果 , 例如各向同性图像缩放 , 文章也是利用实验对其它情况进行直观的解释 , 整个过程如图3所示 。
PaperWeekly 大幅提高CIFAR-10数据生成,?NVIDIA针对数据不充分数据集进行生成改进
文章图片
▲图3.不同增强下p对“泄漏”的影响
在图3中 , 通过三个实际示例来验证我们的分析 , 上方的图像代表着对应不同的时候 , 模型生成的图像 , 这也通过FID进行可视化展示 。
在a中进行各向同性图像缩放 , 无论p的值如何 , 其均不会泄漏 。 但是在图3b中 , 当p太高时 , 生成器无法知道生成的图像应面向哪个方向并最终随机选择一种可能性 。
实际上 , 由于有限采样 , 网络的有限表示能力 , 归纳偏差和训练动态 , 当p保持在以下时 , 生成的图像始终正确定向 。 在这些区域之间 , 生成器有时会最初选择错误的方向 , 然后向正确的分布部分漂移 。
对于一系列连续的色彩增强 , 也具有相同的观察结果(图3c) 。 该实验表明 , 只要保持在0.8以下 , 实际上就不太可能发生“泄漏” 。
2.3文章采用的数据扩充方式
文章借鉴了RandAugment[9]在图像分类任务中的成功 , 考虑了18种变换的流水线 , 这些变换分为6类:像素层(x翻转 , 90°旋转 , 整数平移) , 更一般的几何变换 , 颜色变换 , 图像空间滤波 , 加性噪声和抠图 。 由于在训练生成器时 , 也会执行增强 , 这要求增强是可区分的 。
在训练过程中 , 使用一组固定的预定义变换来处理图像给判别器 , 增强的强度控制在 , 控制 , 在DA设计上 , 对于所有转换 , 始终使用相同的p值 。 随机化是针对每个扩展和一个小批量中的每个图像分别进行 , 只要p保持在实际安全极限以下 , 就引导发生器仅产生清晰的图像 。
文章通过对不同的扩充类别和数据集大小对进行详尽的扫描来研究DA的有效性 , 整个实验结果如图4所示 。
PaperWeekly 大幅提高CIFAR-10数据生成,?NVIDIA针对数据不充分数据集进行生成改进
文章图片
▲图4.不同增强下实验结果
在许多情况下 , DA可以显着改善结果 , 最佳增强强度在很大程度上取决于训练数据的数量 , 绝大多数来自像素层和几何变换上的增强 , 颜色转换适度有益 , 而图像空间过滤 , 噪点和裁切并不是特别有用 。
曲线还表明 , 当时 , 某些增强会泄漏 。 对于10k的训练集 , 的较高值则会起到不好的结果 , 而对于140k , 所有增强都是有害的 。