联合优化数据增强和网络训练:人体姿态判断中的对抗性数据扩增( 三 )


对抗性数据扩充:首先 , 姿势网络的损耗分布类似于随机数据增强的情况 。 由于姿势网络是通过随机数据增强进行预训练的 。 但是 , 随着训练的继续 , 分布变得不稳定 , 这意味着姿势网络可以更好地处理旋转的图像 。 姿势网络从增强网络生成的对抗数据增强中学习 。
增强网络训练状态:通过应用生成的旋转提示可以查看状态 。 作者发现生成的旋转分布类似于姿势网络的损耗分布 。 这意味着增强网络可以跟踪目标网络的训练状态并生成有效的数据增强 。
2 组件评估首先验证残余和浓密沙漏中 ASR 和 AHO 的有效性 。 在每个残余沙漏块中使用 3 个剩余的瓶颈 。 在密集沙漏中 , 作者在一个密集的区块中使用 6 个紧密连接的瓶颈 。 作者比较了PCKh@0.5上对抗性数据增强的变体 , 结果显示 PCKh 阈值范围从 0.1 到 0.5 时对抗性数据增强与随机数据增强相比的改进 。
仅 ASR:表 1 显示 , ASR 改进了残留和密集沙漏上所有关键点的准确性 , 平均分别提高了 0.5%和 0.5% 。 这表明 , 生成的对抗标度和旋转增强在训练姿势网络方面是有效的 。
仅 AHO:表 1 显示 , AHO 可以提高残留和浓密沙漏的准确性 , 平均改善分别为 0.4%和 0.4% 。 同样 , 姿势网络还可以从增强网络生成的 adver-sarial 阻塞中学习改进的推论 。
ASR 和 AHO:与单独使用 ASR 和 AHO 相比 , 同时使用 ASR 和 AHO 可以将精度进一步提高 0.4% , 尤其是对于通常难以定位的关节(例如脚踝 , 膝盖和手腕)而言 。
密集沙漏 vs 残余沙漏:表 1 还显示 , 就姿势判断精度而言 , 密集沙漏具有可比的性能 , 但参数效率比残余沙漏高得多(18M 对 38M) 。
联合优化数据增强和网络训练:人体姿态判断中的对抗性数据扩增文章插图
总结:在本文中 , 作者提出了一种新的方法来联合优化数据增强和网络训练 。 增强网络被设计为生成对抗性数据增强 , 以改进目标网络的训练 。 作者通过将该方法应用于人体姿势判断 , 可以观察到性能得到改善 。
参考文献:[1] He Zhang, Vishwanath Sindagi, Vishal M. Patel, "Joint Transmission Map Estimation and Dehazing Using Deep Networks", Circuits and Systems for Video Technology IEEE Transactions on, vol. 30, no. 7, pp. 1975-1986, 2020.
[2] Yizhe Zhu, Mohamed Elhoseiny, Bingchen Liu, Xi Peng, Ahmed Elgammal, "A Generative Adversarial Approach for Zero-Shot Learning from Noisy Texts", Computer Vision and Pattern Recognition (CVPR) 2018 IEEE/CVF Conference on, pp. 1004-1013, 2018.
[3] Ke Sun, Bin Xiao, Dong Liu, Jingdong Wang, "Deep High-Resolution Representation Learning for Human Pose Estimation", Computer Vision and Pattern Recognition (CVPR) 2019 IEEE/CVF Conference on, pp. 5686-5696, 2019.
致谢【联合优化数据增强和网络训练:人体姿态判断中的对抗性数据扩增】本论文由 iSE 实验室 2019 级硕士生张晓波转述 。