CVPR 2020 Oral | 将SOTA行人再识别系统精度降至1.4%( 五 )


本文插图
表 2 组件分析一
多级鉴别器 。 为了验证我们的多级鉴别器的有效性 , 我们比较了以下设置:(A)使用我们的多级鉴别器 , (B)使用常用的鉴别器 。 具体来说 , 我们用 PatchGAN 代替了多级鉴别器 。 表 2(c)显示了在更改鉴别器之后攻击性能的显着下降 , 表明了我们的多阶段鉴别器在捕获更多细节以更好地进行攻击方面的优越性 。

CVPR 2020 Oral | 将SOTA行人再识别系统精度降至1.4%
本文插图
图 4 使用 MS-SSIM
使用 MS-SSIM 。 为了展示 MS-SSIM 的优越性 , 我们将图 4 中不同感知监督下的对抗示例形象化 。 我们可以看到 , 在同样的高强度扰动幅度下(epsilon=40) , 在 MS-SSIM 的监督下生成的对抗示例要比在 SSIM 的监督下且没有任何监督的对抗示例好得多(表现为行人着装颜色与原图基本保持一致) 。 该实验结果很好地验证了感知损失对于保留原始外观至关重要 。
不同的 epsilon 的比较 。 尽管使用感知损失对于大 epsilon 的视觉质量有很大的改善 , 但我们还提供了小 epsilon 的基线模型以进行全面研究 。 我们通过将 epsilon 作为超参数来手动控制它 。 表 2(b)中报告了不同 epsilon 的比较 。 即使 epsilon = 15 , 我们的方法也取得了良好的结果 。 图 5 中可以看到具有不同 epsilon 的几个对抗示例的可视化 。

CVPR 2020 Oral | 将SOTA行人再识别系统精度降至1.4%
本文插图
图 5 不同 epsilon 的攻击可视化效果 。 (这张图是真实环境下的攻击 , 并非数据集中的图)
要攻击的像素数 。 令 H 和 W 表示图像的高度和宽度 。 我们将要攻击的像素数分别控制在 {1、1 / 2、1 / 4、1 / 8、1 / 16、1 / 32、1 / 64} xHW 的范围内 。 从表 3 中我们有两个主要观察结果 。 首先 , 当要攻击的像素数> HW / 2 时 , 攻击肯定会成功 。 这表明我们可以通过仅使用 HW / 2 的噪声数来完全攻击 re-ID 系统 。 其次 , 当要攻击的像素数
CVPR 2020 Oral | 将SOTA行人再识别系统精度降至1.4%
本文插图
表 3 和表 4 组件分析二
可微采样的有效性 。 为了证明我们学习到的噪声在攻击 re-ID 方面的有效性 , 我们在表 4 中的两个方面 , 在 varepsilon = 40 的限制下将它们与随机噪声进行了比较 。 (A)随机噪声被施加在图像的随机位置上 。 结果表明 , 随机噪声不如我们学习到的噪声 。 (B)随机噪声被强加到我们学习到的图像位置上 。 有趣的是 , 尽管(B)的攻击性能比我们所学的噪音差 , 但(B)的性能优于(A) 。 这表明我们的方法成功找到了要攻击的敏感位置 。
攻击的可解释性 。 在分析了我们学习到的噪声的优势之后 , 我们进一步可视化了噪声布局 , 以探索我们在 re-ID 中攻击的可解释性 。 不幸的是 , 单个图像无法提供直观的信息 。 当噪声数量等于图 6 中的 HW / 8 时 , 我们统计地显示查询图像和蒙版 , 以进行进一步分析 。 从图 6(b)中我们可以看到 , 网络具有攻击平均图像上半部分的趋势 , 该趋势对应于图 6(a)中人的上半身 。 这意味着网络能够为 ReID 勾画出图像的主要区域 。 为了将来提高 ReID 系统的鲁棒性 , 应注意这一主要区域 。
CVPR 2020 Oral | 将SOTA行人再识别系统精度降至1.4%
本文插图
图 6 攻击的位置分析
3. 半黑盒攻击
与上述白盒攻击不同 , 半黑盒攻击表示攻击者无法访问训练数据和目标模型 , 这非常具有挑战性 。
跨数据集攻击 。 跨数据集表示攻击器是在已知数据集上学习的 , 但可以重新用于攻击在未知数据集上训练的模型 。 表 2(d)显示了 AlignedReID 中我们的跨数据集攻击的成功 。 我们还观察到 , 跨数据集攻击的成功率几乎与幼稚的白盒攻击一样好 。 此外 , MSMT17 是一个通过覆盖多场景和多时间来模拟真实场景的数据集 。 因此 , 对 MSMT17 的成功攻击证明了我们的方法能够在不知道真实场景数据信息的情况下 , 对真实场景中的 ReID 系统进行攻击 。