CVPR 2020 Oral | 将SOTA行人再识别系统精度降至1.4%( 二 )


检验 re-ID 系统抵抗对抗攻击的鲁棒性非常重要 。 由于 re-ID 系统的不安全性可能会造成严重损失 , 例如在犯罪追踪中 , 犯罪分子可能会通过在身体最适当的位置放置对抗性干扰(例如包、帽子和眼镜)来掩饰自己 , 从而欺骗视频监控系统 。 通过研究 re-ID 系统的对抗样本 , 我们可以识别这些系统的漏洞并帮助提高鲁棒性 。 例如 , 我们可以确定人体的哪些部分最容易受到对抗性攻击 , 并要求将来的 re-ID 系统注意这些部分 。 将来 , 我们还可以通过对抗训练来改进 re-ID 系统 。 总之 , 尽管以前没有做过任何工作 , 但建立一个对抗性攻击者来攻击 re-ID 是很有必要的 。
由于现实中的人身份无穷无尽 , 被查询人通常不属于数据库中的任何类别 , 因此 re-ID 被定义为排序问题而不是分类问题 。 用于图像分类、分割、检测和面部识别的现有攻击方法不适合排序问题 。 此外 , 由于图像域在不同时间和不同相机中会有所不同 , 因此还应考虑通过使用跨数据集攻击来检查 re-ID 模型的鲁棒性 。 但是 , 现有的对抗攻击方法通常具有较差的可迁移性 , 即 , 它们通常仅针对任务域(例如 , 数据集 A)而设计 , 并且由于无法找到通用的攻击特征而无法重用于另一个域(例如 , 数据集 B) 。 此外 , 我们将重点放在对于检查 re-ID 模型的不安全性的不起眼攻击上 。 现有的对抗攻击方法通常具有人类可以感知的视觉质量缺陷 。
综上所述 , 发明一个适合于 re-ID 的攻击器来检验 re-ID 的安全性是很有必要的 , 且尚没有工作进行这方面的研究 。
方法
1. 整体框架
我们的方法的总体框架如图 2(a)所示 。 我们的目标是使用生成器 G 为每个输入图像 I 生成欺骗性噪声 P 。 通过将噪声 P 添加到图像 I , 我们得到了对抗性示例hat{I} , 通过该示例我们可以欺骗 re-ID 系统 T 来输出错误的结果 。 具体地 , re-ID 系统 T 认为匹配的图像对不相似 , 同时认为不匹配的图像对相似 , 如图 2(b)所示 。 整个框架由具有生成器 G 和新颖鉴别器 D 的生成对抗网络训练 。
CVPR 2020 Oral | 将SOTA行人再识别系统精度降至1.4%
本文插图
图 2 整体框架图
2. 学习误排序模型
我们提出了一种学习误排序的公式 , 以扰乱系统输出的排名 。 我们设计了一个新的误排序损失函数来攻击预测的排名 , 这非常适合 re-ID 问题 。 我们的方法趋向于使不匹配对的距离最小化 , 并同时使匹配对的距离最大化 。 我们有:
CVPR 2020 Oral | 将SOTA行人再识别系统精度降至1.4%
本文插图
值得注意的是 , 使用误排序损失有两个优点 。 首先 , 误排序的损失完全适合 re-ID 问题 。 如上所述 , re-ID 在训练和测试数据的设置方面与图像分类任务不同 。 在图像分类任务中 , 训练集和测试集共享相同的类别 , 而在 re-ID 中 , 它们之间没有类别重叠 。 因此 , 误排序适合攻击 re-ID 。 其次 , 误排序损失不仅符合 re-ID 问题 , 它可能适合所有开放式问题 。 因此 , 使用误排序损失也可能有益于攻击者学习一般的和可迁移特征 。 总而言之 , 我们基于误排序的对抗攻击者是对现有基于错误分类的攻击者的完美补充 。
CVPR 2020 Oral | 将SOTA行人再识别系统精度降至1.4%
本文插图
图 3 我们的辨别器
3. 学习可迁移的攻击特征
正如已有文献所暗示的 , 对抗性样本是特征而不是 bug 。 因此 , 为了增强攻击者的可迁移性 , 需要提高攻击者的表示学习能力以提取对抗性扰动的一般特征 。 在我们的例子中 , 表示学习器是生成器 G 和鉴别器 D(见图 2(a)) 。 对于生成器 G , 我们使用 ResNet50 。 对于判别器 D , 由于最近的对抗性防御器已使用跨层信息来识别对抗性样本 , 作为他们的竞争对手 , 我们开发了一种新颖的多级网络体系结构 , 增强判别器的特征学习能力 。 具体来说 , 如图 3 所示 , 我们的判别器 D 由三个完全卷积的子网络组成 , 每个子网络都包括五个卷积 , 三个下采样和几个归一化层 。 这三个子网分别接收原始图像面积的 {1、1 / 2 ^ 2、1 / 4 ^ 2} 作为输入 。 接下来 , 将来自这些具有相同大小的子网的特征图组合起来 。 由此我们得到一个阶段金字塔 , 其一系列降采样结果的比率为 {1 / 32、1 / 16、1 / 8、1 /4} 。 使用上一阶段的特征图时 , 我们使用双线性上采样将空间分辨率上采样 2 倍 , 并附加 1x1 卷积层以减小通道数 。 在逐个元素相加并进行 3x3 卷积后 , 融合后的特征将进入下一个阶段 。 最后 , 该网络以两个空洞卷积层和一个 1x1 卷积结束 , 以执行特征重加权 , 然后将其最终响应映射 lambda 馈入下游采样器 M 。 值得注意的是 , 这三个子网均通过遵循标准的反向传播 (BP) 进行优化 。