CVPR 2020 Oral | 将SOTA行人再识别系统精度降至1.4%( 三 )


4. 控制攻击的像素数目
为了使我们的攻击不引人注目 , 我们从两个方面改进了现有的攻击器 。 第一方面是控制要被攻击的目标像素的数量 。 通常 , 对抗攻击是将给定图像的一组噪声引入一组目标像素 , 以形成一个对抗示例 。 噪声和目标像素均未知 , 攻击者将对其进行搜索 。 在这里 , 我们介绍了攻击器在搜索目标像素时的公式 。 为了使搜索空间连续 , 我们将对所有可能像素的像素选择松弛化 , 即 Gumbel softmax:
CVPR 2020 Oral | 将SOTA行人再识别系统精度降至1.4%
本文插图
其中 i 和 j 表示特征图中像素的索引 。 要选择的像素的概率 p_ij 由向量 lambda_ij 参数化 。 N_ij 是位置 (i, j) 处的随机变量 , 该位置是从 Gumbel 分布中采样的 。 注意 , tau 是一个温度参数 , 当 tau 逐渐减小到零时 , 它会软化从均匀分布到分类分布的过渡 。 因此 , 要被攻击的目标像素的数量由掩码 M 确定:

CVPR 2020 Oral | 将SOTA行人再识别系统精度降至1.4%
本文插图
其中 , KeepTopk 是一种函数 , 通过该函数可将具有最高概率 p_ij 的前 k 个像素保留在 M 中 , 而其他像素在前向传播期间将被丢弃 。 而且 , 向前和向后传播之间的差异确保了可微分性 。 通过将掩模 M 和初始噪声 P'相乘 , 我们得到具有可控制像素数目的最终噪声 P 。 M 的用法在图 2 中详细说明 。
5. 视觉质量的感知损失损失函数
除了控制被攻击像素的数量之外 , 我们还关注视觉质量 , 以确保攻击器不引人注意 。 现有工作将噪声引入图像中以欺骗机器 , 而没有考虑图像的视觉质量 , 这与人类的认知不一致 。 受 MS-SSIM 的启发 , 该模型能够提供良好的近似值 , 以感知视觉感知的图像质量 , 我们在我们的方法中加入了感知损失函数以提高视觉质量 。
CVPR 2020 Oral | 将SOTA行人再识别系统精度降至1.4%
本文插图
其中 c_j 和 s_j 分别是第 j 个尺度的对比度比较和结构比较的量度 。 L 是规模水平 。 基于视觉感知损失函数 , 可以进行大规模的攻击 , 而不会被人类注意到 。
6. 目标函数
除了误排序损失 , 感知损失之外 , 我们还有另外两个损失 , 即误分类损失和 GAN 损失 。
误分类损失 。 现有工作通常将可能性最小的类别误差作为目标 , 以优化输出概率与其可能性最小的类别之间的交叉熵 。 但是 , 模型可能会将输入错误分类为除正确类别之外的任何类别 。 受 Szegedy 等人的启发 , 我们提出了一种通过以下方式放松针对非目标攻击的模型的机制:
CVPR 2020 Oral | 将SOTA行人再识别系统精度降至1.4%
本文插图
其中 S 表示 log-softmax 函数 , K 表示人员 ID 的总数 , v 表示平滑正则化 。 实际上 , 这种平滑正则化提高了训练稳定性和成功攻击率 。
GAN 损失 。 对于我们的任务 , 生成器 G 尝试从输入图像中产生欺骗性噪声 , 而鉴别器 D 则尽可能地将真实图像与对抗性示例区分开 。 因此 , GAN 损失为:
CVPR 2020 Oral | 将SOTA行人再识别系统精度降至1.4%
本文插图
其中 D_1,2,3 是我们的多级鉴别器 , 如图 2 所示 。 我们得到最终损失函数 ,
CVPR 2020 Oral | 将SOTA行人再识别系统精度降至1.4%
本文插图
其中 zeta 和 eta 是平衡损失的权重 。
实验结果
我们首先介绍攻击最先进的 re-ID 系统的结果 , 然后对我们的方法进行组件分析 。 然后 , 通过探索半黑盒攻击来检验我们方法的泛化能力和可解释性 。
数据集 。 我们的方法在最大的四个 re-ID 数据集上进行了评估:Market1501 , CUHK03 , DukeMTMC 和 MSMT17 。 Market1501 是一个经过全面研究的数据集 , 包含 1,501 个身份和 32,688 个边界框 。 CUHK03 包含 1,467 个身份和 28,192 个边界框 。 CUHK03 包含 1,467 个身份和 28,192 个边界框 。 为了与最新工作保持一致 , 我们遵循新的训练/测试协议来进行实验 。 DukeMTMC 提供了 16,522 个边界框 , 其中有 702 个身份用于训练 , 而有 17,661 个用于测试 。 MSMT17 涵盖了室内和室外场景中 15 台摄像机拍摄的 4,101 个身份和 126,441 个边界框 。 我们采用标准的 mAP 度量标准和 rank-1/5/10/20 进行评估 。 请注意 , 与 re-ID 问题相反 , 较低的 rank-1/5/10/20 准确性和 mAP 表示攻击问题中的成功攻击率更高 。