人工智能的安全问题不容忽视( 二 )


人工智能安全隐患的技术剖析
针对AI的安全隐患 , 要找到防御的方法 , 首先要了解产生安全隐患的技术 。 以对抗样本生成为例 , 其主要分为2类:一类是白盒场景下对抗样本生成;另一类为黑盒场景下对抗样本生成 。 白盒场景的模型参数完全已知 , 可以访问模型中所有的参数 , 这个情况下攻击就会变得相对容易一些 , 只需要评估信息变化的方向对模型输出的影响 , 找到灵敏度最高的方向 , 相应地做出一些扰动干扰 , 就可以完成对模型的攻击 。 黑盒场景下攻击则相对较难 , 大部分实际情况下都是黑盒场景 , 我们依然可以对模型远程访问 , 输入样本 , 拿到检测结果 , 但无法获得模型里的参数 。
现阶段的黑盒攻击可大致分为3类 。 第一类是基于迁移性的攻击方法 , 攻击者可以利用目标模型的输入信息和输出信息 , 训练出一个替换模型模拟目标模型的决策边界 , 并在替换模型中利用白盒攻击方法生成对抗样本 , 最后利用对抗样本的迁移性完成对目标模型的攻击 。 第二类是基于梯度估计的攻击方法 , 攻击者可以利用有限差分以及自然进化策略等方式来估计梯度信息 , 同时结合白盒攻击方法生成对抗样本 。 在自然进化策略中 , 攻击者可以以多个随机分布的单位向量作为搜索方向 , 并在这些搜索方向下最大化对抗目标的期望值 。 第三类是基于决策边界的攻击方法 , 通过启发式搜索策略搜索决策边界 , 再沿决策边界不断搜索距离原样本更近的对抗样本 。
有攻击就有防御 , 针对对抗样本的检测 , 目前主要有3种手段 。 第一种 , 通过训练二分类器去分类样本是否受到干扰 , 但通用性会比较差 。 通常而言 , 训练一个分类器只能针对某一种特定的攻击算法 , 但在通常情况下并不知道别人使用哪一种攻击算法 。 第二种 , 训练去噪器 。 所谓的对抗干扰基本上都是样本中加入噪声 , 通过去噪对样本进行还原 , 从而实现防御 。 第三种 , 用对抗的手段提升模型的鲁棒性 , 在模型训练中加入对抗样本 , 模型面对对抗样本时会具有更强的鲁棒性 , 提高识别的成功率 , 但训练的复杂度较高 。 整体而言 , 这些方法都不很理想 , 我们亟须研究通用性强、效率高的对抗样本的防御方法 。
针对换脸视频的生成 , 目前主流技术是基于自动编码器进行人脸图像重建 。 在模型训练阶段 , 所有的人脸图像使用同一个编码器 , 这个编码器的目标是学习捕捉人脸的关键特征 。 对于人脸重构 , 每个人的脸都有一个单独的解码器 , 这个解码器用于学习不同人的脸所具有的独特特征 。 利用训练后的编码器与解码器即可进行虚假人脸生成 。
针对换脸视频的鉴别 , 目前主流技术是基于视觉瑕疵进行鉴别 , 这个假设是换脸视频具有不真实的情况 。 因此 , 可以对眨眼频率、头部姿态估计、光照估计、几何估计等提取特征 , 利用这些特征去判断人脸的图片或者视频的真假 。
对抗攻防已取得一定研究成果
目前 , 我们在人工智能安全技术上加大了投入 , 围绕人工智能安全领域的问题开展了一些研究 。
第一个工作是针对视频识别模型上的黑盒对抗攻击 。 在该工作中 , 我们利用对抗扰动的迁移性 , 将图像预训练模型中得到的扰动作为视频帧的初始扰动 , 并在此基础上利用自然进化策略对这些初始扰动噪声进行纠正 。 当我们得到针对视频域特殊纠正后的梯度信息后 , 采用投影梯度下降来对输入视频进行更新 。 该方法可以在黑盒场景下 , 对主流视频识别模型进行攻击 , 这也是全球在视频模型黑盒攻击上的第一个工作 。 我们实现的结果是在目标攻击情况下 , 需要3万至8万次查询就可以达到93%的攻击成功率 , 非目标攻击只需要数百个查询就可以完成对主流模型的攻击 。 目标攻击是指不仅让这个模型识别错 , 还要指定它把这个东西识别成什么 , 如把A的照片识别成B 。 非目标攻击是指只要识别错就可以了 , 识别成谁则不重要 , 如A的照片只要不识别成A就可以 。