DeepTech深科技|“单核” 变“多核”,显著提高 “对抗性攻击” 防御力,18 岁清华毕业,95后博士生杨幻睿将深度学习( 二 )


“Ensemble”的原意是“合唱” , 国内有人将它直译为“集成” , 也有人根据它的特点翻译成一个颇为诗意的词汇——“博采众长” 。 这是一个比深度学习更加古老的概念 , 早期的研究者大多用这种方式来提高模型的准确率 。
具体的做法是 , 训练多个不同模型组成一个模型集合 , 然后单个模型依次进行识别任务 , 最后再将集合内所有模型的识别结果汇总 , 以投票或平均的方式对外给出统一答案 。 在这一过程中 , 通过对不同模型设置不同的学习目标或优化方法 , 每个模型在测试集上犯下的错误就会各不相同 。 通过这种方式 , 即使单个模型的准确率并不高 , 这个模型集合体的识别成功率得到了较大提升 。
同样的训练原理也可以作用于提升模型的鲁棒性上 。 在训练多个不同模型组成一个模型集合的过程中 , 但通过一系列的操作让不同模型之间对噪声输入的识别结果或中间特征保持一定的“差异性” , 以避免在遇到噪声时时模型集体“沦陷” , 就可以在一定程度上提升集合体的鲁棒性 。 前人的工作探索过多种基于模型输出、权值以及梯度的差异化训练方式 , 并在针对自然噪声或应对训练集分布外数据等应用领域取得了不错的结果 。
然而当面对对抗性攻击噪声时 , 传统的让模型之间保持“差异性”的方法往往表现不佳 。 其中原因就不得不提到对抗性攻击的一个比较烦人的特点——迁移性 。
目前很多模型是根据公开的数据集进行训练的 。 对抗性攻击的发起者虽然不知道目标模型的具体训练方式 , 但如果他也根据同一套数据集训练一套自己的模型 , 然后针对这个模型生成对抗性攻击的数据 , 那么有很大的概率 , 这些带有“噪声”的数据依旧会对基于同一数据集训练的其他模型造成很大的困扰 , 这就是对抗性攻击的迁移性 。
对于同一数据集上同样方式训练的模型 , 对抗攻击的迁移成功率往往高达98%以上 。 前人提出的差异化训练方式可以将迁移成功率降至65%左右 , 但这还远远不足以让集成模型展现较高的对抗鲁棒性 。
而杨幻睿和同事则创造性地从全新角度提出了针对对抗性攻击的差异化训练方式 , 通过有效降低对抗攻击成功率显著提高模型的鲁棒性 。
前人在研究中观察到 , 某种角度上说 , 对抗攻击展现出的高迁移性并不是模型的一个“缺陷” , 而是由于模型的“学习”方式所导致的一个必然的结果 。
当使用真实数据进行训练时 , 模型更多地学到的是“非鲁棒”的特征 , 这种特征在数据集里广泛存在 , 而且非常容易被“学会” 。 不同模型在同一数据集上训练 , 也基本上都会学到这些特征 , 并且往往学到的特征有很大的相似性 。
在这种情况下 , 一旦对抗性攻击影响了模型已经学会的非鲁棒特征的识别 , 那么这类攻击就可以波及到几乎所有模型 。
而对抗性训练的本质是让模型抛弃非鲁棒特征 , 转而去学习不易受到噪声影响的鲁棒特征 。
可问题在于相比较于非鲁棒性特征 , 鲁棒性特征非常“少” , 并且往往需要更高层次的特征处理与认知能力 , 不是很容易被神经网络学会 。 这也是对抗性训练往往带来较低准确率的重要原因 。
基于这些观察 , 杨幻睿和同事们提出了一种新的思路:对抗性攻击之所以产生迁移性 , 是因为不同的模型 , 学会了相同的非鲁棒的特征 。 那么 , 如果让不同的模型 , 学会不同的非鲁棒特征 , 迁移问题会不会迎刃而解呢?
答案是肯定的 。
具体的做法是 , 首先 , 通过分析卷积神经网络的中间隐含层 , 提取模型集合中所有模型的非鲁棒特征 。
杨幻睿说 , 当一张猫的图片被某一模型错误地分类成狗时 , 就意味着该图片一定包含了狗中的一些非鲁棒特征 , 他们所要做的就是避免让别的模型使用这些特征 。
然后 , 利用这些提取到的非鲁棒特征 , 去依次训练其他的模型 , 并在这个过程中纠错 , 由此得到了对该非鲁棒特征具备鲁棒性的模型 。 进而不同模型具备了不同的鲁棒性 , 模型集合则具备了比较全面的鲁棒性 。