CVPR | 视觉推理解释框架VRX:用结构化视觉概念解释网络推理逻辑( 二 )


视觉概念提取器和结构化的视觉概念
该研究首先介绍了什么是视觉概念(VisualConcept) , 简单来说视觉概念展示了给定神经网络对不同类别的理解 , 同时人们也更容易接受符合直觉的概念级别的解释:以下图警车为例 , 在给定的神经网络「眼里」 , 警车Top2重要的视觉概念可视化为最右边绿色圈中的patch(看起来像轮子和驾驶室侧面) 。 ACE[4]中作者对视觉概念进行了定义:类别相关的视觉概念是像素点的集合(groupofpixels)并满足以下三个要求:
(1)有意义(Meaningfulness):即视觉概念需要具有语义上的涵义 , 单个的像素就没有语义涵义 , 所以需要是像素点的集合 , 比如图片patch 。 (2)一致性(Coherency):同一视觉概念在不同图片中的表现应该相似 , 不同视觉概念之间应该不同 。 (3)重要性(Importance):如果一个视觉概念的存在对于该类样本的真实预测是必要的 , 那么它对于该类的预测就是「重要的」 。下图描述了ACE中对给定网络、给定类别的视觉概念的提取过程:以警车为例 , 首先(a)用多分辨率的分割算法对图片进行分割得到patch(这里的分割采用的是SLIC[5] , 一种基于规则的分割算法 , 选择该方法是对于其速度和效果的综合考虑);然后(b)将分割得到的patchresize为统一大小 , 通过给定网络将patch转化为向量 , 并在向量空间做聚类;最后(c)利用TestingwithConceptActivationVectors(TCAV)[3]得到每个聚类的潜在视觉概念对警车类别的重要性分数 , 并剔除outlier , 留下对警车类别来说最重要的top视觉概念 。
CVPR | 视觉推理解释框架VRX:用结构化视觉概念解释网络推理逻辑
文章图片
但研究发现 , ACE提取视觉概念的效果非常依赖用于提取视觉概念的图片的质量 , 一般每一类选取50~100张左右的图片用于提取视觉概念 , 如果图片有一些bias或者不是很具有代表性 , 就会导致很多提取的视觉概念落在背景区域 , 比如下图(左) , 这些视觉概念并不能代表网络学习了该类1000张图像(ImageNet)以后对该类(救护车)的理解 。 为了解决这个问题 , 该研究提出使用自顶向下的梯度注意力(AttentionMap)对视觉概念提取区域进行约束 , 因为Grad-CAM的attentionmap可以高亮显示对网络决策重要的区域(多为前景) , 这样可以帮助剔除掉提取视觉概念的图片中与类别无关的背景部分 , 使得提取的视觉概念更能代表原网络对该类的理解 , 如下图右 。
CVPR | 视觉推理解释框架VRX:用结构化视觉概念解释网络推理逻辑
文章图片
以吉普车类别为例 , 下图总结了视觉概念提取器提取视觉概念的步骤 。
CVPR | 视觉推理解释框架VRX:用结构化视觉概念解释网络推理逻辑
文章图片
提取出类别相关的视觉概念后 , 研究者认为视觉概念之间有潜在的空间结构关系 , 这种空间关系对类别表达至关重要:比如我们并不能说 , 只要能在图像中检测到吉普车的四个最重要的视觉概念就代表一定是吉普车 , 他们之间的空间关系是相对确定的 , 例如轮子不能在车顶上方 。 我们人类做决策也是相似的:我们认为这是一辆吉普车 , 不仅关键的特征(视觉概念)符合认知 , 特征之间的空间关系同样会影响我们的推理和最终决策 。 因此该研究认为结构化的视觉概念才是更符合人们直觉的 , 解释神经网络推理决策的重要「语言」 。 后续的模拟并解释神经网络的推理决策过程也是基于此展开的 。
结构化视觉概念的一种表达便是结构概念图(SCG:StructuralConceptGraph) , graph中不同颜色的点代表不同重要性(Topk)的视觉概念 , 边代表视觉概念之间的空间关系 。 如下图吉普车和斑马的例子 , 我们可以把任意图片表达为对应类别的结构概念图 。 注意:目前是image-level的SCG(I-SCG) , 后续会用基于learning的方法 , 学习到class-level的SCG(c-SCG) 。
CVPR | 视觉推理解释框架VRX:用结构化视觉概念解释网络推理逻辑
文章图片
概念图推理网络
有了结构概念图作为人们容易理解的解释神经网络的「语言」 , 接下来可以用这种「语言」解释神经网络决策背后的推理逻辑 。 ACE[4]的作者为了验证提取到的视觉概念对神经网络决策的重要性 , 实验验证发现:如果只保留输入图片中表达重要视觉概念的像素(mask掉与重要视觉概念无关的区域) , 神经网络能保留原本80%以上的准确率 。 因此一个比较直接的想法便是:我们能不能追踪并可视化神经网络决策过程中重要视觉概念相关特征的流动 , 这样我们便能找到最终决策与重要视觉概念之间的关系 , 从而对决策进行解释 。 以下图为例对于一个经典的由卷积层和全连接层构成的神经网络 , 我们用不同的颜色代表吉普车最重要的四个视觉概念 , 在卷积层 , 我们可以根据结构不变性追踪每个视觉概念对应的representationfeature 。 但是全连接层中 , 所有特征耦合到了一起 , 使得追踪变得困难 。 研究者分析这是由于神经网络结构上信息流动不够透明和难以解耦导致的 , 与此同时研究者想到另一种解决办法:如果可以用另一个结构比较解耦的 , 信息流动更加透明的模型B , 全方位模拟原始神经网络A的推理和决策 , 是不是就可以通过解释B的推理逻辑来解释A呢?