CVPR | 视觉推理解释框架VRX:用结构化视觉概念解释网络推理逻辑

机器之心发布
作者:葛云皓
本文提出了一个视觉推理解释框架(VRX:VisualReasoningeXplanation),将人们容易理解的、high-level的结构化的视觉概念作为「语言」 , 通过回答为什么是A , 为什么不是B解释神经网络的推理逻辑 。 VRX还可以利用解释对网络进行诊断 , 进一步提升原网络的性能 。
本文主要介绍了被CVPR2021录用的文章《APeekIntotheReasoningofNeuralNetworks:InterpretingwithStructuralVisualConcepts》 。 这项工作对神经网络推理逻辑的可解释性进行了探究:区分于大多数现有xAI方法通过可视化输入图像和输出结果之间的相关性对网络进行解释 , 该研究提出用结构化的视觉概念(StructuralVisualConcept)对神经网络决策背后的推理逻辑和因果关系进行解释 , 通过解答网络决策中「为什么是A?为什么不是B?」的问题 , 用人们更容易理解的high-level视觉概念和视觉概念之间的结构和空间关系解释神经网络的推理逻辑 , 并将其作为一种直接指导来提升被解释网络的性能 。
CVPR | 视觉推理解释框架VRX:用结构化视觉概念解释网络推理逻辑
文章图片
论文地址:https://arxiv.org/pdf/2105.00290.pdf项目主页:http://ilab.usc.edu/andy/vrxGitHub地址:https://github.com/gyhandy/Visual-Reasoning-eXplanation一作主页:https://gyhandy.github.io/下图概括了这篇文章要做的任务:为了解释原网络决策背后的推理逻辑 , 该研究回答了如下问题:为什么是消防车?为什么不是救护车?又为什么不是校车?该研究用结构化的视觉概念图(StructuralConceptGraph)作为解释的语言 , 其中概念图的节点(node)代表视觉概念(visualconcept) , 边(edge)代表视觉概念之间的结构和空间关系 , 点和边的颜色代表其对该类最终决策的贡献度(冷色:正向或暖色:负向):(1)为什么是消防车?从视觉概念角度 , 所有检测到的四个与消防车最相关的视觉概念(保险杠 , 消防车头 , 车轮 , 救援架)都对最终消防车的决策有正向贡献;从视觉概念的空间结构关系角度 , 四个概念之间的空间关系也都对决策有正向贡献 , 这说明视觉概念和他们之间的关系都像一辆消防车 。 (2)为什么不是校车?从视觉概念角度:从图中检测到的与校车视觉概念最接近的四个部分及其相关结构和空间关系都对校车的决策起到负向贡献(否定该图是校车的决策)尤其是概念1和概念2 , 与真正的校车概念最不相符 。 (3)为什么不是救护车?也同样可以得到相似的人们容易理解的 , 逻辑上的 , 视觉概念角度的解释 。
CVPR | 视觉推理解释框架VRX:用结构化视觉概念解释网络推理逻辑
文章图片
下面将详细介绍工作的具体内容 。
研究动机
在深度学习日益蓬勃发展的今天 , 深度神经网络不透明的决策导致的安全事故和隐患也越来越多 , 神经网络的可解释性对于人们如何更加信任、安全、可靠的使用他们至关重要 。 近年来有越来越多关注可解释性的研究 , 例如:pixel-level的方法(CAM[1]Grad-CAM[2]等)通过可视化输入图像和输出结果之间的相关性解释网络的决策 , 为理解神经网络决策依据找到了线索;concept-level的方法(TCAV[3]ACE[4]等)可以找到给定类别重要的视觉概念 。 然而 , 这些方法是否局限于解释相对low-level的相关性?是否有更加方便人们理解的更直观的high-level的解释方法?我们是否可以揭示神经网络内在的推理逻辑和因果关系?逻辑解释能否作为线索进一步帮助提高原网络的性能?
CVPR | 视觉推理解释框架VRX:用结构化视觉概念解释网络推理逻辑
文章图片
为了回答这些问题 , 该研究探究如何模拟和解释神经网络的推理逻辑 , 提出用结构化的视觉概念对神经网络决策背后的推理逻辑和因果关系进行解释 , 通过解答网络决策中「为什么是A , 为什么不是B?」的问题 , 用人们更容易理解的high-level视觉概念和视觉概念之间的关系解释神经网络的推理逻辑 , 并将其作为指导来提升原网络的性能 。
CVPR | 视觉推理解释框架VRX:用结构化视觉概念解释网络推理逻辑
文章图片
方法详述
该研究提出的视觉推理解释框架(VRX:VisualReasoningeXplainationFramework)包括三个主要部分:
(1)视觉概念提取器(VCE:VisualConceptExtractor)用来提取特定类别相关的重要视觉概念 , 并将图像表示为结构化的视觉概念图(SCG:StructuralConceptGraph);(2)概念图推理网络(GRN:GraphReasoningNetwork)以视觉概念图为输入 , 通过知识蒸馏和迁移来模拟原网络的决策过程;(3)可视化决策解释器(VDI:VisualDecisionInterpreter)用来解释原网络决策背后的推理逻辑和因果关系 。接下来对每个部分进行详细解释 。