图神经网络越深,表现就一定越好吗?( 二 )


1、图结构
因为网格属于特殊图 , 目前也有一些案例可以说明深度对这类图有益 。 除网格图外 , 研究发现深度结构对一些象征结构的几何图(如分子、点云、网格等)是有促进作用的 。 为什么这些图与常用于评估图神经网络的引文网络(如Cora、PubMed与CoauthorsCS)如此不同呢?其中一个差异是引文网络就像直径小的“小世界”( small world) , 在这个“小世界”里 , 任意节点都可以在短短几步跳到其他节点 。 因此 , 感受野只需具备几层卷积层即能够覆盖整个图 , 再增加层数也无更大助益 。 另一方面 , 在计算机视觉中 , 感受野成倍增长 , 需要更多层数来建立一个能捕捉图中物体背景的感受野 。
图神经网络越深,表现就一定越好吗?
本文插图
在上图顶部的“小世界”图中 , 只需几步就能从一个节点跳到其他任意节点 , 因此邻域的数量以及相应的图卷积滤波器的感受野呈指数快速增长 。 我们可以看到 , 从红色节点到任意节点仅需两跳(不同颜色表示从红色节点开始到达各个节点的图层) 。 另一方面 , 在上图底部的网格图上 , 我们看到感受野呈多项式增长 , 因此需要更多的层数才能形成大小相同的感受野 。

图神经网络越深,表现就一定越好吗?
本文插图
如上图所示 , 邻域呈指数增长 , 并出现了“信息瓶颈”现象:来自许多个领域的大量信息不得不被挤压成单个的节点特征向量 , 结果导致信息无法传播 , 且模型性能下降 。
2、远程问题vs.短程问题
作者认为在探讨深度与图深度学习的关系时会涉及到远程与短程信息的处理 。 比方说 , 社交网络的预测只依赖本地领域节点的短程信息 , 无法添加远程信息进行改善 , 因此多运用浅层GNN进行预测 。 另一方面 , 分子图往往需要用到远程信息 , 因为分子的化学性质可能由其相斥的原子组合决定 。 深度GNN可能会被应用于处理远程信息 , 但如果图结构导致感受野呈指数增长 , 信息瓶颈现象则会阻止远程信息的有效传播 。 这也是为什么深度模型的性能无法提高 。
3、理论局限性
深度结构除了能使感受野更广 , 还能使计算机视觉基于简单特征合成复杂特征 。 研究者通过将卷积神经网络从人脸图像学到的特征可视化 , 发现简单的几何图元逐渐变得越来越复杂 , 并最终能形成完成的面部结构 。 这个现象表明传说中的“祖母神经元”(grandmother neuron)很可能真实存在 。
这些将简单特征合成为复杂特征的方法 , 对图来说看似天方夜谭 。 比方说 , 无论神经网络的层数有多深 , 都无法基于边缘角/线合成一个三角形 。 另一方面 , 研究表明 , 必须设定最小深度 , 才能使用通过网络的消息来计算图的属性 。 目前人们无法确定哪些图的属性可以通过浅层GNN计算、哪些必须通过深层模型计算、哪些又是任何类型的GNN都根本无法计算的 。
以下是卷积神经网络基于人脸图像学习到的人脸特征示例 。 大家可以注意到:随着图层的加深 , 图像特征逐渐变得更复杂 , 人脸结构也更加齐全 。
图神经网络越深,表现就一定越好吗?
本文插图
图源自Matthew Stewart的一篇博文:https://towardsdatascience.com/advanced-topics-in-deep-convolutional-neural-networks-71ef1190522d
4、深度与丰富度
图深度学习与计算机视觉相反的一点在于:在计算机视觉中 , 底层网格是固定的 , 而在图深度学习中 , 图结构是一个非常重要的考虑要素 。 标准图神经网络无法定位的一些复杂高阶信息(如motifs 和substructure counts) , 我们有可能设计出更精细的信息传递机制来解决 。 比方说 , 研究人员可以选择配备多跳滤波器(multi-hop filters)的浅层网络 , 而不是运用简单的单跳卷积(1-hop convolutions)深度结构 。