韭菜花音乐|中科院计算所沈华伟:图神经网络表达能力的回顾和前沿( 四 )


文章图片
那篇文章在2019发表之后 , 引起了很大的关注 , 其实后来有很多人进行了讨论 , 我把这些问题抛在这里 , 大家讨论一下 。 第一个问题 , 高的表达能力 , 到底是不是必要的 , 我们有没有必要构造出这么高表达能力的图神经网络?我们能否做出一个通用的极强表达能力GNN , 然后再也不用考虑表达能力这个问题了?我们现在并没有得到这个问题的答案 。 对于节点分类 , 基本上可以提供universalapproximitor , 对于图分类无法做到 , 不仅做不到 , 而且有些场景下表现还特别差 。 那么 , 对于特殊的任务 , 我们有没有必要构造出高表达能力的东西呢?前面提到 , 如果表达能力很差 , 泛化能力肯定不好 , 表达能力好的 , 泛化能力也未必好 。 这在一定程度上也解释了为什么GNN和GraphSAGE聚合函数不是单射 , 表达能力有限的情况下 , 为什么还能在一些任务上表现非常棒 。 在一些场景下 , GNN的大部分表达能力其实用不上 。 我们真正需要什么呢?我们需要的是它可以把相似的对象 , 例如相似的节点和图映射成相近的表达 。 那么问题又来了 , 用什么衡量是否相似?所以就有很多度量两个图是否相似的工作 。 另外 , 判断一个复杂对象 , 能不能分解成简单对象进行表达这也是个值得探讨的问题 。 第二个问题 , 关于结构 。 其实我们都希望GNN学到结构 , 大家研究GNN这几年 , 也都明白了GNN在结构上无能为力 , 只是用结构进行了约束 , 做了平滑 。 举例而言 , 什么是一个好的图表达?假设一个分子结构图里面有一个苯环 , 能不能把这个分子式分成苯 , 还是说分子式中有很多苯环的情况下 , 才能分成苯 。 这个问题的本质 , 其实在回答我们做的是信息抽取还是相似性度量 。 如果想做信息抽取 , 也就是想识别出分子式里面有没有苯结构 , 现在的GNN做不到这一点 , 或者必须再设计一些别的方式才能达到 。 所以 , 这两年大家一直在思考 , GNN研究的是模式识别 , 还是说只是图相似性的度量方式 。
韭菜花音乐|中科院计算所沈华伟:图神经网络表达能力的回顾和前沿
文章图片
第三个问题 , 能不能构造一个更强大的GNN呢?也即表达能力更强大的GNN?关于表达能力 , 一阶WLTest已经在理论限制突破能力 。 这两年大家更多的研究方式是把常用的1阶WLTest拓展成K阶 , 所以就有了KGN的方式 。 在这样K阶的WLTest方式下 , 表达方式已经突破1阶的能力 , 但是成本也比较大 , 因为需要处理的对象增加了很多 。 这种方式给大家起了抛转引玉的作用 , 给提升GNN表达能力提供了一种思路 。 但是这种把所有可能都列出来的方式并不是我们所需要的 , 我们想要的是一个layer-by-layer的网络 , 也即如果网络每一层非常简单 , 层次的堆叠是逐渐提升的 , 然后获得一个更强大的表达能力 。 所以 , layer-by-layer网络也是未来几年大家应该去探索的一个问题 。 所以现在我把这个问题抛出来了 , 你能设计一个这样layer-by-layer的网络 , 从而获得一个比GNN更强大的表达能力吗?