如何斩获KDD Cup两冠一季？美团广告团队公开解决方案( 五 )

Aister 团队对五个离线图数据集进行分析后，发现图的类型多种多样。如表 4 所示，从图的平均度可以看出离线图 3、4 较为稠密，而图 1、2、5 较为稀疏；从特征数量可以看出图 5 无结点特征，其余图有结点特征；同时我们可以发现，图 4 是有向图，而其余图是无向图。
从表 4 我们可以看出，大部分图数据集的时间限制在 100 秒左右，这是一个很短的时间限制。大部分神经网络架构和超参数搜索方案都需要较长的搜索时间，数十个小时甚至长达数天。因此，不同于神经网络架构搜索，我们需要一个架构和超参数快速搜索的方案。

本文插图
表 4：五个离线图数据集的概况
如图 9 所示，该团队发现在图数据集 5 上存在模型训练不稳定的问题，模型在某个 epoch 上验证集精度显著下降。该团队认为这主要是因为图数据集 5 易于学习，会发生过拟合现象，因此在自动化建模过程中需要保证模型的强鲁棒性。

本文插图
图 9：模型在训练过程中的不稳定性
同时，从图 10 可以发现，保证每个数据集排名的稳定性相比于优化某个数据集的精度更为重要。例如数据集 5 模型精度差异仅为 0.15% 却导致了十个名次的差异，数据集 3 模型精度差异有 1.6% 却仅导致 7 个名次的差异。因此，该团队需要采用排名鲁棒的建模方式，来增强数据集排名的稳定性。

本文插图
图 10：不同选手在不同数据集上的精度及排名
基于以上数据分析，该赛题存在以下三个挑战：
图数据的多样性：解决方案要在多个不同的图结构数据上均达到优秀效果。图的类型多种多样，包含了有向图 / 无向图、稠密图 / 稀疏图、带特征图 / 无特征图等。
超短时间预算：大部分数据集的时间限制在 100 秒左右，在图结构和参数搜索方面需要有一个快速搜索方案。
鲁棒性：在 AutoML 领域，鲁棒性是非常重要的因素。最后一次提交要求选手在之前没见过的数据集上进行自动化建模。
冠军解决方案
针对以上三个挑战， aister 团队设计了一个自动化图学习框架，如图 11 所示，该框架对输入的图进行预处理和图特征构建。

本文插图
图 11：自动化图学习框架
aister 团队使用了多种具有不同特点的图神经网络，采用图神经网络结构和超参数快速搜索方法，还设计了一个多级鲁棒性模型融合策略，来分别克服上述三项挑战。最终，该团队的自动化图学习解决方案在较短的时间内对多个不同图结构数据进行结点分类，并达到鲁棒性效果。接下来，我们将详细介绍整个解决方案。
1. 图神经网络模型
为了克服图的多样性挑战，该团队结合谱域及空域两类图神经网络方法，采用 GCN、TAGConv、GraphSAGE、GAT 四个图神经网络模型对多种不同图结构数据进行更好地表示学习，每个模型针对不同类型的图结构数据具备各自的优势。
图作为一种非欧式空间结构数据，其邻居结点个数可变且无序，因此直接设计卷积核是困难的。谱域方法通过图拉普拉斯矩阵的谱分解，在图上进行傅立叶变换得到图卷积函数。 GCN 作为谱域的经典方法，公式如下所示：
其中 D 是对角矩阵，每个对角元素为对应结点的度， A 是图的邻接矩阵，其通过给每个结点加入自环使卷积函数获取自身结点信息，并在傅立叶变换之后使用切比雪夫一阶展开近似谱卷积，使每一个卷积层仅处理一阶邻域信息，通过堆叠多个卷积层达到多阶邻域信息传播。