147页详述结构在神经网络中的复兴,图注意力网络一作博士论文公开( 二 )

在这篇论文中，作者通过开发三种 structure‐infused 神经网络架构（在稀疏多模态和图结构数据上运行）和一种 structure‐informed 图神经网络学习算法来直接验证该假设，并展示了传统基线模型和算法的卓越性能。
重新引入结构归纳偏置
这篇文章的主要贡献是，缓解了在有额外结构信息可供利用的任务中可能出现的上述问题。利用关于数据的额外知识的一种常见方法是对模型应用适当的归纳偏置。
通常来讲，给定特定的机器学习设置，我们可以为该学习问题找到一个可能解的空间，该空间中的解都具备「不错」的性能。但一般来说，归纳偏置鼓励学习算法优先考虑具有某些属性的解。虽然有很多方法可以编码这些偏置，但作者将目光聚焦于将结构性假设直接合并到学习架构或算法中。这可以看作一种「meet‐in‐the‐middle」方法，即将经典的符号人工智能与当前的深度架构相融合。
通过直接编码数据中出现的结构归纳偏置，作者使模型更加数据高效，实现了预测能力的飞跃——尤其是在较小的训练数据集上。作者表示，这些并不是孤立的成果，而是代表了机器学习社区近期取得的一大进展。
研究问题与贡献
作者在论文中介绍了自己重点研究的三个问题，以及针对这三个问题所作的具体贡献，如下图 1.3 所示。

本文插图
图 1.3：论文主要贡献概览。
首先，他提出了两种具备专门结构归纳偏置的模型，用于多模态学习的早期融合。一种是网格结构输入模态（X‐CNN），另一种是序列输入模态（X‐LSTM）。
接下来，他概述了图卷积层的期望结构归纳偏置，并首次表明这在图注意力网络中可以得到同时满足。
【147页详述结构在神经网络中的复兴,图注意力网络一作博士论文公开】最后，作者提出通过 Deep Graph Infomax 算法，将局部互信息最大化作为图结构输入的无监督学习目标，从而引入非常强大的结构归纳偏置，结合图卷积编码器来学习节点表征。
问题一
Q1：研究用于多模态神经网络早期融合的可行候选层，并评估它们在困难学习环境下的实际可部署性和优势，特别是当输入数据稀疏或不完整时。
在该论文第三章和《X-CNN: Cross-modal convolutional neural networks for sparse datasets》、《Cross-modal Recurrent Models for Weight Objective Prediction from Multimodal Time-series Data》两篇论文中， Petar 提出了两种跨模态神经网络架构，可以在模态间执行早期融合，二者分别在网状（X-CNN）和序列（X‐LSTM）输入模态上运行。这些方法主要靠允许单独的模态流交换中间特征，从而更容易利用模态之间的相关性，还能保持全连接神经网络「数据流不受限」的特性，即使模型参数量要小得多。结果表明，这些方法比传统方法有更好的表现，特别是在训练集较小和输入不完整的情况下。
同时， Petar 还重点介绍了自己参与指导的两项相关工作。一项是将特征交换泛化至 1D‐2D 情况，在视听分类中获得了很好的结果。另一项工作则表明，尽管像 X-CNN 这类模型超参数数量有所增加，但这些超参数可以使用自动化步骤进行高效调节。
问题二
Q2：研究卷积算子从图像到显示图结构的输入的泛化（即图卷积层），清晰地描绘出这种算子的期望特性。是否有模型能够同时满足所有特性？这些理论上的特性在实践中能否表现良好？
在论文第四章和《Graph Attention Networks》中， Petar 回顾了 CNN 的优点，详细阐述了图卷积层的期望特性，并评估了为什么此前提出的这类模型需要牺牲掉其中的某些特性。然后，作者定义了图注意力网络 (GAT)，它将自注意力算子泛化至图领域。他得出的结论是：在这种设定下，自注意力拥有所有期望特性。作者将该模型部署到多个标准节点分类基准上，发现与其他方法相比，该模型的性能非常有竞争力。