语法数据扩增提升推理启发法的鲁棒性( 四 ) 摘要诸如BERT的预训练的神经模型在微调

文章插图
图 2：使用主语/宾语倒置与转换假设结合进行扩增。点表示对每种启发法进行 HANS 实例诊断的准确度，这是由在 MNLI 上微调的 15 次 BERT 运行与每个扩增的数据集相结合所得到的。水平条表示整体运行的中位数准确度。
? 现在，我们来更详细地分析最有效的策略，即倒置结合转换假设。首先，该策略在抽象层面上与 HANS 的主语/宾语交换类别相似，但是两者的词汇与语法特性均有不同。尽管存在这些差异，但模型在 HANS 类别上的表现在中型与大型扩增条件下都是完美的（1.00），这表明 BERT 能从转换的高级语法结构中受益。对于小的扩增集，此类别的准确性为 0.53 ，表明有 101 个实例不足以使 BERT 知道不能随意的交换主语与宾语的对象。相反，将扩增大小从中型变至大型，能在 HANS 的子案例中产生适度且易变的效果（见附录 A.3 了解具体个案的结果）；为了更清楚的了解扩增大小的影响，可能还需要对该参数进行更密集的采样。
? 尽管倒置是该扩充集中的唯一转换，但是除了主语/宾语交换之外，其他结构的性能也得到了显著的提高（图 2）；例如，模型能够更好地处理包含介词短语的实例，例如，经理背后的法官看医生(The judge behind the manager saw the doctors)并非蕴含医生看经理(The doctors saw the manager) ，（未扩增：0.41；大型扩增：0.89）。在以子序列启发法为目标的案例中，有一个更平缓，但仍然十分明显的提升；这种较小程度的提升表明，对连续子序列从词汇重叠中分离处理更具泛化性。一个例外是对“NP/S”推论的准确性，例如
文章插图
，这一准确度从 0.02（未扩增）大幅提升至 0.5（大型扩增）。因此，对子序列案例的进一步改进可能需要涉及子序列的数据扩增。
在过去的一年中，人们提出了一系列技术来提高 HANS 的性能。这些模型包括语法感知模型(Moradshahi et al., 2019; Pang et al., 2019) ，旨在捕获预定义浅层启发法的辅助模型，以使主模型可以专注于稳健策略(Clark et al., 2019; He et al., 2019; Mahabadi and Henderson, 2019)以及提高难度训练实例权重的方法(Yaghoobzadeh et al., 2019) 。尽管其中的一些方法在 HANS 上比我们的方法具有更高的准确性，包括更好的泛化了成分和子序列的情况（参见表 A.4），但它们并不具有直接的可比性：我们的目标是在不修改模型或训练程序的情况下，评估训练集中的具有语法挑战性的实例是如何影响 BERT 的 NLI 的表现的。
6. 讨论? 我们最佳效果的策略是通过对 MNLI 实例的主语/宾语倒置转换而生成的少量 MNLI 实例来扩增 MNLI 训练集。这产生了可观的泛化能力：既是对另一个域而言的（HANS 挑战集），更重要的是，其也适用于其他结构，如关系从句和介词短语。这支持了缺失连接假设：对一个结构进行少量扩增会引起抽象的语法敏感性，而不是仅仅通过为模型建立来自同一分布的案例样本来“接种(inoculating)”模型，以防止在挑战集上失败(Liu et al., 2019) 。
? 同时，倒置转换并未完全抵消启发法，特别是，这些模型在被动句上的表现较差。因此，对于这些结构， BERT 的预训练可能在通过一个较小的扩增后，也仍无法产生强有力的语法表现形式；换句话说，这可能是我们的代表性不足假设成立的情况。该假设预测，作为单词预测模型的预训练 BERT 对于被动词处理困难，并且可能需要专门针对 NLI 任务学习其对应结构的特性；这可能需要大量的扩增实例。
? 表现最佳的扩增策略是从一个单独原句生成前提/假设对，这意味着该策略不依赖于 NLI 语料库。我们可以从任何语料库生成扩增实例，这使得我们有可能测试非常大的扩增集是否有效（当然，请注意，来自不同领域的扩增语句可能会影响在 MNLI 上本身的表现）。