足够好的组合数据扩增( 五 )


与第 4 节一样 , 我们手动检查了 100 个合成句子 。 和以前一样 , 对句子进行语法评估;在这里 , 由于未提供显式语义 , 因此将对它们进行通用语义可接受性评估 。 在这种情况下 , 只有 51%的合成句子在语义上是可以接受的 , 但有 79%的合成句子在语法上是可以接受的 。
足够好的组合数据扩增文章插图
图 5:英语建模任务中的句子合成
6、讨论我们介绍了一种简单的数据扩增方案 GECA , 该方案基于识别由通用上下文许可的局部短语替换 , 并演示了使用 GECA 生成的额外训练样本可以显著改善用于语义解析和语言建模的诊断和自然数据集 。
虽然这种方法在目前的形式下是非常有效的 , 但我们认为这些结果主要是为了更仔细地考虑句子片段表示在黑盒序列模型中有关组合性的更大问题中所起的作用 。 本文详细介绍的过程依赖于精确的字符串匹配来识别通用上下文;将来的工作可能会利用跨度及其环境的学习表示形式 。 当语法信息可用时 , 可以通过限制提取的片段以遵守组成边界来获得进一步的改进 。
这里介绍的实验集中在使用数据集中的证据重写句子 , 以鼓励归纳为新的输出 。 基于释义的数据扩增的另一种工作方式使用外部纯文本资源 , 鼓励对与已知输出相对应的新输入进行强有力的解释 。 这两种工作可以结合起来 , 例如使用 GECA 识别的片段来指示子句释义的有效位置 。
更一般地说 , 目前的结果强调了当前的模型在多大程度上没有学习到简单的、与上下文无关的重用概念 , 但是也强调了在模型架构没有根本改变的情况下解决这个问题是多么容易 。
【足够好的组合数据扩增】本文由南京大学软件学院 2020 级硕士生袁博翻译转述