别再用假任务做小样本学习实验了！快来试试全新小样本基准数据集FewJoint NLP小样本研究往往使用人为构造的N分类

文章插图
NLP小样本研究往往使用人为构造的N分类任务来评价模型性能。然而，一方面，这些人造的简单任务不能反映真实世界NLP问题的复杂性；另一方面，现有NLP小样本研究缺乏一个统一的benchmark ，导致实验效率低下。
为此，我们标注了全新的小样本联合学习基准数据集FewJoint ，并基于该数据集组织了SMP2020-ECDT小样本对话语言理解评测，同时提供了适配FewJoint的全新小样本工具平台MetaDialog 。
本文主要内容：
1. FewJoint 基准数据集介绍
2. SMP2020-ECDT小样本对话理解评测介绍
3. 小样本平台工具MetaDialog
4. 相关链接
1 FewJoint基准数据集介绍
1.1 简介
小样本学习（Few-shot Learning）旨在像人一样只用几个样本学习新的任务，近年来已经成为受到整个机器学习社区关注的热点问题，并被看作是让机器智能接近人类智能的关键方向。
文章插图
图1：小样本学习旨在让机器像人一样用几个样本进行学习
Few-shot Learning在计算机视觉领域和理论领域快速发展，但在NLP领域的进展却相对缓慢。造成这种差异性的一个主要原因是缺少公共的评价基准（benchmark）。已有的Few-shot NLP研究多是在自己构造的数据集上进行实验，研究者经常需要复现前人工作而不同论文的结果也往往不是直接可比较的。这种低效的实验方式极大地影响了研究效率，也阻碍了方法的累积进步。
为此，我们推出了一个全新的小样本基准数据集 – FewJoint ，基于该数据集，我们还组织了SMP 2020的小样本对话语言理解评测。不同于过往的NLP小样本研究使用人为构造的简单文本分类任务，我们引入了包含59个真实领域的对话语言理解任务（Spoken Language Understanding ， SLU）。 SLU任务在简单文本分类（Intent Detection）之外，还涵盖了序列标注（Slot Filling）与多任务联合学习（Joint Learning）。这些更高级且真实的任务使得FewJoint能比现有的简单文本分类任务更好地反映真实世界NLP任务的难度和复杂性。
FewJoint 基准数据集主要有如下几个特点：
? 包含59个真实domain ，目前domain最多的对话数据集之一，可以避免构造模拟domain ，非常适合小样本和元学习方法评测。
? 反映真实NLP任务难度，打破目前Few-shot NLP只做文本分类等简单人造任务的局限性。
? 完全公开，提供易用的NLP Few-shot Learning Benchmark 。
? 提供配套NLP few-shot learning 工具平台——MetaDialog ，方便快速开展实验。
1.2 数据集构造
我们选取了讯飞AIUI开放平台上的59个真实对话机器人API作为我们的领域。用户语料的来源主要包括两部分：
（1）来自平台真实用户语料
（2）领域专家人工构造的语料
两个数据来源的数据比例大概为3：7 。
在对每一条数据进行用户意图和语义槽标注后，我们将所有59个domain分成3个部分：45个训练domain ， 5个开发domain ， 9个测试domain 。我们将测试和开发domain数据重构为小样本学习形式：每个domain 包含一个人工构造的K-shot 支持集（support set），以及一个由剩余其他数据组成的查询集（query set）。
文章插图
图2：FewJoint 小样本数据样例
如图2所示，在FewJoint上实验时，模型先在训练domain上学习通用的先验知识。然后在每个测试domain上，模型根据少量support set中的样例，预测查询集中的样本的用户意图（Intent）和语义槽（Slot）。