中年ACL 2020：微软最佳论文,Bengio论文获时间检验奖,大陆论文量第二 |微软|大陆|

参与：魔王、小舟、杜伟
在陆续放出时间检验奖、终身成就奖和杰出服务奖之后， ACL 2020 终于公布了今年的最佳论文奖。该奖项由来自微软研究院、华盛顿大学和加州大学欧文分校的研究者摘得，主题是与任务无关的 NLP 模型测试方法。

本文插图
ACL 是自然语言处理领域的顶级会议，根据刚刚发布的最新版 Google Scholar Metrics ， ACL 继续领跑计算语言学领域， h5 指数达到 135 。
今年的 ACL 会议于本月 5 日至 10 日在线上召开。此次会议公布了最佳论文、最佳主题论文、最佳 demo 论文、时间检验奖等多个奖项。
此外，大会官方也介绍了今年的接收论文、热门研究主题等数据。
ACL 2020 共收到投稿 3429 篇，创下了 ACL 投稿数量的新纪录。此次会议共接收论文 779 篇，包括 571 篇长论文和 208 篇短论文，论文接收率为 22.7% 。

本文插图
接下来，我们看下 ACL 2020 的热门研究主题。

本文插图
用于 NLP 的机器学习、对话与交互技术、机器翻译、信息提取和 NLP 应用是此次会议最热门的 5 个研究主题，每个都有超过 200 篇论文投稿。其中「用于 NLP 的机器学习」主题的论文投稿接近 300 篇（296）。

本文插图
此外，大会公布了论文提交数量最多的 25 个国家或地区，中国大陆以 1084 篇的提交量位列第一，其次是美国。
从接收论文的数量看，排在前 5 位的国家或地区分别是：美国（305 篇），中国大陆（185 篇），英国（50 篇），德国（44 篇），日本（24 篇）。
接下来就是今天的重头戏——奖项了。
最佳论文奖
ACL 2020 最佳论文奖项由来自微软研究院、华盛顿大学、加州大学欧文分校的研究人员摘得，该研究提出了一种与任务无关的 NLP 模型测试方法。

本文插图
论文链接：https://www.aclweb.org/anthology/2020.acl-main.442.pdf
简介：尽管衡量留出（held-out）准确率是评估模型泛化性能的主要方法，但它通常会高估 NLP 模型的性能，而其他评估模型的替代性方法要么专注于单项任务，要么只看特定行为。
受软件工程中行为测试原则的启发，这项研究提出了一种与任务无关的 NLP 模型测试方法——CheckList 。 CheckList 不仅包含一些通用语言能力和测试类型以促进全面的测试，还包括一个软件工具，能够快速生成大量不同测试案例。
研究人员在三项任务中测试了 CheckList 的效果，在商业化模型和 SOTA 模型中都发现了严重的问题。一项用户调查显示，负责商业化情感分析模型的团队在一个经过大量测试的模型中发现了新的 bug 。而在另一项用户调查中，使用 CheckList 的 NLP 从业者创建的测试数量是未使用 CheckList 的两倍，发现的 bug 数量是后者的三倍。
此外，大会还公布了最佳论文荣誉提名奖，共有两篇论文获得此奖项。

本文插图
最佳主题论文奖
此次会议的最佳主题论文奖由来自美国华盛顿大学和德国萨尔大学的研究者摘得。