别看人工智能作诗写文章是把好手，新测试显示缺乏常识仍是人工“智障” 自然语言处理(NLP)最近取得了很大的进

文章插图
自然语言处理(NLP)最近取得了很大的进步，但是人工智能对它所读内容的理解有多少呢？据南加州大学计算机科学系的研究人员称，比我们想象的要少！在最近的一篇论文中，助理教授Xiang Ren和博士生Yuchen Lin发现，尽管人工智能取得了进步，但它仍然不具有生成合理句子所需的常识。
“目前的机器文本生成模型可以写出让很多人自叹不如的文章，但它们基本上是在模仿训练阶段看到的东西。 ” Yuchen Lin说， “我们在这篇论文中的目标是研究当前最先进的文本生成模型是否能够写出一些句子，来描述我们日常生活中的自然场景。 ”
理解日常生活中的场景
具体来说， Xiang Ren和Yuchen Lin测试了文本生成模型的推理能力，表明当前文本生成模型与人的表现存在很大差距。给定一组常见的名词和动词，最先进的NLP计算机模型的任务是创建描述日常场景的正确句子。虽然这些模式生成的句子语法正确，但它们常常在逻辑上不连贯。
例如，一个个由最先进模型生成的句子，采用了单词“狗，飞盘，扔，抓”：
“两只狗互相扔飞盘。 ”
这个测试是基于这样一个假设，即如果对常识概念没有更深层次的认识，就不能产生连贯的想法(在这个例子中应该是:“一个人扔了一个飞盘，一只狗抓住了它”) 。换句话说，常识不仅仅是对语言的正确理解，它意味着你不必在对话中解释一切。这也是开发可推广的人工智能的一个基本挑战——但在学术界之外，它也与消费者相关。
如果不了解语言，建立在这些最先进的自然语言模型上的聊天机器人和语音助手很容易露馅。机器人是否能更多地出现在人类环境中也是至关重要的。毕竟，如果你让机器人热牛奶，你希望它知道你想要的是一杯牛奶，而不是整盒牛奶。
“我们的研究还表明，如果一代模型在我们的测试中表现更好，它也可以有益于其他需要常识推理的应用，比如机器人学习。 ” Yuchen Lin说， “机器人需要了解我们日常生活中的自然场景，然后才能做出合理的动作与人互动。 ”
常识测验
常识推理，也就是利用世界的基本知识进行推断的能力——就像狗不能互相扔飞盘一样——几十年来一直人工智能研究人员前进路上的障碍。最先进的深度学习模型现在可以达到90%的准确率，所以NLP似乎已经接近了它的目标。
但是，作为自然语言处理方面的专家， Xiang Ren和他的学生Yuchen Lin需要更多的证据来证明这一统计数据的准确性。他们的论文发表在11月16日的自然语言处理(EMNLP)实证方法发现会议上，他们对基准的有效性提出了挑战，因此，也对该领域实际取得的进步水平提出了挑战。
“人类通过学习理解和利用他们在周围环境中认识到的常见概念来获得造句的能力。 ” Yuchen Lin说。
“获得这种能力被认为是人类发展的一个重要里程碑。但我们想测试一下，机器是否真的能够获得这种生成常识的推理能力。 ”
为了评估不同的机器模型，他们开发了一个受限的文本生成任务，称为CommonGen ，它可以作为测试机器生成常识的基准。研究人员展示了一个包含35141个概念和77449个句子的数据集。他们发现，即使是表现最好的模型，准确率也只有31.6% ，而对人类而言，准确率为63.5% 。
“让我们惊讶的是，这些模型想不起一个简单的常识，那就是‘人扔飞盘’应该比‘狗扔飞盘’更合理。 ” Yuchen Lin说， “我们发现，即使是最强的T5模型，在使用大数据集进行训练后，仍然会犯愚蠢的错误。 ”
研究人员说，似乎之前的测试并没有充分挑战这些模型在常识方面的能力，而是模仿了它们在训练阶段所看到的。