周伯文对话斯坦福教授曼宁:人机对话智能新进展需要新「图灵测试」( 二 )

在2020年,我们通过超大尺寸模型实现了巨大的进步 。 基于RoBERTa预训练模型,我们可以实现95%的科学问题回答准确率,这看起来是目前解决知识问题的最好方法了 。

这些进步为新一轮商业应用打开了道路 。 「未来的方向虽然还无法确定,但我们可以看到基于预训练语言模型,为搜索引擎公司等科技企业带来了很多新商业机会,」曼宁表示 。 「他们可以实现近十年来最大的单个技术进步,构建更好的机器翻译系统,对话AI,人工智能客服系统等等 。 现在,我们正在经历NLP领域激动人心的时刻 。 」

NLP领域最近发生了从特定任务模型向多任务,大规模预训练模型方向转变的重要变化 。 一方面,工业界乐于看到BERT这样模型在下游应用上的前景 。 但对于学界研究者来说,这种发展大大提高了新研究的门槛 。 看看GPT-2到GPT-3,它的参数从15亿增加到了1750亿 。 但如果仔细观察的话,你会发现模型对知识的获取和推理性能的提高,可没有参数增加的数量那么多 。

针对这一问题,周伯文指出「在查看GPT-2、GPT-3相关论文后,有一件事情引起了我的注意,那就是-当我们从零样本学习(zero-shot)到单样本(one-shot)学习时,我认为GPT-3改进了很多 。 这有效证明了,从小型模型转换为大型模型时,预训练等于更多的信息 。 」

与此同时,周伯文发现,从单样本(one-shot)学习过渡到少样本(few-shot)学习时,GPT-3或GPT-2的改进非常非常有限 。 周伯文指出:「我认为这从另一方面证明,这些更大规模的模型可能并没有学习到足够多的信息 。 」

由此观之,知识的获取和表征可能仍是NLP的正确方向 。

曼宁认为,目前的大规模预训练模型可能存在一些「根本性」的错误——这些模型非常低效率 。 从现实世界人们的对话中学习知识的表征,总不是一个好方法 。 可能5年后人们往回看就会嘲笑现在的工作:「看看这些人吧,只想着把模型做得越来越大就妄想能够实现人工智能了 。 」

对于研究者来说,我们必须寻找更加有趣的,让模型可以思考、能够更高效提取知识的方法 。 某种程度上,人们应该需要找到更好的知识编码机制,这有关知识空间,语义连接的更好表达方式 。 这可能和传统NLP的知识图谱和知识表征有关 。 所以让模型记忆和推断真实世界的情况,看起来从基础上就不是一个正确的,高效的方法 。

「人类不是通过这种方法学习知识的 。 人类存储的知识很少,但可以理解大量知识 。 」曼宁说道 。


周伯文对话斯坦福教授曼宁:人机对话智能新进展需要新「图灵测试」

----周伯文对话斯坦福教授曼宁:人机对话智能新进展需要新「图灵测试」//----

(图注)GPT-3通过高达1750亿参数实现了其他模型无法匹敌的文本生成效果 。

周伯文对话斯坦福教授曼宁:人机对话智能新进展需要新「图灵测试」。作为一个在该领域中务实的研究人员,周伯文非常关注最近预训练的大规模语言模型以及对语言任务进行微调的功能 。 在一个月前放榜的自然语言处理顶会ACL2020上,周伯文等人有两篇论文被接收 。

「在论文《OrthogonalRelationTransformswithGraphContextModelingforKnowledgeGraphEmbedding》中,我们得出的结论是通过预训练模型,我们可以生成非常自然的商品介绍,内容来自预训练模型,还有图片、知识图谱和用户的评价,」周伯文表示 。