周伯文对话斯坦福教授曼宁:人机对话智能新进展需要新「图灵测试」( 五 )

目前有关可信赖AI已经达成6个共识,包含公平、鲁棒性(技术的可用性)、价值对齐(技术提供者、使用者和产品应用方都认为产品带来价值)、可复制、可解释以及负责任 。 构建可信赖的AI一面是对技术的巨大挑战,一面是人文精神,无论是京东智能情感客服传递温暖、亦或京东物流设施传递信赖,都是对人类的社会责任与价值体现 。

曼宁认为,人工智能学界目前在可解释性方面已经取得了一些进展 。 一方面是像transformer这样的预训练模型,注意力机制带来的好处——这些模型具有相当高的可解释性 。

「我的一些学生发表过论文试图解读BERT的运作机制 。 现在,我们已能够对这些模型进行大量解码,并看到这些模型不仅是巨大的联想学习机器,而且它们实际上是在学习人类语言的结构,其解句子的语法结构,了解哪些词是指同一实体,」曼宁说道 。

因此,我们已经能够获得模型内部的可解释性,这意味着模型可以对其整体行为做出某种决定的原因做出一些解释 。 当然,这里还有很多工作要做,斯坦福研究者们正进行的工作希望就驱动模型决策的特征进行解释 。

曼宁教授在6月份还以第一作者的形式发表了论文《Emergentlinguisticstructureinartificialneuralnetworkstrainedbyself-supervision》,其中写到预训练模型实际上可以学习语言结构,不需要任何监督 。 这解释了为什么大规模的模型是可行的 。 但是对于下一步如何更好的理解他们是怎么学习到的,这个目前还不太清楚,周伯文指出「这部分需要可信赖的AI来解决」 。

这些发现非常令人兴奋 。 之前我们总是认为想让AI在某些任务上工作良好,需要是大型有监督模型 。 因此我们总是以大量资金、雇佣很多人进行数据标注开始 。 这是过去20年来的工作范式,人们也是通过这种形式在某些任务上让NLP模型达到接近人类水平的 。

「如果下一代人工智能机器本质上和十年前一样,而考虑到训练的内容大幅增加,我们实际上是倒退了,而不是前进了,」曼宁说道 。

「从技术角度来看,我将专注于尝试提高NLP的鲁棒性以及可解释性 。 在NLP领域中,如果了解NLP的结构,了解NLP的语义,将是人们构建可信任AI向前迈进的一大步,」周伯文表示 。 「如何预测下一个单词的过程对于人们来说还是一个黑箱 。 另一个方向是可扩展性,当我们从一个任务转移到另一个任务时,模型需要迁移得足够好 。 无论如何,可信赖的AI非常重要 。 如果我们可以在这个领域取得更大的进步,AI市场和AI应用将变得越来越大、越来越多,并且适应性也将大大提高 。 因此,这将是我们长期关注的重点 。 」

2020智源-京东多模态对话挑战大赛

在2019年,京东举办了JDDC对话大赛,去年的主题是Knowledge-enhancedTask-OrientedDialogue,今年在智源大会上举办的对话大赛则主要关注对话中的多模态交互,即研究如何更好的理解对话中的多模态信息,产生Task-OrientedConversationalresponse 。

本次竞赛的数据来自于脱敏后的京东真实客服对话日志,共包含约200万轮次的对话,其中用户问题涉及约图片约50万张 。

周伯文介绍到,为支持参赛队伍更好的比赛,本次大赛还提供了约3万商品的小型商品知识库,和2万张图片的标注数据 。 大赛开始三周,到目前为止已有超过400人参加比赛 。