周伯文对话斯坦福教授曼宁：人机对话智能新进展需要新「图灵测试」( 三 ) (导语)6 月 22&

另一个例子是在论文《Self-AttentionGuidedCopyMechanismforAbstractiveSummarization》中,自注意力机制(self-attention)可以帮助我们在对话任务和文本摘要任务上,生成了更多更自然的语句。

据了解,京东智联云在跨模态内容生成上已取得诸多成果,并正式应用到京东的业务流程中。目前京东智联云打造的智能写作产品,是基于商品图谱和语言模型构建的营销内容智能生成服务,在2020年京东618期间,已覆盖过京东零售过半数的商品品类,创作出的导购素材,曝光点击率相较于人工撰写的内容高出40%,让用户在大促高峰期间也享受到优质服务。

这样一些接近实用化的方向已经受到了NLP新范式的帮助。毫无疑问,使用预训练的模型现在可以生成很自然的文本以及对话。但目前的预训练模型还称不上完美,曼宁指出,我们还没法控制这些模型生成的内容。

超越图灵测试的AI新基准

若想实现更好的人工智能,我们必须拥有完美的评测基准(Benchmark),几十年以来我们一直将图灵测试作为「真正人工智能」的测试标准。但图灵测试是以AI模仿人类,试图「欺骗」测试者进行无特定内容对话的形式来进行的。对于研究者来说,这个过程一直存在难以量化的问题。

在NLP技术发展多年后的今天,「我们会不会出现可以代替图灵测试的新基准呢?」周伯文在对话中提出了这个问题,「过去的几十年中,图灵测试一直是基准,但是在日常研究中,它让我们的研究目标变得明确,对结果推动又没有太多直接的帮助。」

「这个问题很有趣,也很难回答,」曼宁表示。「我同意这个看法——图灵测试不是非常清楚的基准。某种程度上我们需要找一个另外的方法,标量真正的理解、真正的持续对话。但我一时没法给出完美的答案。」

不过周伯文有一个「稍显疯狂」的主意,有关最近正火的直播带货:热门主播几个小时可以带几千万元的货。这种互动形式看起来非常吸引人,究其根本,它是一个实时的、富有交互性的方式。在这里播主和观众用弹幕和语音实时交流,这似乎为对话型AI提出了更多的要求。

原本的图灵测试,不会预先指出被测试者的身份,通过评判相似性去界定智能化水平;那么,我们是不是可以直接公开使用两个对话型AI做直播带货,通过统计以每小时能卖出多少商品的可量化指标来对比哪个AI的对话更吸引人,从而评估对话型AI的智能化水平?

这样的话,所有评价指标都可以量化,形式也非常接近于真实世界。

「这是一个非常有趣的想法,可以带来非常清楚的评价指标,」曼宁表示。「直播对于我来说是一个很新鲜的概念,某种程度上来说,这是一个非常直接的评价方式。我不清楚是否完美,但它很有创意:一个人类销售想要成功,并不取决于对潜在消费者传递信息的完美平衡,有时还需要提出超出实际一点点的主张,更加强烈地表达自己的观点。」

周伯文表示,在未来几个月里,京东会对这个方向进行一些尝试和研究。

学术界如何在预训练时代引领前瞻性研究

今天的人工智能研究正凭借算力的增长而快速发展,随着模型体量的增加,学界研究者面临的挑战越来越大。对于研究者们来说,即使希望方法足够创新,也会在大会上宣讲论文时受到这样的挑战:「你使用的基准是最新的吗?」这意味着你不得不直面大量数据。