如何评测一个智能对话系统(四)
编辑导语:随着科技的不断发展,智能设备逐渐深入我们的生活中;在上一篇文章中作者介绍了智能对话系统标注数据的采样,标注问题的设计以及问题背后的技术原理;本文作者将带我们继续了解对话系统的特征,我们一起来看一下。
文章插图
在上一章中我们介绍了分布式对话系统评测方法的具体实现细节,包括数据的分类和采样,标注问题的设计与其背后的技术原理;我们详细阐述了获取标注数据,以及制定语言数据话题类型的方法;同时,我们还介绍了基于6个维度的信息特征而分解出来的12个封闭式问题;我们将数据与问题相互对应,就形成一份可操作,可统计的对话评测标注任务。
接下来,我将介绍如何通过分布式对话评测方法对一个对话系统进行评估;基于智能对话系统的特征,我们将评测任务分为两大类:单轮对话评测任务;多轮对话评测任务。
我们先来对这两个概念做一个定义:
单轮对话:
在单轮对话的场景中,我们向被测试的对话系统发送一组自然语言语句,该对话系统将针对每一个输入语句进行理解,并给出相应的输出内容;这里我们期待对话系统能够还原真实人类的对话场景,较好的理解每一个输入语句,并给出合理且得体的回复。
多轮对话:
在多轮对话的场景中,我们围绕一个固定的话题,向对话系统发送一连串的自然语言内容;对话系统需要结合上下文内容,在设定话题的范围内,连续的给出相关联的回复内容,并将话题不断的延续下去。
为什么要对单轮对话场景和多轮对话场景分别做评测呢?
这就涉及到智能对话系统的自身的特性与技术瓶颈。我们在之前的文章中介绍过,智能对话系统共分为三个类型,即问答型,任务型,以及开放型(闲聊型);每一类型的对话系统都有自己独特的实现方式,同时也存在着特定的优势与短板,不同的对话系统会根据其目标场景和服务对象进行差异化的设计。
因此,为了确保评测任务的客观性和有效性,我们将单轮对话场景与多轮对话场景分离开来,分别制定了不同的评测任务。
具体的评测任务如下:
一、单轮对话评测首先,我们将预设数据集中的1500条数据逐一输入被测试的问答系统当中,并将系统所输出的答案记录下来,从而生成1500组问答对;我们将在这1500组问答对中随机抽取500组作为评测任务数据集。
接下来,我们将前一篇文章所总结的6个评测维度与12个评测问题进行分类,目的是便于人工标注和统计。
我们将“回复是不是符合正确的语法”和“回复内容是不是不可以被接受(色情,暴力,消极、辱骂,政治等)”这两个问题单独挑选出来作为一组独立的评判标准;我们把这组评判标准定义为“一级评判标准”。
我们将「内容关联度」和「逻辑关联度」合并成「关联度」。这样一来,6个评测维度就整合成5个大类的指标,每类指标下包含2个是否类型的判断题(共10道题);我们把这组评判标准定义为“二级评判标准”。
评测人员需要对500组评测数据分别进行人工评判,并将判断的结果记录下来,评测顺序为先做一级评判,再做二级评判。
下图为参考范例:
文章插图
当评测人员完成评判后,会对每组数据的评测结果进行打分,打分方法如下图所示:
文章插图
为了确保评测的客观性,每组评测数据需要由至少3名测试人员依照同样的标准,分别进行打分,对话系统的最终评测得分将会权衡多个测试人员的得分情况。
评测的最终分数为所有500组问答数据评判结果的分数总和,即满分 = 总测试题数 500 * 评测维度 5 * 判断指标 2 * 参与评测人数 3 = 15000;我们可以将被评测对话系统的实际分数(介于0到15000之间)线性转换成满分为100的分数,就得出了被评测对话系统的量化表现分数(单轮)。
二、多轮对话评测相较于单轮对话场景,多轮对话评测任务主要考核的是一个智能对话系统的持续对话能力,而不仅仅是其在每一轮对话的表现;这次,我们从数据集中的1500条数据中选取20条对系统行评测;这里需要注意的是,被选的20条数据需要覆盖数据集中全部的16个话题。
接下来,我们将选取出来的20条数据作为起始内容(首个问题)输入到被测试的对话系统当中,从而展开对话内容;测试人员将尝试与对话系统进行实时的多轮次对话交互,并在每次系统返回内容后,针对所返回的内容进行评测;当评测人员认为对话内容无法继续进行下去时,则测试结束。
- 抖音|抖音如何获取更多流量?一文读懂直播自然流量提升技巧
- watchgt|华为WATCH GT3全方面评测:品质之作也是运动健康好帮手
- 东芝|如何分辨手机配置的“好坏”?认清这四点,你也能成为行家
- 苹果|要是不看真实数据,我还以为国产机将iPhone打成下一个三星了呢
- 量子计算|从微商到直播,一个顶流江湖的兴衰
- 耳机|有颜值的实力派,有线无线随心换!锦瑟香也TFZ T2 Pro评测
- 小米科技|耳机什么品牌的音质好,国产的有线耳机HIK S1听感评测
- iqoo neo|一部手机可以用多久?来看下iQOO次旗舰是如何解答的
- 卡尔蔡司镜头|vivoX60Pro评测:蔡司+二代微云台,好看的照片信手拈来!
- 倪光南|一个伟大的院士和真正的股东被欺负到扫地出门地步,公理何在?