与智能设备对话，什么是好的聊天对话体验？与智能设备交流是人类的梦想

与智能设备交流是人类的梦想，随着语音技术的发展，这一梦想正在变为现实。百度体验设计团队致力于智能设备对话体验设计及研究，部分研究成果发表在国际知名学术会议MobileHCI（中国计算机学会CCF指定的B类会议），现将文章部分内容与大家分享和交流。
过去四十年，人与机器之间的交互媒介在不断进化，自然语言对话作为新一代的人机交互媒介，近些年得到广泛的关注和应用。从智能家居设备到智能手机助手，从智能客服到智能情感陪伴，人们可以与越来越多的设备进行自然语言对话。
文章插图
小度智能音箱 / 语音助手Siri / 数字人服务 / 智能机器人
按照对话的主题和目的，可以将人与机器的自然语言对话分为两种类型：任务型对话、聊天型对话，任务型对话以完成用户的特定任务为目标，用户的交互意图明确，例如用户通过语音对话完成预定机票和购物等任务。聊天型对话不具体帮助用户完成某个特定任务，而是通过用户与设备之间的开放式对话，安抚用户情绪或满足闲聊和娱乐的需求。有研究表明，具有聊天功能的智能产品更容易获得用户的信任，并提升用户的整体使用体验。
文章插图
与智能设备对话的两种类型
从用户体验的角度，任务型对话体验可以通过对用户完成任务的情况进行评价，例如可以采用任务完成率、时间效率等指标。然而，针对聊天型对话体验目前还缺乏有效的评估方法和框架。本文从用户体验的视角出发，探索适用于聊天型对话体验的评估方法。
在研究方法上，采用定性和定量相结合的方法，首先通过定性研究的方法收集评估指标，然后通过定量研究的方法对指标体系进行优化和验证，以搭建一套信效度良好、可广泛应用的评估体系。研究分为三个阶段，首先，定性收集评估指标，确保收集到的指标全面且有意义；其次，将指标体系应用于智能设备测试，通过定量的方法进行评估体系的建构和优化；最后，对评估体系的模型进行应用和验证，得到评估指标间的权重系数，确保评估体系科学和可靠。
文章插图
【与智能设备对话，什么是好的聊天对话体验？】研究过程与研究方法
一、从0到1：全面收集聊天型对话评估指标为确保指标全面、有意义且容易让用户理解，收集过程经历了3个步骤：

步骤1：参考以往的关于任务型对话和聊天型对话的研究，选取合适的指标。然后通过头脑风暴，更全面地收集，此阶段共收集45个评估指标；
步骤2：结合智能设备产品专家的建议，筛选与用户实际需求相匹配的评估指标。然后请专家评估指标重要性和易理解程度，删除不适合聊天对话体验评价和重要性低的指标，保留了24个指标；
步骤3：邀请普通用户对指标的易理解程度进行评价，对表述不清、难以理解或有歧义的指标进行修改或删除。最终，形成由20个指标组成的聊天体验评估体系。

文章插图
最初收集的20个聊天对话体验评估指标
二、去伪存真：构建聊天型对话评估指标体系2.1 用户测试
我们将阶段一得到的评估指标应用到人机聊天测试中，通过用户测评数据的统计分析及定性访谈进一步优化评估指标，并通过探索性因子分析探索指标体系的结构。
共有38名被试参与了用户测试，年龄在20-40岁之间，男性18人，女性20人。所有被试均为智能音箱聊天功能使用经验用户，其中，经验丰富者（每天聊天3次以上）和经验较少者（每周聊天3次以下）各一半。