与智能设备对话,什么是好的聊天对话体验?

与智能设备交流是人类的梦想 , 随着语音技术的发展 , 这一梦想正在变为现实 。 百度体验设计团队致力于智能设备对话体验设计及研究 , 部分研究成果发表在国际知名学术会议MobileHCI(中国计算机学会CCF指定的B类会议) , 现将文章部分内容与大家分享和交流 。
过去四十年 , 人与机器之间的交互媒介在不断进化 , 自然语言对话作为新一代的人机交互媒介 , 近些年得到广泛的关注和应用 。 从智能家居设备到智能手机助手 , 从智能客服到智能情感陪伴 , 人们可以与越来越多的设备进行自然语言对话 。
与智能设备对话,什么是好的聊天对话体验?文章插图
小度智能音箱 / 语音助手Siri / 数字人服务 / 智能机器人
按照对话的主题和目的 , 可以将人与机器的自然语言对话分为两种类型:任务型对话、聊天型对话 , 任务型对话以完成用户的特定任务为目标 , 用户的交互意图明确 , 例如用户通过语音对话完成预定机票和购物等任务 。 聊天型对话不具体帮助用户完成某个特定任务 , 而是通过用户与设备之间的开放式对话 , 安抚用户情绪或满足闲聊和娱乐的需求 。 有研究表明 , 具有聊天功能的智能产品更容易获得用户的信任 , 并提升用户的整体使用体验 。
与智能设备对话,什么是好的聊天对话体验?文章插图
与智能设备对话的两种类型
从用户体验的角度 , 任务型对话体验可以通过对用户完成任务的情况进行评价 , 例如可以采用任务完成率、时间效率等指标 。 然而 , 针对聊天型对话体验目前还缺乏有效的评估方法和框架 。 本文从用户体验的视角出发 , 探索适用于聊天型对话体验的评估方法 。
在研究方法上 , 采用定性和定量相结合的方法 , 首先通过定性研究的方法收集评估指标 , 然后通过定量研究的方法对指标体系进行优化和验证 , 以搭建一套信效度良好、可广泛应用的评估体系 。 研究分为三个阶段 , 首先 , 定性收集评估指标 , 确保收集到的指标全面且有意义;其次 , 将指标体系应用于智能设备测试 , 通过定量的方法进行评估体系的建构和优化;最后 , 对评估体系的模型进行应用和验证 , 得到评估指标间的权重系数 , 确保评估体系科学和可靠 。
与智能设备对话,什么是好的聊天对话体验?文章插图
研究过程与研究方法
一、从0到1:全面收集聊天型对话评估指标为确保指标全面、有意义且容易让用户理解 , 收集过程经历了3个步骤:

  • 步骤1:参考以往的关于任务型对话和聊天型对话的研究 , 选取合适的指标 。 然后通过头脑风暴 , 更全面地收集 , 此阶段共收集45个评估指标;
  • 步骤2:结合智能设备产品专家的建议 , 筛选与用户实际需求相匹配的评估指标 。 然后请专家评估指标重要性和易理解程度 , 删除不适合聊天对话体验评价和重要性低的指标 , 保留了24个指标;
  • 步骤3:邀请普通用户对指标的易理解程度进行评价 , 对表述不清、难以理解或有歧义的指标进行修改或删除 。 最终 , 形成由20个指标组成的聊天体验评估体系 。

与智能设备对话,什么是好的聊天对话体验?文章插图
最初收集的20个聊天对话体验评估指标
二、去伪存真:构建聊天型对话评估指标体系2.1 用户测试
我们将阶段一得到的评估指标应用到人机聊天测试中 , 通过用户测评数据的统计分析及定性访谈进一步优化评估指标 , 并通过探索性因子分析探索指标体系的结构 。
共有38名被试参与了用户测试 , 年龄在20-40岁之间 , 男性18人 , 女性20人 。 所有被试均为智能音箱聊天功能使用经验用户 , 其中 , 经验丰富者(每天聊天3次以上)和经验较少者(每周聊天3次以下)各一半 。
与智能设备对话,什么是好的聊天对话体验?文章插图
用户测试场景
在用户测试过程中 , 我们选择了5款主流且具有聊天对话功能的智能音箱 , 分别标记为智能音箱A、智能音箱B、智能音箱C、智能音箱D、智能音箱E 。 被试按照随机顺序 , 分别与5款智能音箱围绕4类话题进行聊天对话 。 4类聊天话题分别为:调侃类、建议咨询类、话题聊天类、情绪排解类 。
与智能设备对话,什么是好的聊天对话体验?文章插图
用户测试中的4类聊天对话话题
被试与智能音箱聊天对话结束后 , 将分别对各智能音箱聊天对话的体验进行打分 , 打分采用10点李克特量表 , 1分代表非常不满意 , 10分代表非常满意 。 最后 , 被试需要完成关于聊天体验评估指标重要性的Kano问卷 。