与智能设备对话,什么是好的聊天对话体验?( 二 )


2.2 指标构建与优化
38个被试分别体验5款智能音箱的聊天对话功能后 , 将每个用户每款音箱的数据作为一个样本数据 , 共得到有效样本数据168份 。 结合Kano模型、相关性分析、多重共线性诊断与定性访谈的用户反馈 , 优化评估指标 , 包括对指标进行删除或合并 , 以及对部分指标的描述进行修正 。 优化后的指标如下表所示 , 共计包括15个评价指标 。
与智能设备对话,什么是好的聊天对话体验?文章插图
优化后的聊天对话体验评估指标
我们对优化后的15个指标进行探索性因子分析 , 采用最大方差法旋转因子 , 抽取特征值大于1的因子 。 最终提取了2个因子 , 累积方差贡献率为68.0% , 探索性因子分析结果如下表所示 。
与智能设备对话,什么是好的聊天对话体验?文章插图
探索性因子分析结果
综合考虑因子1和因子2所包含的各项指标 , 我们分别将这两个因子命名为“听懂连续对话及内容质量”和“表达方式及声音” , 从而得到评估指标的体系结构 。 在探索性因子分析的基础上 , 我们进一步计算了每一个指标在整体满意度上的权重 , 最终的聊天体验评估体系结构及权重系数如下表所示 。
与智能设备对话,什么是好的聊天对话体验?文章插图
评估体系结构及权重系数
三、应用实践:聊天型对话评估指标体系应用3.1 测量结果
我们将建立的聊天对话评估体系应用于5款智能音箱聊天体验的评估 , 因文章篇幅原因 , 具体评估和计算过程不赘述 , 评估结果如下表所示 , 该评估体系可以用于横向对比各智能音箱聊天系统能力 。
与智能设备对话,什么是好的聊天对话体验?文章插图
基于评估体系的聊天对话体验测量
3.2 聊天对话示例
接下来 , 我们针对评估体系中权重相对较高的几个指标 , 如内容质量相关的内容有价值、开启新话题、联系上下文等指标 , 以及表达方式相关的表达多样化、表达自然流畅等指标 , 选取部分用户与设备聊天对话的具体示例 , 以便大家对什么是好的和不好的聊天对话体验有更直观的感受 。
内容有价值
用户期望通过聊天对话获得有价值的内容 , 尤其在“建议咨询”的聊天场景下 。
与智能设备对话,什么是好的聊天对话体验?文章插图
对话示例1(用户正向评价)
与智能设备对话,什么是好的聊天对话体验?文章插图
对话示例2(用户负向评价)
开启新话题
在聊天模式下 , 用户不希望轻易把天聊死 , 希望智能设备能够主动留下话茬 。
与智能设备对话,什么是好的聊天对话体验?文章插图
对话示例3(用户正向评价)
联系上下文
用户期望与智能设备聊天时 , 聊天过程能联系上下文 , 不要前后逻辑矛盾 。
与智能设备对话,什么是好的聊天对话体验?文章插图
对话示例4(用户负向评价)
表达多样化
用户期望设备的回复内容更多样化和丰富 , 以避免让用户觉得是设定好的程序 。
与智能设备对话,什么是好的聊天对话体验?文章插图
对话示例5(用户正向评价)
与智能设备对话,什么是好的聊天对话体验?文章插图
对话示例6(用户负向评价)
表达自然流畅
用户期望自然流畅的表达 , 聊天对话符合人们日常说话用语和习惯 。
与智能设备对话,什么是好的聊天对话体验?文章插图
对话示例7(用户正向评价)
与智能设备对话,什么是好的聊天对话体验?文章插图
对话示例8(用户负向评价)
四、小结
以智能音箱聊天对话体验评估为课题 , 本研究提出了一套完整的评估方法 , 并建立了针对聊天型对话体验的指标体系和评估框架 , 该指标体系及其权重一定程度上反映了用户对聊天对话体验的需求和关注程度 , 可以为后续产品体验优化提供参考方向 。
然而 , 本研究也存在一定的局限性 , 一方面 , 目前多数智能设备会同时具备任务型对话和聊天型对话两种能力 , 从用户视角可能无法清晰区分两种自然语言对话场景;另一方面 , 由于与智能设备对话仍处于探索期 , 产品迭代很快 , 用户的预期也会随之改变 , 因此 , 评估指标体系的权重也可能发生变化 , 未来可能需要持续监测和修改评估指标体系 。