与智能设备对话,什么是好的聊天对话体验?( 二 )


与智能设备对话,什么是好的聊天对话体验?文章插图
用户测试场景
在用户测试过程中 , 我们选择了5款主流且具有聊天对话功能的智能音箱 , 分别标记为智能音箱A、智能音箱B、智能音箱C、智能音箱D、智能音箱E 。 被试按照随机顺序 , 分别与5款智能音箱围绕4类话题进行聊天对话 。 4类聊天话题分别为:调侃类、建议咨询类、话题聊天类、情绪排解类 。
与智能设备对话,什么是好的聊天对话体验?文章插图
用户测试中的4类聊天对话话题
被试与智能音箱聊天对话结束后 , 将分别对各智能音箱聊天对话的体验进行打分 , 打分采用10点李克特量表 , 1分代表非常不满意 , 10分代表非常满意 。 最后 , 被试需要完成关于聊天体验评估指标重要性的Kano问卷 。
2.2 指标构建与优化
38个被试分别体验5款智能音箱的聊天对话功能后 , 将每个用户每款音箱的数据作为一个样本数据 , 共得到有效样本数据168份 。 结合Kano模型、相关性分析、多重共线性诊断与定性访谈的用户反馈 , 优化评估指标 , 包括对指标进行删除或合并 , 以及对部分指标的描述进行修正 。 优化后的指标如下表所示 , 共计包括15个评价指标 。
与智能设备对话,什么是好的聊天对话体验?文章插图
优化后的聊天对话体验评估指标
我们对优化后的15个指标进行探索性因子分析 , 采用最大方差法旋转因子 , 抽取特征值大于1的因子 。 最终提取了2个因子 , 累积方差贡献率为68.0% , 探索性因子分析结果如下表所示 。
与智能设备对话,什么是好的聊天对话体验?文章插图
探索性因子分析结果
综合考虑因子1和因子2所包含的各项指标 , 我们分别将这两个因子命名为“听懂连续对话及内容质量”和“表达方式及声音” , 从而得到评估指标的体系结构 。 在探索性因子分析的基础上 , 我们进一步计算了每一个指标在整体满意度上的权重 , 最终的聊天体验评估体系结构及权重系数如下表所示 。
与智能设备对话,什么是好的聊天对话体验?文章插图
评估体系结构及权重系数
三、应用实践:聊天型对话评估指标体系应用3.1 测量结果
我们将建立的聊天对话评估体系应用于5款智能音箱聊天体验的评估 , 因文章篇幅原因 , 具体评估和计算过程不赘述 , 评估结果如下表所示 , 该评估体系可以用于横向对比各智能音箱聊天系统能力 。
与智能设备对话,什么是好的聊天对话体验?文章插图
基于评估体系的聊天对话体验测量
3.2 聊天对话示例
接下来 , 我们针对评估体系中权重相对较高的几个指标 , 如内容质量相关的内容有价值、开启新话题、联系上下文等指标 , 以及表达方式相关的表达多样化、表达自然流畅等指标 , 选取部分用户与设备聊天对话的具体示例 , 以便大家对什么是好的和不好的聊天对话体验有更直观的感受 。
内容有价值
用户期望通过聊天对话获得有价值的内容 , 尤其在“建议咨询”的聊天场景下 。
与智能设备对话,什么是好的聊天对话体验?文章插图
对话示例1(用户正向评价)
与智能设备对话,什么是好的聊天对话体验?文章插图
对话示例2(用户负向评价)
开启新话题
在聊天模式下 , 用户不希望轻易把天聊死 , 希望智能设备能够主动留下话茬 。
与智能设备对话,什么是好的聊天对话体验?文章插图