如何评价智能助手的好坏( 三 )


第九个维度是丰富程度,主要关注评测结果内容的丰富情况 。

如何评价智能助手的好坏

文章插图
前提包含三个方面:
首先,制定评测规则的前要了解、熟悉产品 。比如小布助手,在制定小布助手相关的评测方案和规则时,我首先要知道小布有多少技能,每个技能的呈现形式是什么样的,和小布助手有同样定位的竞品有哪些,它们有什么样的技能,它们的呈现形式是什么样的 。这些都是在制定评测方案和规则前需要了解的 。
其次我们还需要了解产品的用户层,即用户画像 。因为不同用户对于一个query的需求有可能也是不一样的,或者在不同场景下,同一个query需求也会有很大的不同 。
最后是了解评测目的,为什么要做评测,希望达到什么样的预期,做了什么样的优化或策略 。
评测的思考方向有:
  • 评测维度,即确定评测需要关注的维度 。
  • 档位划分,行业常用的档位有两档、三挡、四挡、五档等,
  • 档位的定义,即给出不同档位的情况的详细说明,使得评测标注人员有参考依据,保证即使不是同一个人做的评测,其评测结果也不会有很大的变化,得出的结论能基本保持一致 。
  • 模糊地带处理原则,我们一定要明确基线和分界线,对于模糊地带也应尽量降低其带来对整体结论的影响 。例如在搜索场景下,我们可以通过用户的点击数据来确定界限,而像语音助手,我们可以通过用户的后续行为分析以及用户调研来确定用户query真实需求 。
4. 评测标注打分
如何评价智能助手的好坏

文章插图
评测标注打分主要分为两部分:用户query需求判断和结果需求满足判断 。query需求判断有四种方法 。
第一种是直接理解法,适用于描述得比较清楚的query,我们直接可以按照query的字面意思理解,但是不能遗漏query的限定元素,比如“陈情令的分集剧情介绍”中“分集”的限定元素 。
第二种是日常经验法,这源于大部分用户的需求,和日常生活比较贴近,我们可以根据常识来判断query的需求 。从这里也可以看出,选拔评测标注人员时,需要挑选知识面比较广且评测经验比较丰富的候选人,这样可以提高评测效率和质量 。
第三种是深入思考法,有一些query由于输入方法比较复杂或者query描述不清楚,我们无法从字面意思直接理解用户的真实需求,就需要进行深入的思考和分析 。
最后一种方法是搜索一下法,即深入思考之后还是无法理解用户需求,那么不管是做搜索评测还是语音助手评测,可以使用头部搜索引擎去观察多家引擎给出的结果 。通过对比之后,大概就可以对query有一个比较准确的理解 。
query需求判断之后,我们需要判断结果是否满足需求 。首先,我们评判结果是否可以提供用户想要找的信息,即从相关性上来说是否满足了需求 。第二点,我们评判结果是否满足所关注的维度,然后根据满足程度对应档位划分规则,进行标注打分 。
5. 评测报告
如何评价智能助手的好坏

文章插图
评测报告需要包含三大要素 。首先,我们需要考虑报告的阅读对象 。比如评测报告是给上级做汇报的还是针对产品经理和算法部门的,根据不同的阅读对象,报告的呈现内容不同 。比如根据阅读对象,评测数据中详细的统计信息和提炼的问题,也是不一样的 。但不管阅读对象是谁,我们必须服从One-page原则,报告的首页一定要把最重要的内容全部展示出来 。最重要的内容有:主要的指标、重要统计结论、重点问题、评测的背景信息等 。评测的背景信息有评测的目的、评测的方法、评测的维度、评测的指标、对应的计算公式等 。
03
评测通用流程
如何评价智能助手的好坏

文章插图
首先,需要了解评测的具体需求,沟通需求时应该拉上相关的业务方负责人来沟通需求,之后评测方根据需求内容输出评测方案初稿 。初稿包括前述评测背景中所应该包含的所有内容 。初稿形成后,需要再一次拉上相关业务方进行讨论,形成终稿 。之后,还需要做数据和环境的准备,然后进行评测试标 。试标没有问题才能开始正式评测,否则需要根据问题点回退到相应环节重新讨论,有规则不合理或者未覆盖也需要予以修正 。正式评测后需要进行评测质检,质检达标后进行数据统计和报告输出 。到这里是评测的结束点,也是产品优化的起点,因为评测的主要目的是为了提升用户体验,评测中发现的问题点和需求点,需要进行不断的优化迭代 。