如何评价智能助手的好坏( 五 ) _小知识

Q：相关性和时效性评测都是由人工进行测评的吗？
A：是的。分享中所涉及的都是人工评测，所以我们一定要在制定评测规则的时候就把它阐述清楚，减少人为主观因素的影响。比如相关性，通过指定详细的规则来定义强相关、弱相关和不相关，同时会使用case进行举例说明，帮助评测人员进行理解。时效性的评测可以使用“搜索一下”的方法，在搜索引擎中观察query对应的最新结果是什么，当然我们也会去看竞品的结果，进行综合判断。
Q：搜索评测中，准召指标会做全链路的吗？满意度和PI是不是都是针对全链路的最终结果？PI评测时是对各维度设计评测规则还是使用其他方法进行设计？
A：搜索评测中的准召一般都是按照垂域来进行的，全链路的做法比较少见。满意度是根据定义来进行测评的，比如只关心Top 3的指标，那么满意度就和前三条结果有关，最后得出对应的打分结果；如果关心Top10的指标，那么就要把前十条结果都考虑在内。PI也是遵循一样的原则，目前业内通常选取前三条或者前四条。PI会将前三条或者前四条结果分别进行打分，然后按照计算公式使用权重计算它们的综合得分。
Q：我们如何从这么多评测指标中评价哪个模型是最优的？所有维度都需要进行评测吗？如果不是，我们应该如何选择需要的评测维度？
A：我们的评测体系是覆盖了所有核心瓶颈设计到的维度，但是当你做评测的时候，就要通过待评测的模型和评测目的来选取不同的评测方法。比如现在要做闹钟意图模型的优化评测，只需要评测闹钟模型输出的意图和用户真实需求是否有差异，它的模型优化效果是否比线上版本好。针对评测维度，有的维度是搜索行业单独关注的，有的维度是语音助手行业单独关注的，有的维度是所有行业都会关注的，如相关性。评测的时候需要根据评测目的选取不同的维度，比如现在要关注闲聊的多样性，那么需要在结果的相关性得到保证的情况下，再来看结果的多样性是不是满足需求，这时候评测关注的维度是相关性和多样性，并不需要时效性。如果现在评测的是信息查询，那么重点关注的维度应该是相关性和时效性。根据不同的评测目的以及评测产品，我们所关注的维度有所不同。
Q：ASR方言评测是不是需要招聘专业的方言人员？TTS的MOS打分是长期评测任务还是根据算法需求来制定的？同一条音频评测时需要几个人一起打分？
A：方言评测肯定是需要懂这个方言的评测人员才能完成的。TTS的MOS打分评测是根据摸底和算法需求综合来进行的。比如算法部门有优化模型需要上线，那么我们就需要开展评测。如果他们没有新模型上线需求，那么我们会定期（如两个月或一个季度）进行线上的摸底评测。打分的时候，需要至少五个人对同一条音频进行打分。
Q：小布助手评测体系中最重要的指标是哪几项？
A：我们没有固定的核心指标。比如ASR的核心指标是字错率和句错率；TTS的核心指标是MOS得分；NLP的核心指标是用户满意度，因为它不管前面用户意图识别是不是准确，当资源引入质量较差或者相关性不好，NLP模块给出的结果仍然是不佳的。
Q：小布助手的丰富性维度如何测评？
A：首先，保证丰富性的同时我们应该权衡用户的需求，所以主观性比较强。我们需要保证回答不能过于简短。与此同时，我们还关注小布助手是否“言之有物”，回答不能阐述一个虚无的概念，而是一定要涉及某一具体事务，这具有一定的主观性，所以在制定规则的时候不仅要考虑到回答的长度，还要考虑“言之有物”，进而判断回答的丰富程度。
Q：用户口音问题导致语音识别率降低应该如何解决？目前支持自动识别用户在说哪一种方言吗？唤醒词支持方言吗？
A：语音评测的时候不能关注用户所说的是带了口音的普通话还是标准普通话。从用户的满足程度来看，我们应该正确识别出带口音的用户的真实需求。所以我们的评测标准是一样的，不能因为用户带口音而放宽标准。但是当评测显示出问题之后，我们会打上不同的标签，来表示这是因为用户口音而导致的错误。同理，当存在环境噪音时，出现的识别错误我们也会打上相应的标签。针对后一个问题，我们目前不支持自动识别方言，但是我们有一个开关来控制小布助手的方言识别功能，唤醒词支持方言的功能也同样需要打开开关后才能支持。
今天的分享就到这里，谢谢大家。