「AI语音评测」技术简述与应用层级( 四 )

  • 自然语音:“[e]不应该读成[d] , 请注意这是咬舌音”;
  • 本层级用户体验:在有足够细粒度指导反馈的前提下 , TTS的结合让评测结果已经基本达到了“口语教师”级别 。
    「AI语音评测」技术简述与应用层级文章插图
    示例:结合TTS更直观的反馈问题(此处有发音指导)
    3. 与其他技术结合的可能性通过「AI语音评测」技术 , 在给定文本的前提下 , 已经可以给出非常精准的指导反馈了;但如果上升到口语学习级别 , 还是远远不够的——毕竟口语不是简单的发音练习 , 语境、语法、迅捷响应等其他方面也是非常重要的 。
    接下来我们简单提出一些与其他技术结合或者优化的猜想尝试解决口语学习的难题 。
    1)语境模拟:与「交互AI」结合
    根据已成熟和可实现的交互AI技术 , 基于用户提供的口语语音内容 , 反馈的层级包括:
    • 层级一:仅提供固定回复(非AI);
    • 层级二:提供非固定回复 , 可智能判断回复优先级;
    • 层级三:主动式对话介入 , 能主动引起/转换关联话题
    • 层级四:能够反馈用户语音场景契合度(用户内容是否符合当前语境) 。
    小结:「交互AI」是一个非常庞大的体系 , 但应用的广泛性正在使其形成产业化规模化 , 中小企业也能够对接高级「交互AI」也许很快就能实现 。
    2)语法:与「AI语法检查」结合
    AI语法检查技术是指将提供的句子或段落进行语法检查并指出语法问题和指导反馈;通过该技术 , 口语学习者可以获得语音内容语法方面的指导反馈 。
    举例1:给定文本「I want to fly to the Moon.」 , 如用户发音「I want to fly to Moon.」此时在提示语法检查应给予对应提示:
    • 发音问题:“漏读—the”(AI语音评测结果);
    • 语法问题:“Moon是唯一的 , 应在Moon前加冠词the”;
    但在给定文本的情况下并不能完全体现语法检查的优势 , 一般在交互AI介入的场景下会更加合理 。
    举例2:
    AI:「What is your dream?」 , 用户:「My dream is flying to Moon.」
    结果反馈:
    • 发音问题:…(AI语音评测结果);
    • 语法问题:“Moon是唯一的 , 应在Moon前加冠词the”;
    以此 , 用户可以在类真实语境下练习口语 , 并可以同时得到发音和语法两大方面的反馈 。
    3)AI引擎本地化
    在我们的产品使用AI技术初期 , 一般会选择「前端产品调用AI接口——云端后台引擎计算——结果返回至前端产品展示」的模式 , 目的是尽量不影响产品主体功能和提高研发效率 。
    但随着AI在我们的产品中权重越来越高 , 用户对AI功能的效率要求日益严格——“零延迟响应”、“离线响应”逐步成为用户体验很重要的部分;如果我们的产品正被大量用户诉求高效率AI , AI引擎本地化就不得不提上日程了 。
    AI引擎本地化是指将之前已经在后台构建好的计算引擎迁移至前端产品中(前提是前端产品必须是有能力承载这些引擎的 , 如App或其他客户端 , 网页或小程序就比较困难了);迁移后在使用AI功能时 , 前端产品内部即可完成计算并给予反馈 , 从而实现了“零延迟/离线响应”的效果 。
    以「AI语音评测」为例 , 引擎本地化即是将原本在云端后台处理的“预处理”模块、“声学模型”模块和“声学处理”模块全部迁移至前端产品中 。
    但引擎本地化影响并不全是正向的 , 以下罗列了部分引擎本地化的优劣:
    「AI语音评测」技术简述与应用层级文章插图
    由此我们可以看出 , AI引擎本地化需要根据产品实际情况来决定是否要进行 , 或者设置一系列的配置项来规避本地化带来的问题 , 如: