CSDNTB@揭秘阿里达摩院!P10 大佬教你如何构建 AIoT 智能语音交互技术( 二 )


AIoT 时代 , 语音交互无处不在 。 从互联网到移动互联网演进的过程 , 均伴随着硬件终端的革新 , 而每一次革新其实都伴随着人际交互方式的颠覆 。 从最早的互联网时代 , 电脑为办公效率带来了一次革新;在移动互联网时代 , 重点的端是手机 , 以使用便捷为中心;在物联网时代 , 端是万物 , 这个时候以沟通自然为中心 , 因此自然语音交互会起到非常重要的作用 。
CSDNTB@揭秘阿里达摩院!P10 大佬教你如何构建 AIoT 智能语音交互技术
本文插图
智能设备类语音交互技术链路长
语音交互的技术链条非常长 , 从硬件侧的电路设计、声学结构到音频链路的排查、连接 , 再到云上语音识别服务的调优、对话理解领域模型 , 再到 TTS 合成 , 整个链条非常的长 。
CSDNTB@揭秘阿里达摩院!P10 大佬教你如何构建 AIoT 智能语音交互技术
本文插图
因此在这么多年的语音交互技术的发展过程中 , 具有全栈技术链条能力的服务商角色越发重要 。 接下来介绍阿里达摩院在智能设备类语音交互技术链条中的技术积累 。
基于盲源分离的远场前端处理统一框架
如前面所提到的 , 与客户设备端紧密相连的技术就是信号处理 。 针对于终端侧面向各种各样的声学噪声环境 , 达摩院拥有独有的基于盲源分离的远场信号处理统一框架 。
CSDNTB@揭秘阿里达摩院!P10 大佬教你如何构建 AIoT 智能语音交互技术
本文插图
所谓盲源分离 , 就是基于处于“盲源”的假设 , 不对信号或者传播路径做过多的先验要求 。 它只有一个独立性假设 , 就是不同源的信号相互独立 , 通过最大化输出之间的独立性实现分离 。
此外 , 还实现了统一框架 , 将回声、混响、点声源干扰看做独立信号 , 并使用盲源分离技术来并来统一来处理 , 这里面包含的技术有双讲模型、集成学习以及信号处理和唤醒联合优化 , 这些都是阿里在多年实践中总结沉淀下来的业界领先技术 。
前端信号处理技术方案
下图展示了达摩院提供的几种前端信号处理技术方案 , 包括 2 个麦克风、4 个麦克风以及 8 个麦克风的 , 分别对应了不同的场景 。 前两个方案更多适用于电视、车载等场景;最后一个则适用于公共空间、地铁售票机、商业大屏等场景 。
CSDNTB@揭秘阿里达摩院!P10 大佬教你如何构建 AIoT 智能语音交互技术
本文插图
唤醒技术
在唤醒技术方面 , 达摩院语音实验室可以提供芯·端·云一体的唤醒体验 , 具有极低的误唤醒率;嵌入到芯片的低功耗唤醒能力;本地设备 AP 上的唤醒模块等 , 并且提供了端云一体的唤醒机制 。
免唤醒技术
达摩院的免唤醒技术提供了 Oneshot 语音识别、快捷唤醒词技术、动态唤醒词技术以及连续对话等 。
CSDNTB@揭秘阿里达摩院!P10 大佬教你如何构建 AIoT 智能语音交互技术
本文插图
语音识别/语音识别自定制能力
语音识别方面 , 达摩院拥有领先的声学模型技术 , 比如 DFSMN 受到了全世界和开源社区的好评 , 包括谷歌和微软等也在跟进 。 除此之外 , 在语言模型技术方面 , 达摩院还有单遍大规模语言模型解码技术 , 并且对于领域语言模型有不同的定制 , 可以解决不同行业和领域的识别准确率问题 , 能够做到分钟级生效 。
语音合成
近两年 , 达摩院在语音合成技术方面取得了长足的进步 , 自然度在逐步提升 , 同时具有超低成本的定制方案 , 仅需要 2 小时的语音数据就能够提供 TTS 定制方案 。
CSDNTB@揭秘阿里达摩院!P10 大佬教你如何构建 AIoT 智能语音交互技术
本文插图
声纹技术