CSDNTB@揭秘阿里达摩院！P10 大佬教你如何构建 AIoT 智能语音交互技术( 三 )

阿里远场的声纹技术是目前工业界率先实施的远场声纹技术，比如天猫精灵音箱的身份认定等。与此同时，达摩院还提供隐式的声纹画像技术。

本文插图
自然语言理解
达摩院在自然语言理解这部分在过去两年的时间里，支持了常见电视领域的 NLU 理解能力，属于基于规则和统计的混合系统，并且支持客户数据的联合深度优化。

本文插图
多模态融合技术
所谓多模态就是音频和视频的融合，过往音视频融合的过往经验都是停留在比较浅层的叠加，但是达摩院的多模态融合技术除了能够提供人脸识别、人脸检测、属性之外，能够把基于视频的属性特征利用于声学层面的语音增强，这样才能达到公共空间高噪声场景下的语音交互。
模组方案介绍
声学硬件模组化
声学模组是对语音交互端侧的核心链路，包括音视频软硬件链路、端侧引擎和上云协议的封装。声学硬件模组化能够实现产品方案平台化，与硬件相关的技术和经验被沉淀，提升与客户对接效率，降低对人力和时间成本的要求；在软硬件层面均可做二次开发。

本文插图
面向 AIoT 的语音交互端云一体引擎（NUI-Things）
NUI-Things 引擎是面向低资源的语音引擎，在底层有 AliOS/YoC 这样面向多端的物联网操作系统进行支撑，语音部分包括了端点检测、回声消除、语音增强等前端处理模块，还包括了语音唤醒、本地语音识别以及本地语义理解。通过 NLS 的语音交互服务协议上云，云端则有阿里语音 AI 云平台、IoT 飞燕平台以及相应的内容资源池。

本文插图
拾音模组-适配智能电视、投影仪等

本文插图
Linux 语音模组
语音模组将语音引擎内置到硬件模块之中；多模态的语音模组，将音视频技术沉淀到模组之中。下图中的 Linux 语音模式早在 2018 年就已经成熟了，目前已经应用于消费级的语音面板和售卖机等场景，支持 2 至 8 麦克风的高性能前端处理算法， 360 度拾音，端云一体高性能语音唤醒，并且支持“主控模式”和“下位机”模式等。

本文插图
RTOS 语音模组
在 2019 年的时候，达摩院语音实验室重点发展了 RTOS 的语音模组。面向广泛的家电、电工照明、故事机等场景，符合业界的期待，即在低成本和低功耗的条件下达到高体验。 RTOS 语音模组基于多核异构架构，能够支持高性能 2 到 4 个麦克风的前端处理算法， 360 度拾音，端云一体语音唤醒，支持离线语音识别和快速响应，并且支持低功耗待机语音唤醒，以及“主控模式”和“下位机”模式。
多模态交互模组
多模态交互模组更多地应用于智能零售柜、信息查询大屏、服务机器人、多模态娱乐等场景，其具有 NPU 多核异构架构，支持 2 至 8 麦克风，强噪声声学环境拾音，具有对于物体、人体、行为、身份等检测识别能力。

本文插图
达摩院在提供模组级或者芯片级方案的同时，还提供了声学硬件研发、质量控制服务体系。从模组期间选型到整机性能，从研发性能到产线质量控制，从国际标准测试环境到自研测试软硬件系统的全方位闭环，除此之外，还提供平台化的声学和 PCB 设计服务。