CSDNTB@揭秘阿里达摩院!P10 大佬教你如何构建 AIoT 智能语音交互技术( 三 )
阿里远场的声纹技术是目前工业界率先实施的远场声纹技术 , 比如天猫精灵音箱的身份认定等 。 与此同时 , 达摩院还提供隐式的声纹画像技术 。
本文插图
自然语言理解
达摩院在自然语言理解这部分在过去两年的时间里 , 支持了常见电视领域的 NLU 理解能力 , 属于基于规则和统计的混合系统 , 并且支持客户数据的联合深度优化 。
本文插图
多模态融合技术
所谓多模态就是音频和视频的融合 , 过往音视频融合的过往经验都是停留在比较浅层的叠加 , 但是达摩院的多模态融合技术除了能够提供人脸识别、人脸检测、属性之外 , 能够把基于视频的属性特征利用于声学层面的语音增强 , 这样才能达到公共空间高噪声场景下的语音交互 。
模组方案介绍
声学硬件模组化
声学模组是对语音交互端侧的核心链路 , 包括音视频软硬件链路、端侧引擎和上云协议的封装 。 声学硬件模组化能够实现产品方案平台化 , 与硬件相关的技术和经验被沉淀 , 提升与客户对接效率 , 降低对人力和时间成本的要求;在软硬件层面均可做二次开发 。
本文插图
面向 AIoT 的语音交互端云一体引擎(NUI-Things)
NUI-Things 引擎是面向低资源的语音引擎 , 在底层有 AliOS/YoC 这样面向多端的物联网操作系统进行支撑 , 语音部分包括了端点检测、回声消除、语音增强等前端处理模块 , 还包括了语音唤醒、本地语音识别以及本地语义理解 。 通过 NLS 的语音交互服务协议上云 , 云端则有阿里语音 AI 云平台、IoT 飞燕平台以及相应的内容资源池 。
本文插图
拾音模组-适配智能电视、投影仪等
本文插图
Linux 语音模组
语音模组将语音引擎内置到硬件模块之中;多模态的语音模组 , 将音视频技术沉淀到模组之中 。 下图中的 Linux 语音模式早在 2018 年就已经成熟了 , 目前已经应用于消费级的语音面板和售卖机等场景 , 支持 2 至 8 麦克风的高性能前端处理算法 , 360 度拾音 , 端云一体高性能语音唤醒 , 并且支持“主控模式”和“下位机”模式等 。
本文插图
RTOS 语音模组
在 2019 年的时候 , 达摩院语音实验室重点发展了 RTOS 的语音模组 。 面向广泛的家电、电工照明、故事机等场景 , 符合业界的期待 , 即在低成本和低功耗的条件下达到高体验 。 RTOS 语音模组基于多核异构架构 , 能够支持高性能 2 到 4 个麦克风的前端处理算法 , 360 度拾音 , 端云一体语音唤醒 , 支持离线语音识别和快速响应 , 并且支持低功耗待机语音唤醒 , 以及“主控模式”和“下位机”模式 。
多模态交互模组
多模态交互模组更多地应用于智能零售柜、信息查询大屏、服务机器人、多模态娱乐等场景 , 其具有 NPU 多核异构架构 , 支持 2 至 8 麦克风 , 强噪声声学环境拾音 , 具有对于物体、人体、行为、身份等检测识别能力 。
本文插图
达摩院在提供模组级或者芯片级方案的同时 , 还提供了声学硬件研发、质量控制服务体系 。 从模组期间选型到整机性能 , 从研发性能到产线质量控制 , 从国际标准测试环境到自研测试软硬件系统的全方位闭环 , 除此之外 , 还提供平台化的声学和 PCB 设计服务 。
- 企业与观察华为如果上市估值将达13000亿美元!揭秘国民手机为何不上市?
- 王石头科技阿里和华为终有一场较量!AI芯片自研实力,究竟谁更胜一筹?
- 『阿里』万科阿里京东扎堆养猪,养猪成了大厂们的新希望?
- 人民网揭秘中国空间站(深度观察)
- 『信用卡』很多提额失败了,这么操作以后居然提了,揭秘各行提额技巧
- 阿里巴巴▲适合普通人的投资方法,让你躺着赚钱
- 饿了么饿了么创始人是个大学生,670亿卖给阿里,现在吃穿不愁了吧!
- 你的剧世界有我马云给她0.2%的股份,20年过去她怎样了?,因为美貌做阿里前台
- 科技吹水顺丰投资的丰巢和阿里巴巴投资的菜鸟比到底差在哪
- 『阿里巴巴』中国品牌日献辞:为何世界离不开中国,中国也离不开世界?