CSDNTB@揭秘阿里达摩院!P10 大佬教你如何构建 AIoT 智能语音交互技术


【CSDN 编者按】已经换个江湖的马老师说过 , 达摩院活得要比阿里巴巴长 。 关注达摩院的开发者朋友应该有所了解 , 达摩院是面向未来探索未知的研究院 , 研究领域主要分为 5 个方面 , 本文作者 —— 阿里巴巴达摩院研究员付强博士就来自其中非常重要的机器智能方面的语音实验室 , 他有着 20 多年的语音信号处理研究和应用开发经验 。
在「CSDN 在线峰会 —— 阿里云核心技术竞争力」上 , 付强博士深入分享了面向 AIoT 的智能语音交互技术及实践 , 本文为演讲精华整理 。
CSDNTB@揭秘阿里达摩院!P10 大佬教你如何构建 AIoT 智能语音交互技术
本文插图
走近阿里达摩院
阿里巴巴达摩院成立于 2017 年 , 致力于探索科技未知 , 以人类愿景为驱动力的立足于基础科学、创新性技术和应用技术 。 达摩院秉承着“Research for solving problems with profit and fun”的宗旨 , 意在“以科技 , 创新世界” 。
达摩院的研究领域
阿里达摩院分布于中国、美国、以色列以及新加坡等 , 主要包括了 5 大研究领域 , 即机器智能、数据计算、机器人、金融科技以及 X 实验室 。 其中语音实验室属于机器智能方向 。
CSDNTB@揭秘阿里达摩院!P10 大佬教你如何构建 AIoT 智能语音交互技术
本文插图
机器智能技术实验室的研究方向
机器智能技术实验室的研究方向包括了语音、语义、视觉以及运筹优化等 , 面向的领域包括了政府、交通、农业、传媒、工业、新零售等场景 。
CSDNTB@揭秘阿里达摩院!P10 大佬教你如何构建 AIoT 智能语音交互技术
本文插图
语音实验室在整个达摩院的学术领域还是具有一定地位的 , 2019 年力压海外巨头突破人机对话难题 , 获得了 DSTC7 国际大赛双料冠军 。 也是在 2019 年 , 阿里巴巴语音 AI 入选了“2019 年的全球十大突破性技术” 。
达摩院语音方案的技术优势 , 可以分为以下 6 点来介绍:
过硬的技术能力:达摩院拥有全栈的技术链条以及世界领先的技术能力 。
基础能力免费:基础语音能力免费提供等政策 。
更灵活的解决方案:分层服务的差异化策略和基于不同厂商不同能力的定制输出 。
阿里生态和服务:阿里巴巴集团提供的庞大生态 。
丰富的量产经验:软硬件设计、多设备量产经验 。
服务客户的能力:迅速接入、全链路定制以及持续迭代和 BI 等能力 。
NUI 端云一体平台架构
语音交互主要包括了语音分离/增强、识别、理解、合成、对话等 。 达摩院有一套称之为 NUI(Natural User Interface)的端云一体化平台架构 , 基于阿里的生态提供内容和服务 , 支持了淘系、支付宝等应用 。 NUI 通过自然交互的方式为人提供信息、操控设备或者完成其他任务的产品形态 。
CSDNTB@揭秘阿里达摩院!P10 大佬教你如何构建 AIoT 智能语音交互技术
本文插图
面向智能硬件的端云一体语音技术能力
细化到语音相关技术能力 , 可以分为基本功能和高阶功能 。 基本能力包括 ASR:近场+远场语音识别、TTS:语音合成、WWV:本地远场唤醒、信号处理:抗噪+AEC 回声抵消、远场 2/4 MIC 模组方案;高阶技术则属于达摩院自主研发的独有专利技术 , 包括了方言、快捷命令词、唤醒词定制、基于声纹的个性化推荐、基于盲分离的语音增强、10 多个领域的对话理解功能以及即时热词功能等 。
CSDNTB@揭秘阿里达摩院!P10 大佬教你如何构建 AIoT 智能语音交互技术
本文插图
同时 , 还对阿里的生态资源进行整合调用 , 包括了阿里系的本地、生活、出行、旅游、智能、家居、购物、娱乐等方向 。
远场语音交互技术