思必驰 CTO 周伟达:语音技术优先服务于 AIoT|CCF-GAIR 2019


思必驰 CTO 周伟达:语音技术优先服务于 AIoT|CCF-GAIR 2019

文章插图
雷锋网按:7 月 12 日-7 月 14 日,2019 第四届全球人工智能与机器人峰会(CCF-GAIR 2019)于深圳正式召开 。峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办,得到了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会,旨在打造国内人工智能领域极具实力的跨界交流合作平台 。
当下,智能语音技术成为下一代人机交互新模式已经得到了业界的认可,智能交互、就近唤醒、全双工成为当下语音技术中前沿技术探讨点 。在 CCF-GAIR 2019 “5G + AIoT”专场上,思必驰 CTO 周伟达带来了关于语音交互技术的演讲,演讲主题为《语音交互技术在 IoT 方向的应用与挑战》 。
思必驰 CTO 周伟达:语音技术优先服务于 AIoT|CCF-GAIR 2019

文章插图
思必驰 CTO 周伟达
演讲中,周伟达指出,智能语音当下面临的挑战主要有三点,即低功耗、远场交互和高噪声、全场景智能交互 。
首先,在低功耗方面,周伟达在演讲中提到低功耗算法、低功耗芯片以及软硬一体的方案 。演讲结束后,周伟达接受了雷锋网的采访时也强调了低功耗 。他认为:“低功耗是语音技术发展的一个方向,它是一个涉及到语音交互的全链条,从前端的信号处理到语音合成,再通过扬声器的播放,每个环节都要实现低功耗 。”
另外,关于软硬结合的行业创新点,周伟达在采访中表示,一方面是 AI 计算的加速,涉及到在现有平台上植入算法去加速运算;另一方面是芯片的创新 。他说道:“ AI 芯片会打破传统的冯诺依曼的组件构架,然后把数据和指令从外部输入进来,还要有计算完再输入出去的架构 。有可能数据和计算是放在一起来做的,所以我们觉得会是一些革命性的技术突破 。”
对于远场交互和高噪声的挑战,周伟达在演讲中提出了麦克风阵列、降噪、多模态交互、全双工系统等解决方案 。另外,解决智能语音在全场景智能交互的挑战中,周伟达提出了多设备联动机制,通过正面唤醒、就近唤醒、语义选择、多模态直视唤醒等方案,以解决家居场景中的多设备智能唤醒难题 。
关于全双工的语音系统,周伟达在采访中做了补充,他说道,思必驰首先希望提升的是人机交互的自然度,主要着力于两个方面,一方面是处理降噪,提升 VAD;另一方面是完整意图判断 。不仅如此,全双工技术在未来除了要提升自然度,还要提高智能;其中包括感知智能和认知智能 。
除了演讲中提及的三大挑战,语音交互在 IoT 领域的应用中,隐私安全也是一个值得关注的问题 。对此,周伟达在采访中表示,隐私保护是最基础的,行业要发展,就必须保护隐私,尊重隐私 。
目前,思必驰不仅聚焦语音技术,而且自研 AI 芯片,周伟达接受采访时说道,要把语音技术产业做起来,思必驰要做更多的事情 。其实,思必驰最早主要投入于 AI 算法中,为了技术落地以及给客户提供更好的服务,思必驰在不断地提供多个层面的解决方案 。
【思必驰 CTO 周伟达:语音技术优先服务于 AIoT|CCF-GAIR 2019】值得注意的是,本次演讲的专场主题为“5G + AIoT”,关于 5G 的进步发展对 IoT 的影响,周伟达在采访中表示:“未来接入 5G 之后,户内设备访问数据的能力会更加流畅,更加快速 。”
对于户外设备,例如车载设备、地铁售票机等,周伟达认为,语音交互速度能够得到快速提升 。将来,在带有语音交互设备的购票机上,大约会有 70% 的用户会选择语音购票,而不是用按键或者是用触屏 。通过 5G 联网之后,未来户外设备会提供越来越多便捷的服务 。
以下是周伟达在 CCF-GAIR 大会上的演讲内容,雷锋网对其进行了不改变原意的编辑整理:
思必驰创建于 2007 年,这十几年间一直在 AI,特别是语音交互方面从事技术研发,以及技术和内容的服务 。
思必驰 CTO 周伟达:语音技术优先服务于 AIoT|CCF-GAIR 2019

文章插图
语音技术在 IoT 领域面临的挑战
一、低功耗 。我们要在耳机设备上做语音交互,做 Always on listening,这对功耗的要求非常高,这部分技术后面会做详细的介绍 。
二、远场和高噪声 。现在我拿着麦克风是近场的麦克风语音采集,在智能家居环境中,不可能总持着一个麦克风,或是带着麦克风跟设备进行语音交互 。在智能音箱、智能电视和各种智能家电以及在各种户外场景中,我们希望人可以脱离手持麦克风,可以跟设备进行自然的、智能的语音交互 。