思必驰 CTO 周伟达:语音技术优先服务于 AIoT|CCF-GAIR 2019( 四 )


思必驰 CTO 周伟达:语音技术优先服务于 AIoT|CCF-GAIR 2019

文章插图
全场景的语音交互:多设备联动+DUI 平台
随着单台智能设备在家庭里普及,很多家庭已经出现的多台智能设备 。当出现两台智能设备的时候,如果还用语音唤醒去交互,是反人类的产品设计 。那为什么要用反人类的产品在这样的产品里用呢?难点是,我们做语音交互设备的时候,如果设备一直在监听不用唤醒,设备经常会误判 。虽然识别没问题,但是会误导设备与人交互,做误判以后会导致人的体验很差 。
在这儿,我们需要解决多设备交互、多设备联动 。比如说,在家居里有多个设备,能不能实现正面唤醒?能不能实现就近唤醒?或是就近交互?
另外,语义选择就是通过设备监听人说话,判断当前人是不是跟设备说话,是否跟机器覆盖的规模、意图相吻合 。
最后,多模态视觉交互就是通过视觉设备、红外设备,感受到人对机器有表情的交流、眨眼的交流 。用多模态判断出人是与机器交流,机器才会做出相应 。
思必驰 CTO 周伟达:语音技术优先服务于 AIoT|CCF-GAIR 2019

文章插图
面对多场景应用,在思必驰 DUI 平台上,用户可以实现语义、对话、内容、技能的定制 。人机语音交互要经历多个环节,即识别、语义理解、对话管理、语音合成、内容服务,这些工作都是在后台进行 。真正要开发一个好的技能,涉及到每个模块的优化 。
思必驰刚开始服务于 IoT,配合客户做第一个场景设备花了一年半的时间 。对于这样的技术,实验室可以做到,个人做 Demo 也可以做到,但是真正要做到产业化、市场化的时候,思必驰面临的最大问题是:能不能做成客户可快速开发和定制?
思必驰做的 DUI 平台,如果客户优选我们的标准功能加简单定制,7 分钟可以完成;如果是客户全定制,一天可以完成一个技能 。
人机语音交互最主要的目的是实现信息资源、内容的获取,去实现定票、听音乐、看电视功能的操作,这是最直接的刚需需求 。要实现这些操作,后台需要非常丰富的内容资源 。关于这些内容资源,思必驰无论在互联网,或者是移动互联网,在行业内有很多的内容提供商 。
这在人机语音交互、AIoT 里有什么特殊的呢?以前,我们无论是通过手机,还是 PC 听音乐,都可以浏览喜欢的歌手、喜欢的歌曲,还可以中间听一半或者快速切歌 。想象一个音箱设备,没有屏幕,只有语音交互,那么,要如何快速获取你想要的内容呢?
现在最全的音乐库大约有三千两百多万首歌,一个人经常听的音乐最多 1000 首,那么,如何在三千两百多万首歌中获取你经常听的 1000 首歌曲,让你在闲暇时光,或者比较累的时候听的歌就是你想要的音乐,想看的电视就是你没有看过又是你喜欢的、同一品类的高质量大片呢?这是智能设备上高质量的内容源服务,不仅是内容源摆在那儿自己选,而且是给你推荐符合你喜好的,很广泛的内容、最关注的内容 。
在 AIoT 中,除了单个设备需要智能以外,我们还需要打通全屋智能 。思必驰的 DUI 平台上,我们已经为开发者打通智能家居各种互联协议,目前已经打通 20 多个协议,可以和其他的智能设备平台实现互联,互相调用信息,互相共享信息 。
针对多场景的应用,我们希望为开发者提供最便捷的通用方案选择 。目前思必驰在 IoT 方向为开发者提供标准、全面的解决方案有几大类:
家居语音解决方案 。为各种智能家居设备,例如为冰箱、空调、洗衣机、控制面板、电脑、小家电、厨电、卫生间电器提供了解决方案 。我们为各种智能手机、智能手环、智能手表、智能平板提供了低功耗的户外场景语音解决方案 。我们为儿童类故事机、机器、手表、学习平板、编程机器人提供完整的解决方案 。我们为各种企业会议系统、提高办公效率的远场语音采集、信号处理、语音增强、通话音质改善,包括发布会现场的语音采集抗混响、抗啸叫,语音实时转写、语音会议摘要提取,实时翻译等提供方案 。思必驰全部的语音技术优先服务于 AIoT,我们坚信好的语音技术一定能服务到每一位普通的观众、普通的用户,只有让每一位用户真正体验到自然度、体验到交互的方便性、信息获取的便捷度,每一位用户才会真正接受语音交互技术在设备中的应用 。
我们将会在本次峰会后,在「AI投研邦」上线CCF GAIR 2019 峰会完整视频与各大主题专场白皮书,包括机器人前沿专场、智能交通专场、智慧城市专场、AI芯片专场、AI金融专场、AI医疗专场、智慧教育专场等 。「AI投研邦」会员们可免费观看全年峰会视频与研报内容,扫码进入会员页面了解更多 。(最后一天50个名额,速抢 。) 。