思必驰 CTO 周伟达：语音技术优先服务于 AIoT｜CCF-GAIR 2019( 四 ) _知识分享

文章插图
全场景的语音交互：多设备联动+DUI 平台
随着单台智能设备在家庭里普及，很多家庭已经出现的多台智能设备。当出现两台智能设备的时候，如果还用语音唤醒去交互，是反人类的产品设计。那为什么要用反人类的产品在这样的产品里用呢？难点是，我们做语音交互设备的时候，如果设备一直在监听不用唤醒，设备经常会误判。虽然识别没问题，但是会误导设备与人交互，做误判以后会导致人的体验很差。
在这儿，我们需要解决多设备交互、多设备联动。比如说，在家居里有多个设备，能不能实现正面唤醒？能不能实现就近唤醒？或是就近交互？
另外，语义选择就是通过设备监听人说话，判断当前人是不是跟设备说话，是否跟机器覆盖的规模、意图相吻合。
最后，多模态视觉交互就是通过视觉设备、红外设备，感受到人对机器有表情的交流、眨眼的交流。用多模态判断出人是与机器交流，机器才会做出相应。

文章插图
面对多场景应用，在思必驰 DUI 平台上，用户可以实现语义、对话、内容、技能的定制。人机语音交互要经历多个环节，即识别、语义理解、对话管理、语音合成、内容服务，这些工作都是在后台进行。真正要开发一个好的技能，涉及到每个模块的优化。
思必驰刚开始服务于 IoT，配合客户做第一个场景设备花了一年半的时间。对于这样的技术，实验室可以做到，个人做 Demo 也可以做到，但是真正要做到产业化、市场化的时候，思必驰面临的最大问题是：能不能做成客户可快速开发和定制？
思必驰做的 DUI 平台，如果客户优选我们的标准功能加简单定制，7 分钟可以完成；如果是客户全定制，一天可以完成一个技能。
人机语音交互最主要的目的是实现信息资源、内容的获取，去实现定票、听音乐、看电视功能的操作，这是最直接的刚需需求。要实现这些操作，后台需要非常丰富的内容资源。关于这些内容资源，思必驰无论在互联网，或者是移动互联网，在行业内有很多的内容提供商。
这在人机语音交互、AIoT 里有什么特殊的呢？以前，我们无论是通过手机，还是 PC 听音乐，都可以浏览喜欢的歌手、喜欢的歌曲，还可以中间听一半或者快速切歌。想象一个音箱设备，没有屏幕，只有语音交互，那么，要如何快速获取你想要的内容呢？
现在最全的音乐库大约有三千两百多万首歌，一个人经常听的音乐最多 1000 首，那么，如何在三千两百多万首歌中获取你经常听的 1000 首歌曲，让你在闲暇时光，或者比较累的时候听的歌就是你想要的音乐，想看的电视就是你没有看过又是你喜欢的、同一品类的高质量大片呢？这是智能设备上高质量的内容源服务，不仅是内容源摆在那儿自己选，而且是给你推荐符合你喜好的，很广泛的内容、最关注的内容。
在 AIoT 中，除了单个设备需要智能以外，我们还需要打通全屋智能。思必驰的 DUI 平台上，我们已经为开发者打通智能家居各种互联协议，目前已经打通 20 多个协议，可以和其他的智能设备平台实现互联，互相调用信息，互相共享信息。
针对多场景的应用，我们希望为开发者提供最便捷的通用方案选择。目前思必驰在 IoT 方向为开发者提供标准、全面的解决方案有几大类：
家居语音解决方案。为各种智能家居设备，例如为冰箱、空调、洗衣机、控制面板、电脑、小家电、厨电、卫生间电器提供了解决方案。我们为各种智能手机、智能手环、智能手表、智能平板提供了低功耗的户外场景语音解决方案。我们为儿童类故事机、机器、手表、学习平板、编程机器人提供完整的解决方案。我们为各种企业会议系统、提高办公效率的远场语音采集、信号处理、语音增强、通话音质改善，包括发布会现场的语音采集抗混响、抗啸叫，语音实时转写、语音会议摘要提取，实时翻译等提供方案。思必驰全部的语音技术优先服务于 AIoT，我们坚信好的语音技术一定能服务到每一位普通的观众、普通的用户，只有让每一位用户真正体验到自然度、体验到交互的方便性、信息获取的便捷度，每一位用户才会真正接受语音交互技术在设备中的应用。
我们将会在本次峰会后，在「AI投研邦」上线CCF GAIR 2019 峰会完整视频与各大主题专场白皮书，包括机器人前沿专场、智能交通专场、智慧城市专场、AI芯片专场、AI金融专场、AI医疗专场、智慧教育专场等。「AI投研邦」会员们可免费观看全年峰会视频与研报内容，扫码进入会员页面了解更多。（最后一天50个名额，速抢。）。