思必驰 CTO 周伟达：语音技术优先服务于 AIoT｜CCF-GAIR 2019( 二 ) _知识分享

那么，在远场的语音交互中，面临的问题有哪些呢？
低的信噪比。在远场的语音交互中，因为与麦克风距离很远，面临的第一个问题就是低的信噪比。低的信回比。如果本机播放音乐和合成音跟你交互，本机的混响会回到本机设备，因此，面临的第二个问题就是低的信回比。环境噪音干扰。除了本机发出的声音，我们在音箱上面临着电视的干扰、或是周围很多人群聊天的干扰。在卖场场景中，遇到的最大问题是：封闭的卖场里两排电视上下平着过去，一个房间三面墙都着放着电视，这些电视都是开着给大家做演示，同时有大量的购买者参观，主讲人、促销人如何在这样的场景里演示，包括给大家展示语音交互的体验？这样的场景里挑战非常大，外界的干扰是对目标人声有很大的干扰。因此，第三个问题就是非常低的信号和干扰的功率比。远场交互。无论在今天这样的环境还是家居环境，甚至是开放环境，混响时间 60dB 非常长。在空旷的场景里，要把后面的混响消除掉，得到人跟人交互清晰的语音，这样的挑战也是非常大的。三、全场景的智能交互。IoT 应用的设备五花八门，我们目前在 IoT 领域涉及的设备场景有 100 多个，搭载思必驰语音技术的产品众多。那么，面临的问题是什么？语音技术现在还不能做到非常通用的语音识别，很多语音识别跟背后的语音模型带来的领域知识需要定制。
通常情况下，日常的交流是没问题的，现在的机器对这种问题很容易解决。但是当我们面临一些特殊的专业名词，面临一些外来语，中文加上英文时，对于这样的语言模型，机器需要定制、需要输入热词。
那么，如何方便开发者、客户进行人机语音交互的技能定制，这是我们面临从实验室单个设备、单个产品技术的优化走向市场化、规模化的巨大挑战。

文章插图
如何做到低功耗？
现在行业内的解决方法基本上是“算法+硬件” 。一个芯片的功耗取决于芯片的供应、芯片的面积、芯片的主屏，我们要严格的筛选这几个部分。当然，在行业内有不少专业的公司专注做低功耗的芯片。
如何在硬件上做到多分级和复用？其实，在很多场景下，人和机器大多数时间是没交互的，那么，我们能不能在安静的场景下降频处理、降级处理呢？
在语音出现的场景中，我们用 VAD 检测以后语音开始采样、开始做之后的语音监听。当人们去唤醒它，有目的性、有目标的与机器设备交互的时候，我们能够监测到人的意图：他是跟机器交互，而不是跟其他人、其他场景聊天。在这种情况下，要做到低功耗需要分级处理、降频处理。
低功耗的处理需要从算法上解决目前硬件解决不了的问题。我们需要有模拟的 VAD 。以前大部分的 VAD 是麦克风采样完以后会用 VAD 的算法检测语音，这一块我们能检测的是：是否有声音启动系统？
还有，设备为了响应人的交互需求，在白天晚上都是在监控。在极安静的情况下，设备是 Sleep 状态，在晚上安静的场景下，设备也应该和人一样休息。在这一部分，我们应用了硬件模拟 VAD，是从麦克风信号下来以后，监测周围声音场景能量的强弱。
其次是数字硬件的 VAD，我们要解决的问题是，在有声音的环境中，这个声音有可能是噪声、有可能是人声或是其他设备的声音，需要用数字信号经过算法处理检测是不是人声。如果这个时候检测出人声，说明麦克风已经观察到人声。如果不做缓存处理，后面做语音唤醒、声纹识别的时候，数据已经丢失掉了。所以，在采样的时候一定要做 buffer，要做缓存，把人的语音完整保留下来。
之后，我们要结合一级信号处理和一级唤醒，这是做初始目标的识别。检测人的时候，旁边会有很多的干扰声音，要做到低功耗，首先要做第一级简单处理，再做二级高精度处理，然后是人的声纹判断和监测，再做本地识别。在这整个过程中，本来是复杂的算法一次搞定。但是为了满足低功耗的要求，我们逐级提升计算性能，逐级把极少的场景启用高功耗，大部分场景保持低功耗。
在 IoT 领域，低功耗问题的解决需要“硬件+算法” 。其实，我们是从算法的需求定义芯片，这一部分深聪智能 CTO 朱总（雷锋网注：深聪智能 CTO 朱澄宇，深聪智能是思必驰与中芯国际下属投资公司中芯聚源成立的合资公司）将在 AI 芯片专场会进行详细介绍，关于芯片上如何做到低功耗的语音检测、语音唤醒、语音信号处理。