京客网|打造端到端信号声学一体化建模等前沿技术，百度语音交互持续迭代 9月15日

9月15日， AI领域的行业盛会“百度世界2020”大会于线上隆重召开，一大波硬核技术袭来：百度创始人、董事长兼CEO李彦宏与总台央视主持人康辉“虚拟人”亮相、颠覆搜索形态的“度晓晓”、没有驾驶员的“全自动驾驶”、各行各业赋能案例……既有硬核技术，又有“接地气”的落地应用。

文章图片
(百度世界2020****直播间)
在当天的百度大脑分论坛上，百度语音首席架构师贾磊重点讲解了百度端到端语音交互技术。他表示，百度语音交互技术持续迭代升级，已发展成为基于深度学习技术的端到端的语音识别和语音合成技术。在语音识别层面，百度推出端到端信号声学一体化建模的技术，语音合成方面，最新的Meitron和单人千面合成个性化技术亮相。同时交出了百度语音技术最新成绩单：日均调用量超过155亿次，广泛应用在移动端、智能家居、和语音IoT等场景，智能语音产业化成果丰硕。

文章图片
(百度语音首席架构师贾磊)
会上，贾磊分别从语音识别和语音合成两个技术维度详解了百度语音技术的发展迭代和最新成果。在语音识别方面，百度语音识别技术持续创新，从2012年首推深度学习技术，到2019年在业内首先把注意力模型应用于在线语音识别，推出流式多级的截断注意力模型SMLTA;再到如今全面进化为端到端的信号声学一体化建模技术，在助力百度自身业务发展的同时，更好地赋能多场景、多产业应用。

文章图片
作为百度语音识别技术的最新成果，端到端的信号声学一体化建模技术很好地解决了传统数字信号处理和语音识别级联系统的各种问题，抛弃了各自学科的学科假设，通过端到端的建模，大幅提升了远场语音识别率。

文章图片
据贾磊介绍，端到端的信号声学一体化建模技术由模型波束技术和模型AEC技术组成。前者进化为多分区融合的模型波束建模技术，在国际上由百度首次提出，较单分区技术进一步提升识别性能15%以上;后者是升级为基于双LOSS实值掩蔽的模型AEC技术，可以解决设备有非线性情况下的回波消除问题，使得设备即使在播放音乐的时候，也能够进行成功的打断和高精准的语音识别。

文章图片
此外，贾磊还在会上介绍了百度今年推出的端侧全双工语音交互技术。据他介绍，百度端侧全双工语音交互技术将复杂的建模过程转化为3个端到端的深度学习过程，即信号声学一体化建模、声学语言一体化建模以及语义置信一体化建模。通过端到端的建模，该技术能够将整个复杂的端侧交互转变成若干个深度学习计算，使得依靠一颗AI芯片就能完成端侧的全双工语音交互，从而大幅度提升车载手机等语音交互性能，显著改善用户体验。

文章图片
而在语音合成方面，百度自2013年启动语音合成研发，历经参数合成、拼接合成、深度学习语音合成和端到端的语音合成，到如今全新升级为包含个性化、多风格多角色、单人千面的语音合成系统，百度语音合成技术始终处于升级迭代中。
会上，贾磊依次介绍了百度语音合成技术的最新成果——个性化TTS ，多风格、多角色，单人千面。个性化TTS是个性化定制的Meitron语音合成系统的最新演进，是基于子带分解和GAN_loss的端侧神经网络声码器，也是业内首个在手机端多人通用的端侧的基于神经计算的声码器。个性化TTS相较于传统的基于信号处理和参数的声码器， ABX提升可以达到65：35 ，其已应用于地图导航，目前每日的导航播报超过1亿次。