语音|NVIDIA对话式AI新进展:让情感合成语音为视频配音( 二 )


文章插图
《兼容任何场景的多麦克风语音去混响》 论文链接:https://arxiv.org/abs/2010.11875
《 SPGISpeech:用于完全格式化端到端语音识别的5000小时转录金融音频》 论文链接:https://arxiv.org/abs/2104.02014
《Hi-Fi多讲话者英语TTS数据集》 论文链接:https://arxiv.org/abs/2104.01497
《TalkNet 2:用于语音合成(具有明确音高和持续时间预测)的非自回归深度可分离卷积模型》 论文链接:https://arxiv.org/abs/2104.08189
《使用稀疏随机三元矩阵压缩一维时间通道可分离卷积》 论文链接:https://arxiv.org/abs/2103.17142
《NeMo逆向文本正则化:从开发到生产》 论文链接:https://arxiv.org/abs/2104.05055
结语:NVIDIA持续推进AI语音技术前沿研究NVIDIA正在进行语音技术各个领域的研究,除了本文重点提及的TTS和语音再合成外,NVIDIA在ASR、语音增强与去噪、音频压缩、数据集、文本规范化、基本建模技术方面有新研究进展。
由I AM AI视频的配音示例,我们可以延展出更多语音合成技术的应用场景。尤其在愈发昂贵的视频游戏录制方面,越来越成熟的语音合成技术不仅能将配音从一种语言翻译成另一种语言,同时能保证声音情感内容的充沛。此外,语音合成技术也在零售、客服、医疗保健、汽车等日益由语音驱动的场景中大有可为。
当然,迄今对话式AI模型的突破仍很困难,预计在相当长一段时间都将是前沿研究领域。NVIDIA也在着力研究解决交互延迟等难题,我们也期待看见此类技术快速进化,以更加拟人化的方式在更多行业及人们生活中发挥价值。