文章插图
《兼容任何场景的多麦克风语音去混响》 论文链接:https://arxiv.org/abs/2010.11875
《 SPGISpeech:用于完全格式化端到端语音识别的5000小时转录金融音频》 论文链接:https://arxiv.org/abs/2104.02014
《Hi-Fi多讲话者英语TTS数据集》 论文链接:https://arxiv.org/abs/2104.01497
《TalkNet 2:用于语音合成(具有明确音高和持续时间预测)的非自回归深度可分离卷积模型》 论文链接:https://arxiv.org/abs/2104.08189
《使用稀疏随机三元矩阵压缩一维时间通道可分离卷积》 论文链接:https://arxiv.org/abs/2103.17142
《NeMo逆向文本正则化:从开发到生产》 论文链接:https://arxiv.org/abs/2104.05055
结语:NVIDIA持续推进AI语音技术前沿研究NVIDIA正在进行语音技术各个领域的研究,除了本文重点提及的TTS和语音再合成外,NVIDIA在ASR、语音增强与去噪、音频压缩、数据集、文本规范化、基本建模技术方面有新研究进展。
由I AM AI视频的配音示例,我们可以延展出更多语音合成技术的应用场景。尤其在愈发昂贵的视频游戏录制方面,越来越成熟的语音合成技术不仅能将配音从一种语言翻译成另一种语言,同时能保证声音情感内容的充沛。此外,语音合成技术也在零售、客服、医疗保健、汽车等日益由语音驱动的场景中大有可为。
当然,迄今对话式AI模型的突破仍很困难,预计在相当长一段时间都将是前沿研究领域。NVIDIA也在着力研究解决交互延迟等难题,我们也期待看见此类技术快速进化,以更加拟人化的方式在更多行业及人们生活中发挥价值。
- 删除|电脑老是自动安装软件,有时还自动跳出广告对话框,必须要根治!
- 华夏小康|百融云创语音技术获多项专利 “百小融”赋能金融机构加速数字化
- RTX2060|NVIDIA 于官网列出 GeForce RTX 2060 12GB 规格!
- NVIDIA霸榜AI训练基准测试!三年性能涨超20倍
- 创业邦|我,干农活年入5亿,马上要上市了|独家对话极飞科技CEO彭斌
- 淘宝|给双12做准备?淘宝突然上线新功能:居然能打语音电话了
- 对话|对话系统与AI PM的发展之道
- 宇视|宇视十年对话张鹏国:走过绝望之谷,下一步冲向“100亿”
- 腾讯云|对话北明数科董事长王进宏:因「时」而变,数字化转型赛道遇上了腾讯云
- 张鹏国|宇视十年对话张鹏国:走过绝望之谷,下一步冲向“100亿”