文章插图
智东西(公众号:zhidxcom)
作者 | 心缘
编辑 | 漠影
智东西8月31日报道,在INTERSPEECH大会上,NVIDIA展示了其对话式AI最新研究成果——开发者和创作者可使用最先进的对话式AI模型进行情感语音合成,为角色、虚拟助手和个性化形象生成声音。
语音领域顶会INTERSPEECH汇聚了1000多名研究人员,展示在语音技术方面的突破性进展。在本周会议上,NVIDIA研究院将展示对话式AI模型架构及供开发者使用的完全格式化语音数据集。
文章插图
一、AI合成语音与人声的差距逐渐缩小如今合成语音逐渐走入人们的日常生活,从单调的机器人呼叫、传统GPS导航系统转变为智能手机和智能音箱中愈发拟人化的虚拟助手。
此前AI合成语音与我们在日常对话和媒体中听到的人类语音仍有差距,很难模仿人类说话时的复杂节奏、音调和音色。而这一差距正迅速缩小。
NVIDIA研究人员正在创建高质量、可控制的语音合成模型和工具,这些模型和工具能够捕捉人类语音的丰富性,并且不会出现音频杂音。
这些模型可实现为银行和零售商的自动客户服务热线配音、使视频游戏和书籍中的人物变得栩栩如生,并为数字化身提供实时语音合成。
情感语音合成只是NVIDIA研究院在对话式AI领域的重点工作之一。该领域还包括自然语言处理、自动语音识别、关键词检测、音频增强等。
这些前沿工作经过优化后可以在NVIDIA GPU上高效运行,其中的一些工作已通过NVIDIA NeMo工具包开放源代码,可在NVIDIA NGC容器和其他软件中心获得。
二、AI为视频配音,还能将男声切换成女声NVIDIA的语音合成模型已经被应用到I AM AI系列视频中,为这个介绍重塑各行业全球AI创新者的系列视频制作了生动的解说。
不久之前,这些视频还都是由人类配音的。以前的语音合成模型对合成声音节奏和音调的控制十分有限,因此AI配音无法唤起观众的情感反应,只有富有感情的人类声音才能做到这一点。
过去一年,NVIDIA文本-语音研究团队开发出更强大、更可控的语音合成模型(如RAD-TTS),解决了上述难题。
NVIDIA在SIGGRAPH Real-Time Live比赛中的获奖演示即采用这个模型。通过使用人类语音音频来训练文本-语音模型,RAD-TTS可以将任何文本转换成说话人的声音。
文章插图
该模型的另一项功能是语音转换,即使用一名说话人的声音讲述另一名说话人的话或歌唱。
RAD-TTS界面的灵感来自于将人的声音作为一种乐器这一创意。用户可以使用它对合成声音的音调、持续时间和强度进行精细的帧级控制。
通过这个接口,视频制作者可以在录制中自行阅读视频文本,然后使用AI模型将他作为男叙述者的语音转换成女叙述者的声音。
制作者可使用这个基准叙述,像指导配音演员一样指示AI,比如通过调整合成语音来强调特定的词语、修改叙述节奏以更好地表达视频中的语气等。
【 语音|NVIDIA对话式AI新进展:让情感合成语音为视频配音】该AI模型的能力已超出了配音工作的范围:文本-语音转换可以用于游戏、为有声音障碍的人提供帮助、或帮助用户用自己的声音进行不同语言的叙述。它甚至能重现标志性歌手的表演,不仅可以匹配歌曲的旋律,还能匹配人声背后的情感表达。
IAM AI系列视频链接:https://www.youtube.com/playlist?list=PLZHnYvH1qtObE_PjzaAFqS_CpmumGx5cW
三、为AI开发者和研究者提供语音SDK为了方便企业及研究人员的应用,NVIDIA提供了GPU加速的语音SDK。
NVIDIA NeMo是一款用于GPU加速对话式AI的开源Python工具包。NeMo中易于使用的API和预训练模型能帮助研究人员开发和自定义用于文本-语音转换、自然语言处理和实时自动语音识别的模型。
其中几个模型是在NVIDIA DGX系统上使用数万小时的音频数据训练而成。开发者可根据自己的使用情况对任何模型进行微调,用NVIDIA Tensor Core GPU上的混合精度计算加快训练速度。
NVIDIA NeMo还通过NGC提供在Mozilla Common Voice上训练的模型,该数据集拥有76种语言、近14000小时的众包语音数据。其目标是在NVIDIA的支持下,通过全球最大的开源数据语音数据集实现语音技术的普及化。
包括NeMo研究进展在内,本周的INTERSPEECH大会期间,NVIDIA嘉宾将带来如下演讲:
- 删除|电脑老是自动安装软件,有时还自动跳出广告对话框,必须要根治!
- 华夏小康|百融云创语音技术获多项专利 “百小融”赋能金融机构加速数字化
- RTX2060|NVIDIA 于官网列出 GeForce RTX 2060 12GB 规格!
- NVIDIA霸榜AI训练基准测试!三年性能涨超20倍
- 创业邦|我,干农活年入5亿,马上要上市了|独家对话极飞科技CEO彭斌
- 淘宝|给双12做准备?淘宝突然上线新功能:居然能打语音电话了
- 对话|对话系统与AI PM的发展之道
- 宇视|宇视十年对话张鹏国:走过绝望之谷,下一步冲向“100亿”
- 腾讯云|对话北明数科董事长王进宏:因「时」而变,数字化转型赛道遇上了腾讯云
- 张鹏国|宇视十年对话张鹏国:走过绝望之谷,下一步冲向“100亿”