Google 开发的这个 AI 真的能说人话？！谷歌开发的Tacotron 2使机器生成的语音

源 | Rankred 译 | 吴博韬

谷歌开发的Tacotron 2使机器生成的语音听起来电子味儿更轻，更像一个人的声音。他们使用神经网络来训练在文本范本和语音示例，以WaveNet级音频质量和Tacotron级韵律进行语音的合成。

从给定文本（文本到语音合成，TTS）生成自然语音的研究已经持续了几十年。在过去的几年里，研究者们取得了令人瞩目的进展。

机器人的声音是我们关注的重点，像微软的Cortana（小娜）或苹果的Siri。随着时间一点点过去，对比起其他机器人，谷歌 AI 声音开始听起来电子味儿轻了好多，更像是一个人。而现在，这几乎就是人的声音。

Google 的工程师结合了 WaveNet 和 Tacotron 等过去工作的 idea，并加强了最终采用于新系统 Tacotron 2的技术。为了实现类似人类的语音，他们使用的神经网络仅对文本记录和语音示例进行训练，而不是以任何复杂的语言和声学特征作为输入。

模型架构

该系统包含两个主要部分

1. 一种针对 TTS 的周期性序列特征的预测网络，优化了字母序列的序列特征，对音频进行了编码。

2. WaveNet 的改进版本，可根据预测的频谱图帧生成时域波形采样。

Tacotron 2 的模型架构

序列-序列模型的特征是一个80维的音频声谱图（每 12.5 毫秒测量一次帧），捕捉单词，速度，音量和语调。这些功能最终使用增强型WaveNet版本来转换为 24 kHz 波形的 16 位采样。

由此产生的系统将语音结合了 WaveNet 级别的音频质量和 Tacotron 级的音调韵律。它可以在不依赖任何复杂的特征工程的情况下对数据进行训练，并且完成与自然人声非常接近的最先进的音质。

不同于公司的其他核心人工智能研究，这项技术对 Google 来说非常有用武之地。例如，它最初在 2016 年出现， Google 智能助理中现在也在使用 WaveNet。Tacotron 2 将是一个更强大的附加服务。

限制

以上听起来不错，但仍有一些问题需要解决。该系统面临着一些问题，而发音复杂的单词如 “merlot” 和 “decorum” 等，在某种特殊情况下，它会随机产生奇怪的噪音。

目前，该系统无法实时生成音频，无法控制生成的语音，就像让它说的话听起来悲伤或快乐。此外，它只是训练来模仿女性的声音；要像其他女性或男性一样说话，开发者还得重新调试。

-END-

译者 | 吴博韬

“闷声挖大数据，这是最好的。”——一名沉迷于机器学习和数据挖掘的本科生。

后台回复 “志愿者”

了解如何加入我们