学界 | 批训练、注意力模型及其声纹分割应用，谷歌三篇论文揭示谷歌在 arXiv 上发布了三篇论文

机器之心报道

作者：邱陆陆

声纹识别技术在谷歌的诸多产品中有着重要应用。除了安卓手机目前所独有的声纹解锁功能外，谷歌的家庭语音助手 Google Home 也能通过声纹识别支持多用户模式，从而针对不同用户提供个性化服务。当你向 Google Home 查询自己的日程时，Google Home 会根据声纹判断出是你，而非其他也可能使用该设备的家庭成员在进行查询，并从你的日历中提取数据。这种多用户模式，是 Amazon Echo 等其他同类语音助手产品所不具有的。

近日，谷歌在 arXiv 上发布了三篇论文，详细介绍了其声纹识别技术的核心实现方法。

第一篇论文 Generalized End-to-End Loss for Speaker Verification，第一作者万力。文中介绍了一种基于批（batch）的训练方法。一般的方法中，神经网络的训练目标是让同一说话者的不同语音片段之间的声纹特征变得相似，而让任意两个不同说话者之间的声纹特征变得不同。而这种基于批的训练，则是将同一批中每个说话者与其最相似的说话者的声纹特征变得不同。论文通过理论和实验论证了，这种始终针对最困难案例进行优化的训练方式，能够极大地提升训练速度和效果。

这篇论文还介绍了一种叫做 MultiReader 的技术，允许在多个大小极度失衡的数据源上训练同一个模型，从而做到一个模型支持多个唤醒词及多种口音。根据该论文，Google Home 通过一个单独的声纹模型同时支持这两个唤醒词，并支持不同地域的口音。即使用户只用一个唤醒词完成声纹注册，当用户使用另一个唤醒词时，声纹识别依然能做到极高的准确率（EER 分别为 2.30% 和 2.99%）。这是流行的语音助手产品中首次用单一声纹模型实现多唤醒词技术。

在第二篇论文 Attention-Based Models for Text-Dependent Speaker Verification 中，作者介绍了多种注意力模型，使得神经网络能够将更大的权重赋予音频信号中的有效语素，并忽略可能会损害识别结果的非语音信号。文中尝试了不同的注意力评分函数，包括线性的与非线性的，时域共享参数的与时域不共享参数的等。此外，文中还尝试将注意力连接到神经网络的不同深度，以及对注意力采用不同的最大池化方法。最后，通过结合多种注意力技术，模型能将声纹识别的错误率（EER）降低 14% 左右。有趣的是，文中还对训练过程中所学到的注意力进行了可视化，从中可以清楚地观察到，音频中的有效语素能够得到较大的注意力权重，而语素之间的杂音则被忽略。

第三篇论文 Speaker Diarization with LSTM，第一作者王泉。该论文将前两篇论文中所提到的声纹模型用于解决一个新的问题——多音源环境下的声纹分割。该论文所介绍的方法首先从音频信号中提取互相重叠的滑动窗口，然后从各个窗口中提取声纹特征，最后采用频谱聚类（spectral clustering）的方法将每个滑动窗口对应到相应说话者。这是目前为止业界唯一使用 LSTM 解决声纹分割的实现。在标准数据集 CALLHOME 上，该系统达到了 6% 的混淆错误率（DER），远远优于此前的任何其他方法。这套声纹分割系统将可以被用于从 YouTube 视频等多媒体中提取单一说话者的音频片段，并大大提高语音识别的准确率。

这三篇论文均投稿至语音识别顶级会议 ICASSP 2018，以下是对这几篇论文的摘要介绍：

论文：Generalized End-to-End Loss for Speaker Verification

链接：http://arxiv.org/abs/1710.10467

在此论文中，我们提出一种新的损失函数：泛化端到端（GE2E）损失函数。相比于之前基于元组的端到端（TE2E）损失函数，该函数使得声纹识别模型的训练变得更高效。不同于 TE2E，GE2E 损失函数在训练过程中，依据每一步所遇到的最困难样本来更新网络。此外，GE2E 也不需要额外的样本选择步骤。在这些优势下，使用该新型损失函数的模型能学到更好的模型，错误率（EER）降低超过 10%，在训练时间上减少了 60%。我们也引入了 MultiReader 技术，能让我们做域适应，从而训练更准确的模型来支持多种关键词（例如，「OK Google」、「Hey Google」以及多种方言）。

论文：Attention-Based Models for Text-Dependent Speaker Verification

链接：http://arxiv.org/abs/1710.10470

如今，基于注意的模型在多种任务上有极佳的表现，例如语音识别、机器翻译、图像描述等，这是因为注意模型能够从完整长度的输入序列上总结出相关信息。在此论文中，我们分析了注意机制在端到端固定文本声纹识别系统中序列总结问题上的使用。我们探索了注意层的不同拓扑及其变体，并对比了在注意权重上的不同池化方法。最后，相比于非基于注意的 LSTM 模型，基于注意的模型能把我们声纹识别系统的错误率（EER）降低 14% 左右。

论文：Speaker Diarization with LSTM

链接：http://arxiv.org/abs/1710.10468

多年以来，基于 i-vector 的声纹特征提取技术一直是声纹识别与声纹分割应用的主要方法。然而，随着深度学习方法在各个领域的崛起，基于神经网络的声纹特征提取，也就是 d-vectors 技术，始终如一地证明着其在声纹识别上的卓越表现。在此论文中，在基于 d-vector 的声纹识别系统的成功之上，我们开发了一种新的基于 d-vector 的声纹分割方法。特别是，我们把基于 LSTM 的 d-vectory 音频特征提取与近期在非参数聚类上的研究成果结合，在声纹分割系统上取得了界内最佳成果。我们在 CALLHOME American English 数据集、2003 NIST CTS 数据集上的实验结果证明，基于 d-vector 的声纹分割系统相比于传统的基于 i-vector 的系统有显著的优势。

本文为机器之心报道，转载请联系本公众号获得授权。

?------------------------------------------------

加入机器之心（全职记者/实习生）：hr@jiqizhixin.com

投稿或寻求报道：content@jiqizhixin.com

广告&商务合作：bd@jiqizhixin.com