模范爸爸|| CCF-GAIR 2020，中国科学技术大学副教授凌震华：基于表征解耦的非平行语料话者转换( 四 ) 雷锋网按：2020年8月7日至9日

最后我再介绍一下我们近期开展的基于序列到序列模型框架的非平行语音转换方法的研究工作。虽然前面介绍的VCC2018方法可以取得较好的非平行语音转换效果，但是其仍存在一些不足。例如，基于语音识别器提取的文本内容表征中难以保证不含有说话人相关信息、语音识别模型和转换生成模型没有联合训练、仍采用帧到帧映射的模型框架等。
因此，我们提出了一种基于表征解耦的序列到序列非平行语音转换方法。该方法在序列到序列建模框架下，可以实现对于语音中文本相关内容和话者相关内容的有效分离。其核心思想如图所示。在训练阶段，利用识别编码器和话者编码器分别提取语音中的文本和话者相关表征。同时我们通过训练准则的设计保证这两种表征相互独立，不会纠缠。在训练过程中，我们也会利用语音对应的转写文本。从转写文本中提取的信息可以为从语音中提取文本表征提供有效参考。在合成阶段，通过组合从源说话人语音中提取的文本表征，以及目标说话人的话者表征，可以实现从源说话人语音到目标说话人语音的转换。