模范爸爸|| CCF-GAIR 2020,中国科学技术大学副教授凌震华:基于表征解耦的非平行语料话者转换( 二 )
平行语料和非平行语料的话者转换方法;
基于表征解耦的非平行语料话者转换方法 。
话者转换 , 又称语音转换 , 英文名为VoiceConversion , 指的是对源说话人的语音进行处理 , 使它听起来接近目标发音人 , 同时保持语音内容不变 。
源说话人语音输入后 , 首先经过声码器从语音信号中抽取声学特征 , 如梅尔谱、基频等;进一步通过声学模型P(Y|X)进行由源说话人声学特征X到目标说话人声学特征Y的映射;映射得到的声学特征最后通过声码器重构语音信号 。
在训练阶段 , 如果源和目标两个说话人朗读过同样的文本 , 就可以得到他们之间的平行语料 。 基于平行语料 , 可以直接建立转换模型描述两个说话人声学特征之间的映射关系 。 在转换阶段 , 输入新的源说话人声音 , 就可以通过转换模型进行目标说话人声学特征的预测 。
针对以上问题 , 自2013年开始 , 深度学习被广泛应用与语音转换的各个技术环节 , 如特征表示、声学建模、声码器等 。 今天重点关注的是声学模型 , 即如何更好的建模P(Y|X) 。