|如何使用对比预测编码提升语音情感识别性能？

全文共4925字，预计学习时长13分钟

本文插图
图源：unsplash
本文中，笔者将分享如何开发一个语音输入情感识别系统，并使用对比预测编码(CPC)训练的自我监督演示提升性能。使用CPC时，结果准确性从基线的71%提高到80% 。这是显著的相对减低率，误差在30% 。
此外，笔者对使用这些演示训练模型的各种体系结构进行了基准测试，包括简单多层感知器(MLPs)、递归神经网络(RNNs)和使用扩展卷积的WaveNet类型模型。
笔者发现，使用预先训练的CPC演示作为输入特征的双向RNN模型是最高性能的设置，在RAVDESS数据库集中分类八种情绪时，其帧精度达到79.6% 。据笔者所知，与接受过这方面培训的其他系统相比，此系统十分具有竞争力。

本文插图
引言
语音情感识别包括从快乐、忧伤、愤怒等一系列组别中预测情感，在电话服务中心、医疗保健和人力资源等业务中有许多潜在的应用。例如，在电话服务中心，可以自动发现潜在客户的情绪，引导销售代表采取更好的销售方式。
通过音频预测情绪是很有挑战性的，因为不同的人对情绪的感知不同，并且往往很难解释。此外，许多情感线索来自与言语无关的领域，如面部表情、特定心态和互动背景。做出最终判断之前，我们会自然而然考虑所有这些信号以及我们过去的交流经验。
一些研究者使用音频结合文本或音频结合视频的多模式方法来提升性能。理想情况下，会训练理解这些领域和社会互动之间联系的世界模型来完成这项任务。然而，这是一个进行中的研究领域，目前还不清楚如何从社会互动中学习，而不仅仅是从数据本身研究趋势。在此实验中，我通过使用对比预测编码框架的自我监督演示表示训练代替多模式训练来提高性能。
在语音表征学习领域，语音识别和说话人识别分别对语音中的局部结构和全局结构进行评估，因此被广泛应用于评估自监督学习技术产生的特征。本文证明了情感识别可以作为下游任务衡量演示质量。此外，对情绪进行分类补充了电话和说话者的识别，因为情绪在很大程度上只取决于说话内容或声音效果。
情感识别
大多数情感识别系统使用梅尔频率倒谱系数(MFCCs)进行训练，该系数是基于频谱图的流行音频特征。 Fbanks ，也称Mel波谱图，与MFCCs类似，应用广泛。两者都捕捉人类敏感的频率内容。
情感识别任务中，通过自我监督学习来使用机器学习的特征时，很少有工作显示出性能的提高。值得注意的是， MFCCs和Fbanks仍然可以用作自我监督任务的输入，而不是原始音频，并且在提取更丰富演示时通常是一个很好的起点。
自我监督学习
有多种自我监督的语音技术。自我监督学习是“无监督的” ，利用数据的固有结构生成标签。其动机是能够在互联网上使用大量未标记的音频数据，以类似于语言模型从未标记文本数据中学习的方式生成一般演示。
理想情况下，与完全监督的方法相比，这导致在下游任务中获得相同性能所需的人工标记数据更少。较少人为标记的数据意味着，例如，公司可以避免使用昂贵的转录器获得自动语音识别(ASR)的准确音频转录。
单纯依靠监督学习有特定任务解决方案的危险，在这种情况下，模型可能难以在不同的领域(如电视广播和电话)或不同的噪声环境中进行推广。此外，监督学习倾向于忽略音频丰富的底层结构，这正是自我监督学习的优势所在。