语音助手|模仿大脑实现“类人”虚拟助手语音助手

文章图片

文章图片

文章图片

演讲不仅仅是一种交流方式。一个人的声音传达情感和个性，是我们可以识别的独特特征。我们使用语音作为主要的交流方式是智能设备和技术中语音助手发展的关键原因。通常，虚拟助手通过将接收到的语音信号转换为他们可以理解和处理的模型来分析语音并响应查询，以生成有效的响应。然而，它们通常难以捕捉和整合人类语音的复杂性，最终听起来非常不自然。

现在，在IEEE Access杂志上发表的一项研究中，日本高等科学技术学院 (JAIST) 的 Masashi Unoki教授和JAIST的博士生Dung Kim Tran开发了一种可以捕获语音信息的系统类似于人类感知语音的信号。

在人类中，听觉外围将输入语音信号中包含的信息转换为大脑可以识别的神经活动模式 (NAP) 。为了模拟这个功能，我们使用匹配追踪算法来获得语音信号的稀疏表示或信号表示具有最小可能的显着系数。 “然后我们使用心理声学原理，例如等效矩形带宽尺度、gammachirp 函数和掩蔽效应，以确保听觉稀疏表示与NAP的相似。

为了测试他们的模型在理解语音命令和产生可理解且自然的响应方面的有效性，两人进行了实验，以将信号重建质量和听觉表征的感知结构与传统方法进行比较。听觉表征的有效性可以从三个方面进行评估：重新合成的语音信号的质量、非零元素的数量以及表示语音信号感知结构的能力。

为了评估重新合成的语音信号的质量，两人重建了630个不同说话者所说的语音样本。然后使用PEMO-Q和PESQ分数对重新合成的信号进行评级——声音质量的客观衡量标准。他们发现重新合成的信号与原始信号相当。此外，他们对6位发言者所说的某些短语进行了听觉表征。

两人还测试了该模型准确捕捉语音结构的能力，方法是使用模式匹配实验来确定短语的听觉表征是否可以与同一说话者的口语或查询相匹配。我们的结果表明，我们的方法产生的听觉稀疏表示可以实现高质量的再合成信号，每秒仅1066个系数。此外，所提出的方法还在模式匹配实验中提供了最高的匹配精度。

从能手机到智能电视甚至智能汽车，语音助手的作用在我们的日常生活中越来越不可或缺。这些服务的质量和持续使用将取决于他们理解我们的口音和发音并以我们认为自然的方式做出回应的能力。在这项研究中开发的模型可以在向我们的语音助手传授类似人类的品质方面大有帮助，使我们的交互不仅更方便，在心理上也令人满意。
【语音助手|模仿大脑实现“类人”虚拟助手】