CDA数据分析师智能语音识别技术入门系列(上)( 三 )


CDA数据分析师智能语音识别技术入门系列(上)
本文插图
近年来 , 随着深度学习的兴起 , 使用了接近30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(泛指深度神经网络)所替代 , 模型精度也有了突飞猛进的变化 , 整体来看声学建模技术从建模单元、模型结构、建模流程等三个维度都有了比较明显的变化 。 其中 , 深度神经网络超强的特征学习能力大大简化了特征抽取的过程 , 降低了建模对于专家经验的依赖 , 因此建模流程逐步从之前复杂多步的流程转向了简单的端到端的建模流程 , 由此带来的影响是建模单元逐步从状态、三音素模型向音节、字等较大单元演进 , 模型结构从经典的GMM-HMM向DNN+CTC(DNN泛指深度神经网络)转变 , 演进的中间态是DNN-HMM的混合模型结构 。
(七) 混合高斯模型(GMM)
让我们先来看看GMM混合高斯模型 。 简单来说 , 当使用混合高斯随机变量的分布用于匹配真实世界的数据 , 比如语音特征时 , 就形成了混合高斯模型 。 GMM作为描述基于傅里叶频谱语音特征的统计模型 , 在传统的语音识别系统的声学建模中发挥了重要作用 。 GMM的优势使得期望最大化算法可以被有效地用来训练模型 , 以更好的匹配语音特征 。 原始的语音数据经过变换后会成为特征序列 , 在忽略时序信息的条件下 , GMM就非常适合拟合这样的语音特征 。 也就是说 , 可以以帧为单位 , 用GMM对语音特征进行建模 。
(八) 通信模型(HMM)
CDA数据分析师智能语音识别技术入门系列(上)
本文插图
但是呢?如果把语音顺序信息考虑进去 , GMM就不再是一个好模型了 , 因为它不包含任何顺序信息 。 这时隐马尔可夫模型就更加通用了 , 因为它可以对时序信息进行建模 。 但其实 , 当给定HMM的一个状态后 , 若要对属于该状态的语音特征向量的概率分布进行建模 , GMM仍不失为一个好的模型 。 使用GMM对HMM每个状态的语音特征分布进行建模 , 有许多明显的优势 。 只要混合的高斯分布足够多 , 那么GMM可以拟合任意精度的概率分布 , 并且他可以通过EM算法很容易拟合数据 。 GMM参数通过EM算法的优化 , 可以使其在训练数据上生成语音观察特征的概率最大化 , 在此基础上 , 若通过鉴别性训练 , 基于GMM-HMM的语音识别系统的识别准确率可以得到显著提升 。 尽管GMM有着众多优势 , 但它也有一个严重的不足 , 那就是GMM不能有效地对呈非线性或近似非线性的数据进行建模 。 这就意味着隐藏在语音特征下的真正结构的复杂度 , 比直接描述现有特征 , 使其作为语音声学模型的能力比GMM更好 , 我们要求这种模型要能更加有效地挖掘隐藏在长窗宽语音帧中的信息 。 这时我们就可以将随机变量的概念延伸到随机序列 , 它可以是离散的也可以是连续的 , 非常符合我们的要求 , 而这种状态就是马尔可夫序列的基本状态 , 由它衍生出的模型叫做HMM隐马尔可夫模型 。 大家现在看到的这整个结构就是一个典型的通信系统 , 而这种系统就特别适合隐马尔科夫模型来进行估计计算了 。 那么下节课我们就会把重点放在HMM上来做介绍 。
【CDA数据分析师智能语音识别技术入门系列(上)】本文章就到这里暂时告一个段落 , 我们下一篇文章再见 。