CDA数据分析师智能语音识别技术入门系列(上)( 二 )
本文插图
关于声学模型 , 有两个主要问题 , 分别是不定长的特征向量序列和丰富多变的音频信号 。 不定长的问题通常由动态时间规整方法和隐马尔可夫模型方法来解决 。 而丰富多变性主要是由于说话的人的各种复杂特性 , 比如音色、风格、速度等 , 还有加之环境噪声、周围人声、方言差异等引起 。 所以 , 一个成功的语音识别系统必须能够音符所有可能性的变化因素 。
本文插图
这样的话 , 我们从特定领域任务向真实应用转变时 , 就会遇到一些困难 。 就像上图当中所展示的 , 一个时下实际的语音识别系统需要处理大量的词汇 , 可能是数百万量级的 , 自由式对话 , 带噪声的远场自发语音和多语言混合的问题 。 由于有了真实世界任务的需求 , 当今正在解决的语音识别相关的问题 , 如最右侧所示 , 就比过去已经解决的问题要难很多 。
(四) 传统声学模型
下面我们就来介绍一下传统的声学模型 。 语音识别建模对语音识别来说是不可或缺的一部分 , 因为不同的建模技术通常意味着不同的识别性能 , 所以这是各个语音识别团队重点优化的方向 。 也正是因为如此 , 语音识别的模型也层出不穷 , 在声学模型里面又涵盖了HMM、DNN、RNN等模型 。 简单来说 , 声学模型的任务就是描述语音的物理变化规律 , 而语言模型则表达了自然语言包含的语言学知识 。 而其中语音信号作为整个系统的输入就显得比较重要了 。 语音信号计算机中是采用PCM编码按时间序列保存的一连串数据 。 计算机中最原始语音文件是wav , 可以通过各种录音软件录制 , 其中录制通道表示很多音频都有左右2个通道 , 在语音识别中通常有一个通道的数据就够了 。
本文插图
再来说说我们做信号处理的目的----获得频率成分的分布 , 而语音作为非平稳信号要实现就要通过分帧来实现 。 这时候还有一个操作叫做加窗 , 加窗的目的是让一帧信号的幅度在两端渐变到 0 。 渐变对傅里叶变换有好处 , 可以提高变换结果的分辨率 。 加窗的代价是一帧信号两端的部分被削弱了 , 没有像中央的部分那样得到重视 。 弥补的办法是 , 帧不要背靠背地截取 , 而是相互重叠一部分 。
这样通常加窗之后我们可以实现特征数的降维以及提取出比原始语音更具表征力的特征 。 以上可以理解为若干帧对应一个音素 , 若干音素对应一个单词 , 如果我们想要识别对应的单词状态 , 我们只要知道对应的帧状态就行 , 用计算机能识别的方式最简单的就是概率匹配 , 这些概率我们就可以通过声学模型获得 , 所以要做的就是通过训练获得合适的模型参数以拟合好的匹配效果 。
(五) 语音识别三步
语音识别大体上包含前端处理 , 特征提取 , 模型训练 , 解码四个模块 。 其中前端处理包括了 , 语音转码 , 高通滤波 , 端点检测等 。
上图是目前语音识别的基本流程 , 输入的语音数据流经过前端处理(语音格式转码 , 高通 , 端点检测) , 语音格式转码是将输入的语音数据转成pcm或者wav格式的语音 , 端点检测是检测出转码后语音中的有效语音 , 这样对解码速度和识别率上都会改善 。 经过前端处理之后的得到的分段语音数据送入特征提取模块 , 进行声学特征提取 。 最后解码模块对提取的特征数据进行解码 , 解码过程中利用发音字典 , 声学模型 , 语言模型等信息构建WFST搜索空间 , 在搜索空间内寻找匹配概率最大的最优路径 , 便得到最优的识别结果 。
(六) 主流声学建模技术
- 疫情|美国疫情速报:确诊数已逼近284万;特朗普发话:99%新冠病例完全无害;美专家:实际感染数或是现有数据10~24倍
- 主从|Redis系列(五):主从复制
- 红刊财经|蒙泰股份拟创业板注册上市 营业收入数据异常问题难解
- 美国|美国疫情严重程度被大幅低估 实际感染人数或是现有数据10到24倍
- 富途资讯|| 重磅数据及事件一览表,一周前瞻
- 数据港湾|| 外资最新持股数据,农林牧渔
- 巴黎圣日耳曼等豪门觊觎,贝纳塞代表AC米兰出战时的数据并不亮眼,为何这位后腰还能得到不少豪门的青睐呢
- 曼联|9场造11球,英超数据葡超化!曼联若早引进B费,何须如今苦苦争4?
- 科技小数据 Redis系列(五):主从复制
- Python1行代码实现Python数据分析:图表美观清晰,自带对比功能丨开源