人机交互过程拆解:是什么?怎么做?( 三 )
例如【板蓝根】 , 训练之后一听到这个语音就不会识别成【版烂根】
这样我们最终就能得到这个语音识别的模型 , 并且我们可以通过继续迭代来优化这个模型
既然模型有了 , 那怎么看好还是差呢?有几个方面来分辨 。
文章插图
理想音频就是识别质量较好的情况 , 但是现实生活中语音识别往往回因为各种情况导致识别效果不佳 , 比如丢音 , 比如你按下手机麦克风按钮时 , 还没有启动录音你就开始说话了 , 那没启动时说的语音就被丢弃了 , 这种情况识别就差很多了 , 什么叫截幅呢?就是一般语音识别都是用两个字节来表示一个语音的取值范围 , 当你的增益太大就会被自动截掉 , 识别的效果也较差了 。
回过头来 , 我们刚才所得到的语音训练模型只是一种特定情况下得到的语音模型 , 不具备普适性 。 为何这么说呢?
我们所得到的医学领域模型 , 假设是用手机录音采集的语料 , 那么这个模型就是近场识别模型 , 一旦同样的术语【板蓝根】你用手机询问就能回答正确 , 但是你一旦用音箱远场询问 , 那很可能就得出错误的回答 , 这叫声学一致性 。
文章插图
同样 , 不同领域也需要文本一致性 , 你希望这个领域能多识别该领域的专业词汇那就需要多训练这个领域的核心词汇 , 否则就会出现【板蓝根】的情况 。
文章插图
最后 , 通过不断的获取到不同的音频数据、文本数据 , 并继续迭代优化 , 我们会得到更好的模型 , 识别更准的效果 。
这就是识别的细节 , 这也是一种科技的魅力 , 众多步骤完成了我们看似简单的动作 。 与其说机器的紧密不如说人类的身体系统更加复杂与奥妙 。
本文由 @南国书生 原创发布于人人都是产品经理 , 未经作者许可 , 禁止转载 。
【人机交互过程拆解:是什么?怎么做?】题图来自Unsplash , 基于CC0协议 。
- 西门子|西门子全系PLC拆解图,网友: 为什么国产工控落后?
- 戴尔|“美帝良心想”,是联想电脑国际化过程导致的口碑事件之一
- 台湾|边拆解边科普!用全汉Hydro G Pro1000了解电源结构和原理
- 雷军|内置微源LP6261同步升压转换器,Redmi Buds 3青春版拆解报告
- 联想|拆解联想电脑,没有任何一个核心零部件是国产的,塑料壳和螺丝是国产的
- 专利|华为肌肤检测专利获授权,可在护肤或化妆过程中给出处理建议
- 数据库|记一次拿到后台权限的过程
- 小米科技|雷军真没骗人?外媒拆解小米5G手机:硬件利率真没超过5%
- 用户|UX研究过程中的常见错误
- 数字化|聊一聊企业信息化过程中的两个典型问题