人机交互过程拆解：是什么？怎么做？( 三 ) 编辑导读：AI改变了我们与机器

例如【板蓝根】，训练之后一听到这个语音就不会识别成【版烂根】
这样我们最终就能得到这个语音识别的模型，并且我们可以通过继续迭代来优化这个模型
既然模型有了，那怎么看好还是差呢？有几个方面来分辨。
文章插图
理想音频就是识别质量较好的情况，但是现实生活中语音识别往往回因为各种情况导致识别效果不佳，比如丢音，比如你按下手机麦克风按钮时，还没有启动录音你就开始说话了，那没启动时说的语音就被丢弃了，这种情况识别就差很多了，什么叫截幅呢？就是一般语音识别都是用两个字节来表示一个语音的取值范围，当你的增益太大就会被自动截掉，识别的效果也较差了。
回过头来，我们刚才所得到的语音训练模型只是一种特定情况下得到的语音模型，不具备普适性。为何这么说呢？
我们所得到的医学领域模型，假设是用手机录音采集的语料，那么这个模型就是近场识别模型，一旦同样的术语【板蓝根】你用手机询问就能回答正确，但是你一旦用音箱远场询问，那很可能就得出错误的回答，这叫声学一致性。
文章插图
同样，不同领域也需要文本一致性，你希望这个领域能多识别该领域的专业词汇那就需要多训练这个领域的核心词汇，否则就会出现【板蓝根】的情况。
文章插图
最后，通过不断的获取到不同的音频数据、文本数据，并继续迭代优化，我们会得到更好的模型，识别更准的效果。
这就是识别的细节，这也是一种科技的魅力，众多步骤完成了我们看似简单的动作。与其说机器的紧密不如说人类的身体系统更加复杂与奥妙。
本文由 @南国书生原创发布于人人都是产品经理，未经作者许可，禁止转载。
【人机交互过程拆解：是什么？怎么做？】题图来自Unsplash ，基于CC0协议。