文章插图
智东西(公众号:zhidxcom)
作者 | 杨畅
编辑 | 漠影
你试过15分钟写3000字吗?
除了知识储备和灵感之外,码字速度同样是一个作者重要的必杀技 。作为一位作者,剑飞最常用的码字神器就是讯飞输入法的语音输入功能,他还曾经尝试过用讯飞输入法日更15万字 。
输入法虽然是人们使用手机、电脑等智能设备的必备工具,但大家在平常被问到最常使用的App是哪个的时候,很少有人会想起它 。
不过随着越来越多AI技术应用到输入法中,输入法逐渐从工具性产品发展成服务性产品,变得更贴心了,像讯飞输入法中的中英文混合输入功能、AI助手提供的AI校对、AI斗图等等,为用户提供了更个性化和场景化的服务 。
今年是讯飞输入法推出的第11年,每年都会升级一个大版本的讯飞输入法,在11月3日发布了今年全新升级后的输入法:讯飞输入法V11.0 。第11代讯飞输入法有五大亮点变化:AI语音升级、AI助手升级、AI键盘输入升级、AI表情升级和输入法App UI、App内社区改版 。
文章插图
具体新升级的讯飞输入法能给用户带来怎样不同的输入体验,这些升级背后讯飞输入法又融入了哪些独有的AI能力?
为此,智东西对话科大讯飞输入法业务部总经理程坤,在解构讯飞输入法五大新亮点的同时,进一步解开讯飞在AI赋能输入法方面的逻辑和思考 。
一、语音输入进化,应对中英文夹杂、嘈杂街头考验近几年随着语音识别等相关的技术的发展,越来越多用户开始使用、习惯语音输入的方式 。不过,相对于拼音输入和手写输入来说,语音输入还有比较大的局限性,其中最大的一个局限性就是容易受到周围环境的影响,比如说高噪声、多人说话的嘈杂场合等,如何保证一个比较好的识别效果是需要重点去突破的技术难点 。
程坤谈到讯飞从启动深度学习语音识别研究以来,一直在优化迭代其语音识别模型框架,从DNN到RNN到DFCNN再到Encode-decode,不断提升语音识别的效果,进而保证讯飞输入法语音输入等讯飞语音相关产品的功能持续优化 。
受到人耳具备的听觉选择性注意能力的启发,讯飞提出复杂场景下的前后端一体化语音识别框架TFMA(Temporal feedback end-end multi-channel ASR)框架,将原有的语音识别过程进行重构 。
文章插图
传统语音识别系统
传统的语音识别是首先通过声学模型将声音进行过滤,得到特征信号,通过第一道识别引擎把这些特征转化成如发音信息等音素,然后结合语言模型将语音转化为文字 。
在这个语音转文字的过程中,如果背景声音是有多个人在同时说话,使用传统语音识别系统是没有办法将这么多声音过滤掉的,进而影响了输入法语音识别的准确性 。
目前,讯飞做了一些创新,高效利用多通道语音输入,比如新发布的这个TFMA语音识别框架可以解决复杂场景下的语音识别问题 。该方案的技术创新点在于采用前后端联合建模、优化的方案,形成一套自下而上与自上而下互相结合的流程,同时还引入大量的专家知识,结合神经网路网络与传统信号处理的优势,保证了系统的鲁棒性 。
文章插图
TFMA语音识别框架
通过运用TFMA语音识别框架,包括讯飞输入法在内讯飞的软硬件产品大大受益,这些产品在高噪声、多人说话、轻声说话等复杂场景下的语音识别能力再次提升,特别是-10分贝至-15分贝等恶劣场景下的识别由不可用变为可用甚至好用 。
程坤介绍说,第11代讯飞输入法除了复杂场景下识别率提升之外,另一项语音方面的提升在于可识别的语种更多了,这一最新版的讯飞输入法现支持包括阿拉伯语、俄语、意大利语、英语等12种外国语言的语音输入和随声译 。
程坤补充道,包括这次的多语种和之前的方言语音输入方式的实现都依赖于讯飞的统一建模的技术,将各种语种、方言的语料统一放到一个模型中训练,训练过程中各种语料并不拆开,训练完成后直接输出,这样即使用户的普通话没那么标准的情况下,讯飞输入法也能保证一个很好的识别效果 。
- 不需要贴膜和保护套的耐用型手机 手机用不用贴保护膜
- 国外红酒市场价格销售方案 进口红酒实体店需要多少钱
- 哪些种类的葡萄酒需要醒酒 哪些葡萄酒需要醒酒
- 如何快速判断葡萄酒好坏 怎样辨别葡萄酒的好坏
- 开一个葡萄酒体验店需要多少钱 开一家葡萄酒厂需要多少钱
- 怎样能更好上手红酒加盟店的生意
- 为什么猫咪需要打猫三联 猫三联有什么作用
- 葡萄酒怎样去除酵母菌 检测果酒中酵母菌的密度用什么方法
- 做红酒批发生意需要投资多少 三线城市怎么做红酒代理
- 老年人使用智能手机必须学会的8个功能 老年人怎样使用智能手机