刘旷|人工智能时代来袭,输入法如何决胜下一个10年



刘旷|人工智能时代来袭,输入法如何决胜下一个10年
本文插图
近日 , 讯飞输入法新版本正式上线 , 在随声译和快捷翻译功能里增加了日译中、韩译中、泰、越、西、法、德、俄与中文互译 , 合计18种翻译 , 这也使得讯飞输入法成为中文与外语互译最多的输入法产品 。
不得不说 , 语音输入已经越来越受欢迎 。 艾媒《2019-2020中国第三方手机输入法市场监测报告》显示 , 29%的受访者表示2019年使用语音输入的频率明显增加 , 是增长最快的输入方式 。
面对输入方式的变迁 , 讯飞输入法、百度输入法、搜狗输入法三大输入法 , 也一直在围绕AI技术不断加码语音输入服务 , 使其不断实现准确率的突破 , 比如讯飞输入法的语音识别准确率已经高达98% 。
输入法越来越智能的背后 , 各家的AI技术加持至为关键 。 而面对每天数亿次甚至数十亿次的使用需求 , 今天的输入法产品已经嵌满了令人意想不到的五彩黑科技 。
输入法的重担
输入法越来越智能的代价 , 就是要背负越来越重的使命 。 追溯市面上几款主流输入法产品的发展历史 , 可以发现这些产品已经不年轻 , 至少都有十年或以上的产品迭代时间 。 以此推算 , 输入法产品与移动互联网的发展同步 , 可以说是跟着移动互联网一路走来的 。
最早的输入法 , 不论是设备自带输入法 , 还是第三方输入法 , 功能普遍比较简单 , 比如只支持9键和26键键盘输入、手写输入等非智能机时代沿袭的输入方式 , 主要是为了满足最普遍的用户需求 。
但移动社交、移动趋势的明晰 , 以及智能手机的普及 , 彻底改变了输入法产品们的发展路径 。 个人用户在多元场景下不断衍生出更多的输入需求 , 开始特别注意到输入体验的进步 , 希望更快和更好 , 比如能否根据拼音首字母快速预测想打的字 。 特别是在移动社交场景下 , 个人用户使用输入法的频率越来越高 , 用户对输入法体验的感知非常明显 , 输入法好不好用 , 效率高不高 , 用户其实心知肚明 。
这让输入法的担子越来越重 , 原本定位于轻服务工具的输入法 , 不得不开始思考如何满足不同用户不同场景下的个性化需求 。 于是 , 为巨大体量的用户大规模同步提供优质的输入服务 , 成为输入法产品们发展的核心目标 。
愈发全能的输入法
场景和需求之变 , 不断倒逼着输入法产品的进化 , 结果就是 , 输入法变得越来越全能 , 越来越精致 , 越来越个性 。 以目前的三大输入法产品为例 , 十年前的它们与十年后的它们 , 已经“判若两人” 。
一方面 , 不断的功能增加使得产品能够适应许多输入场景 。 除了传统的手写和键盘输入外 , 三大输入法还加入了OCR扫描、智能预测/纠错等功能 。 其中 , OCR扫描指的是用户可以通过扫描将图片或手写稿转换成文字 , 而智能预测功能则可以提前根据输入拼音预测用户想打的字 , 智能纠错则可以根据词库、语境快速纠正用户的错误 。
各种功能的丰富 , 使得输入法可以服务于用户的全输入过程 , 在输入前、中、后每个环节提供对应的服务 。
另一方面 , 产品能力的极限突破为用户带来了全面的体验 。 以从语音起家的讯飞输入法为例 , 目前讯飞输入法已经做到了一分钟400字的输入速度 , 以及语音识别准确率达98%的水平 , 也就是说整段输入的出错率非常小 , 为用户带来的是极速和流畅的综合输入体验 。
可以说 , 这些功能所达到的极限颠覆了以往低效低质的输入体验 , 从感官上弥补了用户对输入法的体验缺乏 。
黑科技成就输入法
【刘旷|人工智能时代来袭,输入法如何决胜下一个10年】无论是功能上的全能 , 还是体验上的全能 , 输入法产品能够实现质变 , 甚至能够适应一些极限和极端的输入场景 , 除了产品本身的创新外 , 不断的技术迭代是最核心的原因 。 用户之所以能够只花一半的时间完成整个输入过程 , 都依赖于输入法们背后的黑科技 。分页标题
讯飞输入法可以说是“科技成就输入法”的最佳代言人 。 一方面 , 其背靠有20多年智能语音技术沉淀的科大讯飞 , 已有20万小时训练数据积累;另一方面 , 科大讯飞有太多的国际赛事顶尖荣誉 , 比如在2018年由国际计算语言学协会(ACL)下属组织主办的第十二届国际语义评测比赛(SemEval2018)中 , 科大讯飞斩获了基于常识的机器阅读理解全球第一;2018年的国际权威英文语音识别大赛“CHiME-6”中 , 科大讯飞包揽了两项第一名;2019年在ICDAR2019举办的场景文本视觉问答挑战赛ST-VQA中 , 科大讯飞包揽了三项冠军;2020年初在德国The 20BN-Jester Dataset手势识别评测中 , 科大讯飞以97.26%的准确率斩获冠军 , 且刷新了世界纪录……讯飞输入法背后的黑科技可以从四方面来看 。
一、语音输入
语音输入讲究快速和准确 , 讯飞输入法之所以能达到一分钟400字、识别准确率98%的水平 , 主要在于其自研的“记忆增强的多通道全端到端语音识别框架” , 这项技术简单来说就是能够完全将前端语音处理过程深度学习化 , 并使用深度卷积神经网络和后端识别模型进行混合训练 , 从而大大提高了语音识别的效率 。
至于能够使用23种方言进行精准语音输入 , 一方面要靠通过多方言共享方式训练的Multi-lingual多语言建模技术 , 另一方面要靠GlobalPhone全球音素集 , 这项技术从声学层面的相似性来统一各方言的音素定义 , 使方言“语图谱”模型进一步精进 , 从而使得方言识别效果有效提升 。 多语种互译功能则对技术提出了更大的挑战性 , 以中英互译为例 , 讯飞输入法基于对抗样本训练方法提出了融合副语言特征的“高鲁棒性语音翻译技术” , 并在模型中结合特定技术 , 有效提高了最终翻译结果 。
二、拼音输入
在拼音输入上 , 讯飞输入法创新性引入了Encoder-Decoder框架 , 构建了新一代拼音识别引擎 , 极大简化了传统拼音识别模型 , 同时在Attention机制和长短期记忆网络的门控机制 , 以及Transformer等模块的共同作用下 , 长句输入识别效果有效提升 , 能够提前预测用户想输入的内容 , 还能有效实现智能纠错 。
此外 , 这一模型由于采用的是序列建模 , 建模不再依赖词典 , 更易实现中英文混合建模 , 因而让讯飞输入法在中英混输上实现了非常出色混输表现 。 值得注意的是 , 不论是智能预测 , 还是智能纠错 , 背后都有可实时更新的百万词库 。
三、手写输入
同样是手写 , 体验却完全不一样 , 这是因为讯飞输入法的手写识别可支持两万多类中文字符、52类英文字符、10类阿拉伯数字以及100多种特殊符号 , 这种超级识别能力的背后 , 是讯飞输入法的“HWR手写识别技术” , 这项技术采用的是CNN卷积神经网络技术 , 可支持实时手写轨迹 , 边写边出字 , 而且单个字符识别仅需15ms , 响应迅速无延迟 。
四、扫描输入
扫描输入的技术支撑是计算机视觉 , 面对复杂的手写文字、中英混合文字 , “OCR文字检测技术”可检测任意方向和形状的文字 , “OCR文字识别技术”则可以有效缓解因环境问题造成的识别效果低下问题 。
综上 , 基于AI和大数据的组合技术 , 如今的输入法不再死板坚硬 , 即使面对输入场景的复杂需求 , 也能够在不同语种、不同语境、不同语调下满足不同用户的需求 。 过去的输入法只能辅助 , 而现在 , 科技加持下的输入法 , 更像是一个“一站式”的输入管家 。
输入法的智能普惠
黑科技成就了输入法 , 也成就了输入法的地位 。 根据相关报告提供的数据 , 以三大输入法为代表的第三方输入法 , 已经覆盖了超过90%的***民 。
要是放大到整个输入法行业 , 可以说人人都是输入法的受益者 , 移动设备也好 , 个人电脑也好 , 日常交流必然离不开输入法的帮助 。 可以说 , 输入法已经成为一个互联网沟通的基础设施 。 而且值得庆幸的是 , 讯飞输入法等头部产品在技术上的进化 , 让这个基础设施不断产生质变 , 越来越智能 。分页标题
应该说 , 像讯飞输入法这样始终痴迷于“科技驱动”的输入法产品 , 是输入法作为工具产品在价值上得到跃进式提升的关键 , 因为它们用技术无限拔高了输入法产品的价值上限 。 换言之 , 讯飞输入法们的“科技大法”一定程度上改善了整个互联网世界的沟通协作效率 。
技术无上限 , 输入法产品也无上限 。 对9.04亿中国互联网网民而言 , 黑科技持续加持下的输入法工具 , 会继续为每个用户提供独一无二的使用体验 , 真正实现全方位的智能普惠 。
文/刘旷公众号 , ID:liukuang110