智能语音|口音识别难倒AI:“人机交互”的未来还有多远?
让机器“听懂”人类语言,是“语音识别”技术自诞生起,就一直致力的目标。
自20世纪中叶以来,经过近70年的发展,特别是随着深度学习技术的引入,自动语音识别已取得突破性进展——在标准口音、常见词汇、安静环境的应用场景下,机器已然具备接近人类的“听觉”能力。
然而,一旦面临口音、方言等情境,AI便显得有些“力不从心”,哪怕你一字一句尽力向智能设备发出清晰的指令,得到的回答仍可能是:“对不起,我好像不明白你在说什么……”
语音识别技术发展的终极目标,是实现自然、顺畅的“人机交互”,正如同人与人的交互。如何解决横亘在当下的这道难题,抵达人类畅想的智能未来,已成为全球智能语音技术公司共同面对的挑战。
全世界的AI,都栽在了“口音”上?
口音、方言等问题,困扰着几乎全世界所有的智能语音助手。
2018年,《华盛顿邮报》曾与Globalme、Pulse Labs两家语言研究公司合作,研究智能音箱的口音识别问题,结果显示,谷歌智能音箱Google Home更容易“听懂”美国西岸口音,对南部口音的识别准确率则要低3%;而亚马逊Echo搭载的语音助手Alexa,识别东岸口音的准确率要比中西部口音高2%。
更大的问题还在于对非本土口音的识别。研究显示,对于非英语母语者,比如以西班牙语或汉语作为第一语言的人所说的英文,不论是Google Home还是Amazon Echo,其识别准确率都要比美国本土口音低30%,而拉丁裔和华裔是美国的两大移民族群。
这项研究结果引起了人们对智能语音助手“地域歧视”问题的广泛关注。实际上,不只是Google Home和Amazon Echo,市场上主流的智能语音设备,在应对方言、口音等非标准语言场景时,表现都差强人意。
【 智能语音|口音识别难倒AI:“人机交互”的未来还有多远?】在中国市场,这个问题同样凸显。
所谓“十里不同音,百里不同俗”。作为一个幅员辽阔的多民族国家,我国56个民族使用的语言分属五大语系,共有80种以上语言。其中,汉语的使用人数最多,分为标准语(普通话)和方言。
根据教育部2019年发布的《中国语言文字概况》,汉语方言通常分为十大方言,各方言区内,又分布着若干次方言和许多种土语。部分方言之间差异很大,无法通话。为了消除语言隔阂,国家在全社会大力推广普通话。然而,来自天南海北的人们,又赋予普通话五花八门的口音。
带有鲜明地域特色的口音,虽然对于人们的日常交流无伤大雅,有时还带来些“塑料普通话”的乐趣,但你的智能语音助手就乐不起来了,甚至在它听来,你说的极有可能是另一门语言……
与此同时,用户也很恼火:“难道普通话不过一级乙等,我就不配拥有智能音箱?!”
口音、方言识别,到底难在哪儿?
从理论上来说,只要有足够的数据供机器进行训练,那么让AI识别任何一种语言或口音,都不是问题。
以人机交互为目的的语音识别,是一个把声学信号转化为文本信息的过程。目前主流的语音识别框架主要由三个部分组成:声学模型(AM)、语言模型(LM)和解码器。可以形象地理解为:声学模型负责找到对应的拼音,语言模型负责找到对应的句子。
要得到一个出色的语音识别模型,需要有大量标注数据的训练,简单来说:首先,要进行语音内容的采集;其次,需要人工对这些语音进行标注,将语音内容转写成文本,让算法能够识别它;之后,算法再将识别后的文本内容与对应的音频进行逻辑关联。经过这样大量、反复的学习训练之后,机器就能实现语音识别了。
“对于方言、口音的识别来说,最难的部分是在于语音数据的采集。”百度智能云数据众包项目专家曹静文表示。
2019年9月,百度数据众包团队曾执行过一个藏语方言语音采集的项目。客户为了提升藏语方言的识别和翻译准确率,与百度团队合作,招募870位藏民,整体采集87万条藏语语音,覆盖安多、康巴、卫藏等三个藏语方言区。
藏语与汉语同属汉藏语系,但与汉语这样资源丰富的语言不同,藏语属于低资源语言,目前全世界约有800万人使用藏语,训练数据稀少。
曹静文介绍,藏区采集工作面临安全风险大、质检难度高等挑战。整个项目过程涉及诸多环节,从按需定制采集方案,到采集布点、人员招募、培训、隐私授权,再到对采集流程、进度和项目风险进行把控,最后经过多轮质检,在数据核验通过后,才能最终交付确认。
百度团队在第一时间联系到当地的资源布点,并派遣项目经理前往西藏、青海等地指导采集。最终该项目用时一个半月,实际交付数据92万条,验收合格率高于95%,满足交付要求。
- 智能手机市场|华为再拿第一!27%的份额领跑全行业,苹果8%排在第四名!
- 痛点|首个OTA智能社区诞生 解决行业四大痛点
- 黑莓(BB.US)盘前涨逾32%,将与亚马逊开发智能汽车数据平台|美股异动 | US
- 出海|出海日报丨短视频生产服务商小影科技完成近4亿元 C 轮融资;华为成为俄罗斯在线出售智能手机的第一品牌
- QuestMobile|QuestMobile:百度智能小程序月人均使用个数达9.6个
- 定制|业绩宝APP创始人戴宏伟:依靠人工智能主动获客,打通全链路
- 优化|微软亚洲研究院发布开源平台“群策 MARO” 用于多智能体资源调度优化
- 按键|苹果与宜家合作智能家居快捷按键,定价9.99美元
- 职工组一等|全国人工智能应用技术技能大赛落幕 青岛四名选手获一等奖
- 钢筋|海南国道G360文临公路项目引进钢筋智能“焊”将