智能语音|口音识别难倒AI：“人机交互”的未来还有多远？( 二 ) 中薪|高薪|人机交互|口音|未来

“这个过程往往成本高昂、流程繁琐，还存在诸多门槛。”曹静文表示。
应对“数据稀缺”，众包模式受青睐
语料库的质量越高，语言模型越丰富，语音识别的准确率就越高。如何获取大量训练数据，就成为AI在口音、方言及低资源语言的识别上，面临的关键问题。
全球各大AI巨头和前沿的科技公司，都在积极致力于解决这个问题。
一方面，对于投入市场的智能语音产品来说，随着越来越多拥有不同口音的用户与其进行交流，训练数据持续积累，语音助手的识别能力会不断提升。另一方面，在自身语音数据集的扩充上，一些公司也在尝试采取各种“众包模式”。
“众包”是一种分布式的问题解决和生产模式，企业通过互联网，以自由自愿的形式，将工作分配给外部的大众群体。
比如，谷歌、亚马逊等科技巨头，以游戏的形式鼓励用户使用不同地区的方言进行交谈；国内智能语音企业科大讯飞推出“方言保护计划”，鼓励用户“留下乡音”，共建“中国方言库”；一些机构和企业呼吁齐力“献声”，打破巨头公司的数据垄断，建立开源开放的语音数据集等。
这些方式实际上都是以众包模式，获取大量的语音训练数据。
“众包模式的优势在于，可以低成本、高效率地整合资源。”曹静文表示。
2019年底，百度数据众包团队承接了一项海外英文语音采集项目。某手机厂商为了提升海外各国英文唤醒词的识别率，需要采集海外不同地域用户的英文语音，包括亚太地区口音、英式口音、美式口音、印式口音及阿拉伯口音，需招募2000人，总数据量为20万条。
“这个项目的难点在于，要求采集的用户口音遍布多国，交付时间短，且对用户的性别、年龄段要求严格。”曹静文说，“但我们通过百度覆盖全国及全球22个国家的资源池，在短时间内招募到了全球多种口音用户参与采集。”
项目执行期间，恰逢春节假期和突发的新冠疫情，百度团队通过国内线上和国外线下的采集方式，执行布点覆盖9个国家，用时45天，按照客户要求完成了全部数据交付。
实践证明，众包模式的确是完善语音数据库的一条有效路径。
但光有数据库的支持还不够。要提高某种语言的识别准确率，还需要对该语言的文化、语素、音素等有相当的研究。因此，要实现方言、口音的准确识别，也需要方言学者、音韵学者等专业人士的深度参与。
此外，另一个现实情况是，一些方言和低资源语言，很难提供充足的数据资源以供采集。这种情况下，探索如何通过迁移学习，用较少数据量得到一个好的声学模型，就成为当前一个热门且极具价值的研究方向。