微软|国际残疾人日:微软正式捐赠首批人工智能有声内容( 二 )


微软|国际残疾人日:微软正式捐赠首批人工智能有声内容
文章插图
微软云拥有全球覆盖最多的数据中心,其认知服务智能语音技术面向全球市场,覆盖语言数量世界领先。目前,微软的语音合成支持 54 个国家和地区的语言,提供超过 150 个声音供选择。
微软语音支持深度品牌定制
在人工智能时代,AI 声音已经不仅仅是一项基本能力,更被赋予了很多品牌属性。在诸多行业的实际应用中,客户往往需要一个具有高识别度的个性化的声音,而 “深度定制”恰是微软智能语音平台的一大强项。
基于客户提供的声音数据,微软可以实现 “细粒度”的定制,包括语音合成的音色、说话的风格、特殊的发音需求甚至演唱等特色功能等。在使用方面,微软语音也相当灵活,不仅服务于云平台,也支持本地化和离线部署等多种场景。
微软云计算与人工智能事业部资深产品总监丁秉公认为,个性化时代,声音即品牌。微软的语音合成技术可以为企业定制丰富的音色,实现品牌价值的最大化。
2019 年 11 月,微软推出了基于深度神经网络语音合成技术的声音定制服务(Custom Neural Voice)平台,将高质量的语音合成引擎开放给第三方,使得微软合作伙伴和客户可以通过简单的自助服务定制有标识度和个性化的声音。
微软语音定制涵盖了从声音画像的设计、到数据的收集和整理、模型的优化和系统部署的方方面面。用户更可以通过 CustomVoice 声音定制平台实现一键定制的自助服务。
微软|国际残疾人日:微软正式捐赠首批人工智能有声内容
文章插图
传统技术定制的语音模型,由于需要发音人录制成千上万句话,需要耗费几个月的时间,成本巨大。而微软基于深度神经网络技术的定制化语音,可以用更少的数据达到更加高拟人度和自然真实的效果。通过微软语音涵盖超过 50 个语言的 UNI-TTS 基础模型和深度神经网络强大的迁移学习能力,微软声音定制还支持跨语言定制,实现一个音色多个语种的多语言能力。
据悉,这一技术已经率先在多个知名企业得到应用。这包括新媒体、通信、教育、金融等多个行业,涉及客户服务、AI 对话和内容生产的多个场景。
譬如英国广播公司 BBC 就在微软声音定制和语音合成技术的帮助下,打造了一款虚拟助手 Beeb 用于多模态的客户服务和有声内容创作。具体而言,BBC 不仅需要 Beeb 发出标准英式发音,甚至细化到英国北部某个特定地区的口音风格,还有多风格的要求,比如在跟真人打招呼时,声音需要符合个人助理身份的互动风格,而在播报政治、军事类新闻时,就需要严肃的声音风格。
面对这一挑战,微软在 BBC 提供的不到 2 小时的录音人数据量中,与语言专家、客户挑选和分析其中特定口音的发音特点,汇总成模型能识别的规律,最后构建到定制化模型里,生成高质量、多风格的声音。
在教育行业,微软语音团队协助知名独角兽公司多邻国 Duolingo 打造具有多语言能力和丰富角色特征的声音。据多邻国艺术总监 GregHartman 介绍,“每一个角色的声音都是和它的人物性格的一部分。微软定制声音平台基于我们的角色特性,赋予了每一个人物生动的声音风格。”
此外,微软智能语音团队还帮助 AT&T; 时代华纳、Swisscom(瑞士电信)、Progressive 等多家知名企业创建了他们的个性化声音,实现与用户的自然对话和交互。
在中国,目前语音服务也落地到由世纪互联运营的 Azure 云服务上,中国用户可以使用和全球一样质量的语音合成服务。
2019 年春节前夕,央视新闻联合微软推出互动融媒体产品《你的生活 AI 为你唱作》,其中央视主播康辉和微软 AI 智能语音中文晓晓为用户唱作专属歌曲,央视主播康辉的声音即是利用微软智能语音的声音定制技术生成。此外,周迅为红丹丹图书馆录制有声书、知名作家土摩托录制三联生活周刊音频内容时,都用到了微软定制语音合成技术。微软以少量真人语音为训练样本,为他们合成了专属于自己的智能 TTS 声音。
除语音合成之外,微软 AIspeech 还能够提供全面的核心语音能力,例如语音识别、语音评测、语音翻译,这些能力都支持多语种以及基于不同场景的定制。
其中,微软的语音识别支持全球 30 个地区和国家语言,能够提供近场和远场识别,在线(real-time)和离线(batch)的灵活调用方式。语音识别还可以支持关键词识别,说话人分离,语言识别,情绪识别等多种功能。
而微软语音评测产品可支持包括英语在内的全球 40 多个国家和地区的语言,广泛适用于教育领域解决方案的合作伙伴、APP 开发者以及语言学校、培训中心、教育机构、考试中心的各种语言学习、口语练习和考试等场景的开发。