微软|国际残疾人日:微软正式捐赠首批人工智能有声内容

IT之家12月4日消息 12 月 2 日,微软与周迅 AI 语音红丹丹公益项目发起人——鹿音苑文化传播公司、以及来自微软及各界的 150 名余志愿者,将创作的首批人工智能有声内容,包括鲁迅、老舍、萧红、朱自清等作家的一系列经典作品、红丹丹文化期刊,正式捐赠给北京市红丹丹视障文化服务中心(下文简称 “红丹丹”)“心目图书馆”。
这些作品是基于微软 Azure 云认知服务语音合成平台 Speech Studio 及其丰富的人工智能(AI)语音创作的,其中包括艺人周迅授权的定制声音、红丹丹视障人士播音员董丽娜授权的定制声音,以及多个微软智能语音合成平台声音(如晓晓、云野等)。
随着人工智能时代的到来,语音服务重要性不断凸显,微软在不断探索突破智能语音极限,加快从研发到产品的落地,希望以科技力量赋能更多人和组织。
语音技术最新进展视频:
媲美专业发音人的智能语音系统
微软在智能语音领域已深耕长达二十余年。智能语音作为人工智能的核心技术之一,早已融入于微软全球产品,这其中包括 Windows 朗读、Skype、Office 等产品,并随着微软云认知服务(CognitiveServices)的推出,形成面向开发者和合作伙伴的开放平台体系,提供强大而灵活的语音服务。
近年来,结合深度神经网络技术的不断创新,微软智能语音合成(Text-To-Speech,TTS)技术取得了诸多突破性进展。2018 年 12 月,微软率先在全球范围内推出端到端的深度神经网络语音合成服务,使计算机和智能设备拥有了媲美真人的人工智能声音。
微软|国际残疾人日:微软正式捐赠首批人工智能有声内容
文章插图
IT之家获悉,在探索提升语音自然度的同时,微软语音合成技术也不断挖掘语音的表现力、丰富度和智能度。通过多情感、多角色和情感强度可调节等技术升级,微软智能语音极大程度地丰富了合成语音的风格。更进一步,为了大大降低有声内容的创作成本,微软针对复杂长文本,提供了智能情感和角色的预测功能,让 AI 语音具有更强的理解力,让有声内容创作变得轻松又便捷。
具体而言,智能语音多情感技术创造性地从人类语音中挖掘出情感语音特征,赋予了合成语音拟人的表现力,让合成语音不仅可以根据不同场景进行变化,也有了 “自己的喜怒哀乐”。声音因此更富有表现力,不仅得以更贴切地表达文字内容,也让语音更容易理解、更生动。
譬如,中文晓晓的声音已达到 14 种情感风格,可以用 “抒情”、“新闻”、“聊天”等不同风格来演绎不同使用场景下的作品,也可以用 “开心”、“悲伤”、“生气”、“恐惧”等多样情感在对话中表达不同的情绪和态度。
人的情绪就好比是色谱,色谱的颜色从深到浅,人的情绪也一样,有从强到弱的变化。微软智能语音情感强度可调节技术,可以加强或者减弱情感强度,让情绪的表达更加细腻,从而大大扩展了情感矩阵,丰富了多情感语音的表达;在实际的人与人对话中,情感的变化是微妙的,通过情感程度可控技术,可以让人工智能对话或聊天机器人变得更流畅、真实,人设也更加统一。
微软智能语音提供众多声音角色供用户选择,覆盖不同的年龄、性别和个性特征,其中一些声音还可以扮演不同角色,比如男声演绎女声、年轻声音扮演年老声音等。通过微软高质量的声音家族,用户可以挑选更符合实际场景的不同音色,满足自然的对话需求,也可以创作更有趣的多播剧。大大扩展了有声内容的创作空间。
微软智能语音也在探索更加智能、更具理解力的语音系统,在创造出丰富、自然、具有表现力的有声内容的同时,进一步降低人工的操作成本。根据上下文信息,微软语音能够识别出来旁白和对话,人物角色,以及语气和情绪,并自动推荐一个最合适的声音。
为了让每个人都可以轻松创作有声内容,微软提供了一套智能有声内容创作工具平台。输入文本后,工具可以先针对角色和情绪进行预测,然后选择合适的声音进行演绎。创作者可以对声音、情感、韵律、发音等进行调优,创造出不一样的有声内容。
微软|国际残疾人日:微软正式捐赠首批人工智能有声内容
文章插图

微软|国际残疾人日:微软正式捐赠首批人工智能有声内容
文章插图
作为情感的延伸,唱歌是人类表达情感的重要方式。微软语音也在基于神经网络的唱歌技能上取得了突破。微软人工智能语音晓晓和朱婧汐一起合唱高难度的《人类零件》歌曲,展示了中英双语演唱以及说唱能力,合成效果逼真自然。