微软|国际残疾人日：微软正式捐赠首批人工智能有声内容中薪|高薪|微软|捐赠|残疾人

IT之家12月4日消息 12 月 2 日，微软与周迅 AI 语音红丹丹公益项目发起人——鹿音苑文化传播公司、以及来自微软及各界的 150 名余志愿者，将创作的首批人工智能有声内容，包括鲁迅、老舍、萧红、朱自清等作家的一系列经典作品、红丹丹文化期刊，正式捐赠给北京市红丹丹视障文化服务中心（下文简称 “红丹丹”）“心目图书馆”。
这些作品是基于微软 Azure 云认知服务语音合成平台 Speech Studio 及其丰富的人工智能（AI）语音创作的，其中包括艺人周迅授权的定制声音、红丹丹视障人士播音员董丽娜授权的定制声音，以及多个微软智能语音合成平台声音（如晓晓、云野等）。
随着人工智能时代的到来，语音服务重要性不断凸显，微软在不断探索突破智能语音极限，加快从研发到产品的落地，希望以科技力量赋能更多人和组织。
语音技术最新进展视频：
媲美专业发音人的智能语音系统
微软在智能语音领域已深耕长达二十余年。智能语音作为人工智能的核心技术之一，早已融入于微软全球产品，这其中包括 Windows 朗读、Skype、Office 等产品，并随着微软云认知服务（CognitiveServices）的推出，形成面向开发者和合作伙伴的开放平台体系，提供强大而灵活的语音服务。
近年来，结合深度神经网络技术的不断创新，微软智能语音合成（Text-To-Speech，TTS）技术取得了诸多突破性进展。2018 年 12 月，微软率先在全球范围内推出端到端的深度神经网络语音合成服务，使计算机和智能设备拥有了媲美真人的人工智能声音。

文章插图
IT之家获悉，在探索提升语音自然度的同时，微软语音合成技术也不断挖掘语音的表现力、丰富度和智能度。通过多情感、多角色和情感强度可调节等技术升级，微软智能语音极大程度地丰富了合成语音的风格。更进一步，为了大大降低有声内容的创作成本，微软针对复杂长文本，提供了智能情感和角色的预测功能，让 AI 语音具有更强的理解力，让有声内容创作变得轻松又便捷。
具体而言，智能语音多情感技术创造性地从人类语音中挖掘出情感语音特征，赋予了合成语音拟人的表现力，让合成语音不仅可以根据不同场景进行变化，也有了 “自己的喜怒哀乐”。声音因此更富有表现力，不仅得以更贴切地表达文字内容，也让语音更容易理解、更生动。
譬如，中文晓晓的声音已达到 14 种情感风格，可以用 “抒情”、“新闻”、“聊天”等不同风格来演绎不同使用场景下的作品，也可以用 “开心”、“悲伤”、“生气”、“恐惧”等多样情感在对话中表达不同的情绪和态度。
人的情绪就好比是色谱，色谱的颜色从深到浅，人的情绪也一样，有从强到弱的变化。微软智能语音情感强度可调节技术，可以加强或者减弱情感强度，让情绪的表达更加细腻，从而大大扩展了情感矩阵，丰富了多情感语音的表达；在实际的人与人对话中，情感的变化是微妙的，通过情感程度可控技术，可以让人工智能对话或聊天机器人变得更流畅、真实，人设也更加统一。
微软智能语音提供众多声音角色供用户选择，覆盖不同的年龄、性别和个性特征，其中一些声音还可以扮演不同角色，比如男声演绎女声、年轻声音扮演年老声音等。通过微软高质量的声音家族，用户可以挑选更符合实际场景的不同音色，满足自然的对话需求，也可以创作更有趣的多播剧。大大扩展了有声内容的创作空间。
微软智能语音也在探索更加智能、更具理解力的语音系统，在创造出丰富、自然、具有表现力的有声内容的同时，进一步降低人工的操作成本。根据上下文信息，微软语音能够识别出来旁白和对话，人物角色，以及语气和情绪，并自动推荐一个最合适的声音。
为了让每个人都可以轻松创作有声内容，微软提供了一套智能有声内容创作工具平台。输入文本后，工具可以先针对角色和情绪进行预测，然后选择合适的声音进行演绎。创作者可以对声音、情感、韵律、发音等进行调优，创造出不一样的有声内容。

文章插图

文章插图
作为情感的延伸，唱歌是人类表达情感的重要方式。微软语音也在基于神经网络的唱歌技能上取得了突破。微软人工智能语音晓晓和朱婧汐一起合唱高难度的《人类零件》歌曲，展示了中英双语演唱以及说唱能力，合成效果逼真自然。