按关键词阅读:
天下网商采访人员 章航英
去年年底 , 李佳琦版本的导航语音包首次上线高德时 , 网友称:一秒醒脑 , 太魔性了 。
时隔不到一年 , 升级版的李佳琦完整版语音包再次登录高德地图 , 有网友表示:终于完整了 , 不愧人间唢呐!精神十足 , 用得不亦乐乎!
文章图片
这背后 , 是阿里语音技术的一次重要突破 。
9月18日 , 云栖大会 , 达摩院语音实验室负责人鄢志杰宣布 , 阿里语音AI技术完成了全面升级 。 阿里发布了业界前沿的E2E-ASR端到端语音识别技术及新一代端上KAN-TTS语音合成技术 , 端上语音识别和合成能力首次达到媲美云端的水平 , 这意味着 , 即便不联网 , 个人用户也能在手机等设备上体验逼近真人的语音技术 。
不仅是李佳琦语音包 , 近期高德地图还上线了利用达摩院全新语音技术合成的林志玲、小团团等明星语音包 。 升级后的版本 , 效果远较之前自然。
阿里语音AI技术正在点燃阿里经济体内外诸多业务场景 , 服务数以亿计的消费者 。 目前 , 它不仅应用于直播、钉钉会议、高德导航等场景中 , 而且已全面对外开放 , 其客户包括中移动、招商银行、字节跳动、浙江电力等 。
文章图片
更仿真的声音效果 , 更低的数据成本
先来看一个导航包使用场景—
有一天导航结束超累超暴躁 , 这时结束语里李佳琦说:佳琦的女孩一定要一直开心哦 。 那一刻我真的超感动 , 顿时开心了起来 。
对一个在城市孤独漂泊的人来说 , 语音导航包的作用不止是导航 。
很多人不知道的是 , 在整个导航过程中 , 大部分语音都是实时在手机上合成的 。 传统的机器语音在传达讯息 , 新的机器语音可以开始传达感情—犹如真人一样在身边鼓励和安慰你 。
这个转变并不是一件容易的事 。 情感是一件多么复杂的事情 , 且并没有明确的指标 。
文章图片
为什么现在的机器语音开始有了“感情”
传统语音合成技术 , 可以理解为一种机械的过程 , 包含前端与后端两部分 , 前端做文本分析 , 将文本为确定的发音信息 , 后端通过复杂的建模 , 将发音信息为包含时长模型和音色模型的声音 。 而阿里新一代语音技术 , 通过一个“黑盒子”般的强大深度学习模型 , 直接将发音信息转为声音 , 这个过程在大大减少语音构建复杂度的基础上 , 提高了还原度 。
达摩院语音实验室资深算法专家雷鸣解释:用一个模型搞定 , 有个好处—和人说话时一样 , 大脑不会细想每个字念多少秒 , 而是自然而然地脱口而出 , 经过深度学习模型训练之后出来的声音 , 整个的韵律感就会更强一些 , 用户听起来就会更真实、自然 。
继让机器像真人一样地说话后 , 今年达摩院新升级后的语音技术 , 让语音黑科技使用门槛大大降低 。 针对移动端应用场景 , 新一代语音合成技术将云端模型大小压缩了101倍 , 计算量压缩35倍 , 大大降低了设备运行耗电及合成语音延迟 。
也就是说 , 即使人们驾车驶入隧道等信号微弱区域 , 新技术合成的高仿真度语音导航包也能避免“掉线”一路随行 。
新一代达摩院语音技术带来的另一个结果是 , 将精品语音定制所需数据成本降低了四分之三 。
使用原始语音合成技术制作第一版李佳琦语音包的时候 , 李佳琦当时整整录了7个小时 , 实际可取用的有效语音素材只有30分钟 , 按照传统语音技术很难产生比较好的合成效果 , 有的合成语段与李佳琦真声相去甚远 。分页标题#e#
而使用新的语音合成技术后 , 取用原先录制的李佳琦语料 , 就合成了如今效果更自然的完整语音包 。
从让机器开口说话 , 到“有感情”地说话
让机器开口说话 , 一直是人工智能研究的重要领域 。
1939年 , 在纽约世界博览会上 , 人类第一次实现了通过机械装置让机器“开口说话”但效果和真实语音差距很大 。
如何让机器说话更逼真?
2019年7月 , 达摩院发布的语音合成技术KAN-TTS , 将合成语音的仿真度提高到97%以上 。 这个程度的机器语音 , 已经能在特定领域通过图灵(一个分辨对方是机器还是真人的实验)
今年2月 , 阿里语音AI技术成功入选《麻省理工评论》2019年“全球十大突破性技术”原因在于阿里语音AI技术可以完成复杂的人机对话 , 甚至可读懂人类的潜在意图 。 “在中国 , 消费者正在习惯阿里巴巴的AI语音助手 。 它可以通过电话协调菜鸟包裹递送 , 还可以与顾客讨价还价 。 ”
文章图片
在过去几个月 , 这项技术又迎来了新的升级 。 新的语音技术可以实现对目前主流场景风格声音的全覆盖 , 针对通用场景、场景、童声场景、英文场景和方言场景等 , 超过50种不同“感情”的声音 , 例如温柔、甜蜜、严厉等风格 。
所以 , 老司机们听到李佳琦导航语音后 , 会“瞬间提神 , 跑高速不困”
简单来说 , 新的语音合成技术不仅模拟人类的声音更像了 , 而且还让声音有了一定的“感情”
这几年 , 语音合成技术本身就有了巨大的进步 。 一个明显的例子 , 当我们接到智能打来的电话 , 数年前能迅速分辨对方就是一个机器人 , 因为它的吐字是一字一顿地“念”如今 , 我们再接到智能打来的电话 , 可能听一会儿才能意识到对方不是“真人”
据悉 , 目前达摩院语音技术还能识别方言和重口音 , 可以实现拟人程度更高的交互效果 。 据达摩院专家透露 , 该技术还可帮助视障和语言障碍人士实现无障碍沟通 。
新语音技术点燃阿里新的业务场景
【李佳琦版本的导航语音包首次上线高德时,老司机们听到李佳琦导航语音后】阿里大多数的业务 , 都需与数亿C端消费者直接打交道 , 这也是语音AI技术最好的应用场景 。 因此从2014年底开始 , 语音AI技术最先主要用于响应阿里经济体内的巨大需求 , 比如、天猫、蚂蚁的中心 。
2018年5月 , 阿里发布菜鸟智能语音助手 , 可以自动帮快递员与消费者进行派单沟通 , 大大减轻了快递员的工作 。 在这之前 , 快递员每天光打电话就要近3个小时 。
2019年4月 , 高德地图联合达摩院语音实验室上线“你好小德”语音助手 , 数亿高德用户在驾车导航中可以解放双手 , 轻松地通过语音对话查询与变更路线 。
文章图片
人人可用的平民技术
达摩院的语音AI技术 , 还在向阿里巴巴经济体以外的多个场景输出 。
2019年 , 浙江杭州上线了全国首个虚拟人工智能配网调度员帕奇 , 可以24小时不间断工作 , 可同时拨打200个电话 , 准确无误地完成海量数据的监视工作 , 大大提升了调度效率 , 每年节约人力成本可超3000万元 。
帕奇的语音技术就来自于达摩院 。
时间回到5年前 , 如今达摩院语音实验室负责人鄢志杰和几位同事 , 刚刚从微软亚洲研究院加入阿里巴巴 iDST(达摩院前身)
彼时 , 阿里的语音技术储备近乎于“一张白纸”而那时微软的语音技术尚在巅峰时期 。分页标题#e#
为什么选择来阿里?
鄢志杰表示 , 彼时业界对语音AI的研究如火如荼 , 但落地很慢 , 而到了阿里第一天想的就是语音AI的落地 , 这是当时他们“深入骨髓渴望的东西”
鄢志杰记得 , 当时阿里云的负责人还是王坚 , 王坚相信 , 语音技术对云计算大有用武之地 , “未来大量、音频可能会在云端处理”鄢志杰被说服 , 和同事毅然决然加入阿里 。 不过 , 加入后干的第一件事 , 是为阿里做语音助手 。
没想到 , 从语音助手开始 , 阿里语音技术迅速发展 。 除了在阿里内部业务推广外 , 从2017开始 , 阿里以AI上云的方式 , 向所有客户开放智能语音能力 。
目前 , 阿里语音AI最被人熟知的应用场景 , 包括智能、电信商、法庭庭审等 。
如今 , 阿里语音AI已覆盖全国近千个中心、近亿用户 。 互联网庭审则覆盖15000余间线上法庭 , 覆盖率超过90% 。
今年7月 , IDC发布的最新《中国AI云服务市场半年度研究报告》显示 , 在云上AI市场中 , 阿里语音AI以44%的市场份额排名第一 。
截至目前 , 阿里云上语音AI技术已服务5万多家客户 , 包括中移动、招商银行、字节跳动、浙江电力、小I机器人等 。 鄢志杰说 , 语音技术已从少数人掌握的高端工具 , 变成了人人可用的平民技术 。
本文相关词条概念解析:
语音
【李佳琦版本的导航语音包首次上线高德时,老司机们听到李佳琦导航语音后】语音即语言的声音 , 是语言符号系统的载体 。 它由人的发音器官发出 , 负载着一定的语言意义 。 语言依靠语音实现它的社会功能 。 语言是音义结合的符号系统 , 语言的声音和语言的意义是紧密联系着的 , 因此 , 语言虽是一种声音 , 但又与一般的声音有着本质的区别 。 语音的物理基础主要有音高、音强、音长、音色 , 是构成语音四要素 。
来源:(未知)
【】网址:/a/2020/0922/kd529363.html
标题:李佳琦版本的导航语音包首次上线高德时,老司机们听到李佳琦导航语音后