有声书|日产有声书500万字,效率碾压真人配音,这家AI公司如何做到?


有声书|日产有声书500万字,效率碾压真人配音,这家AI公司如何做到?
文章插图
智东西(公众号:zhidxcom)
作者 | 韦世玮
编辑 | 心缘
不到半年,仅成立两年的TTS(语音合成)科技创企倒映有声又开启新一轮融资了。
如今,电子书、广播剧等以声音为载体的“耳朵经济”快速兴起,其中有些堪比专业播音员的声音,其实是由人工智能(AI)合成出来的。
相比真人播音员,AI语音合成技术不仅大大缩短配音时间,而且更加节约制作成本和人力成本。以提供语音合成系统及解决方案起家的倒映有声,即是在做这样的事。
过去一年,倒映有声上线的有声读物制作平台,其AI主播每日单机生产速度已超500万字,录制成本可节约超90%。今年3月,它与中央广播电视总台音频客户端“云听”APP达成合作,开展基于央广总台IP和融媒体领域的AI产品研发,这意味着其业务已成功打入“国家队”。
倒映有声的核心团队大多出身于百度、微软、阿里等公司,早期小爱同学、小度智能音箱、百度语音导航、百度呼叫中心等语音产品底层技术的构建,都少不了这群技术专家的身影。
基于端到端神经网络和深度学习合成器,倒映有声自研了情绪和情感控制模块,在音色模拟、情感展现、定制化服务、多语种等方面都已达行业领先水平。
其融资也在快速推进中。此前,这家创企已完成2019年5月300万元的天使轮融资、今年5月千万级人民币的Pre-A轮融资,并正在启动A轮融资,目标规模为2000-3000万元,以加快技术研发、加速垂直场景的产品落地。
在北京建外SOHO的一间办公室里,这家团队规模不到20人的新兴企业,正酝酿着一场围绕语音合成领域的新一轮抢位赛。
近日,智东西走进他们的北京总部,通过与其创始团队展开深入交流,我们了解到更多这家公司的诞生与成长故事,也看到了不少他们对AI语音技术创新的探索和坚持。
有声书|日产有声书500万字,效率碾压真人配音,这家AI公司如何做到?
文章插图
从左到右分别为倒映有声联合创始人兼CTO李骁、倒映有声创始人兼CEO肖朔、倒映有声联合创始人兼CMO何培成
一、助推百度小米智能音箱诞生,倒映有声的起航2013年左右,硕士毕业于北京航空航天大学云计算专业的肖朔,加入了百度语音技术部工作。同期加入的,还有刚从英国帝国理工大学人工智能专业硕士毕业回国的李骁。这时,百度的人工智能(AI)业务才刚刚起步。
在百度期间,肖朔与李骁所在的团队开发了国内首款情感语言合成系统,并先后研发了小度智能音箱、百度呼叫中心等产品,给未来百度智能语音生态的构建和丰富打下了重要基础。
此外,二人还曾任职于猎豹移动投资的AI创企——猎户星空,在一年时间里与初创团队共同参与了小米首款小爱智能音箱的开发项目。
在这几年摸爬滚打的过程中,正是这两段从0到1构建技术方案的经历,让肖朔与李骁逐渐产生了创业的想法。恰好在猎户星空打拼的经历,也让他们接触了许多创意知识和经验,“消除了对创业的恐惧感。”
2019年,随着百度语音技术已步入成熟发展的正轨,其语音技术战略重点已不在语音合成,更多是聚焦在语音交互。与此同时,得益于硬件设施的完善、算力的增强,以及深度学习应用场景的进一步拓展,曾一直处于早期发展阶段的语音合成技术终于有了变革性突破。
因此,肖朔和李骁决定离开百度,开启创业生涯。2019年3月,倒映有声于杭州正式注册成立,由于跟随他们一同出来创业的还有不少原百度团队的伙伴,他们也选择将公司总部“落户”北京,并在成立两个月后拿下300万人民币的天使轮融资。
肖朔和李骁的创业之旅正式起航,倒映有声的挑战也才刚刚开始。
有声书|日产有声书500万字,效率碾压真人配音,这家AI公司如何做到?
文章插图
二、押注有声书和AI新闻播报,语音合成想象空间巨大不过,AI语音的赛道如此广泛,倒映有声为何坚定地选择语音合成赛道?
在肖朔看来,语音识别是最早爆发的语音技术,科大讯飞、云知声等公司已深耕多年,做出了智能医疗、智能翻译笔、智能会议录入系统等成熟产品,给新玩家留下的市场机会并不多。
技术方面,李骁认为目前语音识别技术已进入了单纯比拼识别准确率的成熟阶段。相比之下,语音合成仍有许多待发掘的细分场景,包括广播剧、有声书、游戏配音,甚至亚文化中的虚拟偶像等,都是未来的落地方向,想象空间巨大。
例如,以往有声书、广播剧等长音频作品在制作过程中,需要人工对大量文字脚本进行前期画本、中期配音、后期剪辑等工作,整套流程要花费几个月时间,还涉及不少人工成本。但如果使用语音合成技术,能极大地压缩各个环节中的时间和财务成本,只需几天甚至几个小时,就能完成一个长音频作品的制作。