AI可以复制任何人类声音：这对播客意味着什么？

全文共2032字，预计学习时长6分钟

本文插图
图源：unsplash
播客正在向一种更加非正式的音频叙述方式发展。缺少精心设计的语言，而是更多地强调了主持人和听者之间的关系。主持人试图运用语言，使每件事都更容易理解和反应。有声故事的受欢迎程度呈上升趋势，数据支持了这一说法。
据Statista统计， 2018年，美国已经有7500万播客听众，预计到2024年，每月听众人数将达到1.64亿。 2019年至2023年的复合年增长率估计为17% 。
2020年，四分之三的美国人宣称知道播客，其中超过一半(55%)的人已经听过播客。世界上收入最高的播客是Joe Rogan的The Joe RoganExperience ，在2019年赚了5000万美元，每月有近2亿的下载量。
播客行业目前面临的主要问题是，如何在保持编辑独立性的同时，收集必要的资源，支持如此快的增长，具有声音克隆能力的人工智能等突破性技术可能至少提供部分解决方案。
尼克松项目就是一个令人信服的案例， AI能够以一种与复制与原声没有任何区别的人类声音。麻省理工学院的一组研究人员、采访人员和艺术家与声音克隆公司Respeecher和VDR公司Canny AI合作，创造了第一次月球探险的另一段历史，宇航员尼尔·阿姆斯特朗和埃德温·巴兹·奥尔德林未能完成任务，被困在月球上。
他们通过修改尼克松总统的真实视频，制作了一个赝品，让人们有可能听到他告诉世界，登月之旅有一个悲惨的结局。
播客如何利用人工智能
计算机化声音的主要挑战是复制人类声音和情感上的细微差别，并避免机械音。在人工智能技术的支持下，语音到语音的语音转换技术为精确地实现这一目标提供了手段。

本文插图
【AI可以复制任何人类声音：这对播客意味着什么？】
苹果的Siri、亚马逊的Alexa、微软的Cortana或谷歌Assistant等虚拟助手仍在使用文本到语音的功能。虽然TTS仍然是一个非常有用的技术，要使一个声音听起来不同相当复杂。
例如让Siri听起来像一个年长的男人——它需要在预先录制好的文件之外，还要一个新的音频文件，里面包含这段对话所有的单词。让我们来看看语音到语音转换带来的一些好处。
你如何使用人工智能语音克隆播客？人工智能使声音克隆成为可能。它可以帮助你完美地复制任何播客项目的任何声音。 “智能的鸡尾酒”通常由两种成分构成——经典数字信号处理算法和自营深生成建模技术，允许内容制作者使用最合适的声音。
· 邀请名人加入你的项目
演员、作家、运动员等越出名，请他们来播客节目就越困难。但如果你利用人工智能来复制人类的声音，你就不用再等极度繁忙的他们拨冗来到演播室了。你可以为观众提供他们最喜欢的声音的录音，还不用花太多的时间和金钱把他们带到录音棚。
· 带回过去的声音
即使一位演员已经去世了，声音克隆也能神奇地帮助你按照你的期望完成你的项目。你在做一个关于肯尼迪总统在去世前的历史性播客吗?语音转换技术可以帮助你使用他的确切的声音，而不是仅仅接近接近。
· 使用孩子们的声音
孩子们经常会说一些非常有趣的事情，并不一定是因为内容有趣，而只是因为他们说话的方式（音调、语调、口音等等）。同时，和他们一起工作也很有挑战性。通过让专业演员准确地按照孩子们说话的方式说出来，声音合成可以简化这个过程。