影史最出名的反派之一，未来都「不说人话」( 二 )

文章图片
图片来自：pagesix而在现实生活中，基尔默的声音已经通过AI「恢复」。 2020年，基尔默开始与AI语音公司Sonantic合作。收到数小时的旧录像后， Sonantic首先在不破坏语音内容的前提下去除背景噪音，再从音频中生成脚本，并将音频和文本一块块地配对，然后语音引擎用这些数据训练语音模型。难点在于，基尔默提供的数据比他们以往的项目少了大约10倍。为此， Sonantic研究了新的算法，最终生成了40多种不同的语音模型，把其中最好的一个交给基尔默。
文章图片
图片来自：vanityfair有了自定义语音模型，基尔默和他的团队输入文本，选择合适的模式，调整音调、节奏等参数，就能实现逼真的交流。这不仅仅是一项技术成果，还关乎人与人的沟通和联系。基尔默本人在一份声明中提到：作为人类，沟通能力是我们生存的核心，喉癌的影响让其他人很难理解我。有机会以一种真实而熟悉的声音讲述我的故事，这是一份非常特别的礼物。国内也有这样的例子。 2021年，喜马拉雅以语音合成技术让已故大师单田芳「再说」评书；2018年，《创新中国》纪录片用AI复原配音大师李易的声音。
文章图片
所以当你曾经在世界留下过痕迹，就无法轻易「事了拂衣去、深藏功与名」。对于仍要谋生的名人，克隆语音倒可能是条「通天大道」。如果说AI换脸模型Deepfake让明星「出租」脸就可能赚得盆满钵满，语音模型也不相上下。为基尔默「恢复」声音的Sonantic还有一项业务：为嗓子正常的演员创建声音模型。
文章图片
图片来自：theverge平台先提供设置脚本，演员录制好这些脚本的表演，然后再将录制的音频输入语音引擎，用引擎训练AI模型。最终，当合成声音被商用，演员们躺着就能获得利润分成，无需亲力亲为，也不必担心分身乏术。 2021年5月，美国AI技术公司Veritone也推出了类似的平台Marvel.AI 。这家公司认为，「对于运动员、演员和KOL ，声音是他们个人品牌的巨大资产」。
文章图片
图片来自：Veritone但这不免有偷懒之嫌，如果明星都不愿自己代言，消费者又凭什么为他们买单？Veritone建议创建行业标准，比如提前告知听众是合成语音，那就是「一个愿打一个愿挨」了。有技术和平台，名人克隆和出租声音完全可以是产业链，这也是技术跨越肉体与时空限制的一种体现。人人拥有「语音替身」的未来还远吗诚然，语音克隆不是新鲜事，但它仍然需要一个越来越真实、简易的过程，远远没有抵达终点。在我们看得到或看不到的角落，语音克隆的普及度越来越高，不只是名人、明星等少数人的游戏。 2017年，加拿大AI初创公司Lyrebird开发了一种语音合成技术，声称他们的算法能用1分钟的样本音频克隆任何人的声音。
文章图片
Lyrebird.1分钟是个了不起的数字。当年Adobe的ProjectVoCo ，至少需要20分钟的样本音频。在Lyrebird给出的例子里，希拉里、克林顿、特朗普言笑晏晏，共同祝福Lyrebird有美好未来。他们的声音、语调还是和真人有些区别，机械感略重，但足够让人眼前一亮了。 Lyrebird表示，生成声纹需要相当多的计算能力，但一旦完成这一步，制作语音很容易，创建一千个句子不到半秒。这像是一则预言：越过真实和机械的门槛，之后便一马平川。除了所需的样本音频更少，语音克隆也已经被内置在随手可及的创作工具中。
文章图片
Descript.美国音视频编辑公司Descript开发了播客编辑功能「Overdu」，它可以克隆创作者的声音，创作者输入需要的单词，就能用原有声音生成新的音频，方便快速修改播客。但它也远非完美。 TheVerge采访人员体验后发现，一方面，为了训练AI ，需要预先录制很多音频；另一方面，生成的音频缺乏情感和抑扬顿挫，偏偏听起来确实是自己，令人心生怪异又莫名熟悉。当初创公司遍地开花，大型科技公司厚积薄发。今年6月的Amazonre:MARS大会上，亚马逊首席科学家RohitPrasad表示，亚马逊正在开发一种技术，允许智能助手Alexa通过不到1分钟的音频模仿任何人的声音。