影史最出名的反派之一,未来都「不说人话」( 二 )

影史最出名的反派之一,未来都「不说人话」
文章图片
图片来自:pagesix而在现实生活中 , 基尔默的声音已经通过AI「恢复」 。 2020年 , 基尔默开始与AI语音公司Sonantic合作 。 收到数小时的旧录像后 , Sonantic首先在不破坏语音内容的前提下去除背景噪音 , 再从音频中生成脚本 , 并将音频和文本一块块地配对 , 然后语音引擎用这些数据训练语音模型 。 难点在于 , 基尔默提供的数据比他们以往的项目少了大约10倍 。 为此 , Sonantic研究了新的算法 , 最终生成了40多种不同的语音模型 , 把其中最好的一个交给基尔默 。 影史最出名的反派之一,未来都「不说人话」
文章图片
图片来自:vanityfair有了自定义语音模型 , 基尔默和他的团队输入文本 , 选择合适的模式 , 调整音调、节奏等参数 , 就能实现逼真的交流 。 这不仅仅是一项技术成果 , 还关乎人与人的沟通和联系 。 基尔默本人在一份声明中提到:作为人类 , 沟通能力是我们生存的核心 , 喉癌的影响让其他人很难理解我 。 有机会以一种真实而熟悉的声音讲述我的故事 , 这是一份非常特别的礼物 。 国内也有这样的例子 。 2021年 , 喜马拉雅以语音合成技术让已故大师单田芳「再说」评书;2018年 , 《创新中国》纪录片用AI复原配音大师李易的声音 。 影史最出名的反派之一,未来都「不说人话」
文章图片
所以当你曾经在世界留下过痕迹 , 就无法轻易「事了拂衣去、深藏功与名」 。 对于仍要谋生的名人 , 克隆语音倒可能是条「通天大道」 。 如果说AI换脸模型Deepfake让明星「出租」脸就可能赚得盆满钵满 , 语音模型也不相上下 。 为基尔默「恢复」声音的Sonantic还有一项业务:为嗓子正常的演员创建声音模型 。 影史最出名的反派之一,未来都「不说人话」
文章图片
图片来自:theverge平台先提供设置脚本 , 演员录制好这些脚本的表演 , 然后再将录制的音频输入语音引擎 , 用引擎训练AI模型 。 最终 , 当合成声音被商用 , 演员们躺着就能获得利润分成 , 无需亲力亲为 , 也不必担心分身乏术 。 2021年5月 , 美国AI技术公司Veritone也推出了类似的平台Marvel.AI 。 这家公司认为 , 「对于运动员、演员和KOL , 声音是他们个人品牌的巨大资产」 。 影史最出名的反派之一,未来都「不说人话」
文章图片
图片来自:Veritone但这不免有偷懒之嫌 , 如果明星都不愿自己代言 , 消费者又凭什么为他们买单?Veritone建议创建行业标准 , 比如提前告知听众是合成语音 , 那就是「一个愿打一个愿挨」了 。 有技术和平台 , 名人克隆和出租声音完全可以是产业链 , 这也是技术跨越肉体与时空限制的一种体现 。 人人拥有「语音替身」的未来还远吗诚然 , 语音克隆不是新鲜事 , 但它仍然需要一个越来越真实、简易的过程 , 远远没有抵达终点 。 在我们看得到或看不到的角落 , 语音克隆的普及度越来越高 , 不只是名人、明星等少数人的游戏 。 2017年 , 加拿大AI初创公司Lyrebird开发了一种语音合成技术 , 声称他们的算法能用1分钟的样本音频克隆任何人的声音 。 影史最出名的反派之一,未来都「不说人话」
文章图片
Lyrebird.1分钟是个了不起的数字 。 当年Adobe的ProjectVoCo , 至少需要20分钟的样本音频 。 在Lyrebird给出的例子里 , 希拉里、克林顿、特朗普言笑晏晏 , 共同祝福Lyrebird有美好未来 。 他们的声音、语调还是和真人有些区别 , 机械感略重 , 但足够让人眼前一亮了 。 Lyrebird表示 , 生成声纹需要相当多的计算能力 , 但一旦完成这一步 , 制作语音很容易 , 创建一千个句子不到半秒 。 这像是一则预言:越过真实和机械的门槛 , 之后便一马平川 。 除了所需的样本音频更少 , 语音克隆也已经被内置在随手可及的创作工具中 。 影史最出名的反派之一,未来都「不说人话」
文章图片
Descript.美国音视频编辑公司Descript开发了播客编辑功能「Overdu」 , 它可以克隆创作者的声音 , 创作者输入需要的单词 , 就能用原有声音生成新的音频 , 方便快速修改播客 。 但它也远非完美 。 TheVerge采访人员体验后发现 , 一方面 , 为了训练AI , 需要预先录制很多音频;另一方面 , 生成的音频缺乏情感和抑扬顿挫 , 偏偏听起来确实是自己 , 令人心生怪异又莫名熟悉 。 当初创公司遍地开花 , 大型科技公司厚积薄发 。 今年6月的Amazonre:MARS大会上 , 亚马逊首席科学家RohitPrasad表示 , 亚马逊正在开发一种技术 , 允许智能助手Alexa通过不到1分钟的音频模仿任何人的声音 。