行业互联网搜狗联合清华天工研究院推出 ChoreoNet 模型:让数字人随着音乐翩翩起舞


声音与AI行为搭配在一起 , 会发生怎样的化学反应呢?这一话题 , 正在成为国内外AI研究比较热衷的新方向 。
比如卡内基·梅隆大学和CMU机器人研究所 , 就在研究声音和机器人动作之间的相互作用;国内则从数字人入手 , 搜狗分身技术团队联合清华大学天工智能计算研究院贾珈老师团队 , 率先展开了音频驱动身体动作的研究 。
【行业互联网搜狗联合清华天工研究院推出 ChoreoNet 模型:让数字人随着音乐翩翩起舞】近日二者共同发表的数字人技术论文《ChoreoNet:基于舞蹈动作单元的音乐-舞蹈合成框架》 , 就被2020国际顶级盛会ACMMultimedia录用为长文 。
作为计算机领域诺贝尔奖——图灵奖的评选机构 , ACM(国际计算机学会AssociationforComputingMachinery)的业界地位不用赘述 , 旗下的ACMMultimedia也被认为是多媒体技术领域奥运级别的顶级盛会 , 论文接受率很低 。
那么 , 能得到顶会的认可 , 这一新技术究竟有哪些开创性呢?
闻声起舞 , "乐舞合成"是怎样实现的?
让数字人根据文本语义做出相对应的面部表情及肢体动作 , 目前已经有不少成熟的应用 , 比如AI合成主播 。 如果再能够跟随音频做出同步、自然的肢体反应 , 无疑会在多种场景中产生奇妙的化学反应 。
不过 , 随声而动这件事的难度在于 , 背后需要解决的技术问题不少 , 比如:
传统音乐与舞蹈合成的方式是基线法 , 通过人体骨骼关键点的映射 , 但许多关键点难以捕捉和预测 , 就会出现高度冗余和噪声 , 导致合成结果的不稳定、动作节衔接不像真人 。
后来 , 雅尔塔等学者也提出要通过AI的弱监督学习来解决上述问题 , 但由于缺乏对人类舞蹈经验知识的了解 , 依然会出现合成不够自然、情感表达不够流畅的问题 。
另外 , 由于音乐片段比较长 , 背后伴随着成千上万的动作画面 , 需要智能体记住并映射这种超长的序列也是一大挑战 。
行业互联网搜狗联合清华天工研究院推出 ChoreoNet 模型:让数字人随着音乐翩翩起舞
本文插图
搜狗及清华天工院研究团队所做的突破 , 就是将人类专业知识融入算法 , 提出了一个模仿人类舞蹈编排的程序ChoreoNet , 来根据音乐生成动态优美连贯、非线性高度拟真的舞蹈 。
简单来说 , ChoreoNet是将专业舞者的各个动作单元与音乐旋律捕捉并数据化 , 然后让AI在其中寻找规律 , 知道在怎样的音乐节拍、旋律风格中应该做出怎样的舞蹈动作 , 进而形成连贯的动作轨迹 。
其中 , 研究人员共突破了两个环节:
1.舞蹈知识化 。 用动作捕捉采集专业的人类舞者是如何根据音乐的节奏、旋律来编排动作的 。 研究人员收集了4种不同类型(恰恰、华尔兹、伦巴和探戈)的舞蹈数据 , 数个音乐节拍裁剪出一个编舞动作单元(CAUs)相对应的片段 , 形成一个动作控制单元(CA) , 形成一个音乐与动作的映射序列 。
行业互联网搜狗联合清华天工研究院推出 ChoreoNet 模型:让数字人随着音乐翩翩起舞
本文插图
2.之前采集的舞蹈动作只是人体骨骼关键点数据 , 怎样让它们之间的连续过渡更加自然呢?研究人员借助NLP语义理解 , 让AI可以根据积累的知识进行实时反应 。 利用GAN设计了一个运动生成模型 , 让AI可以绘制一些舞蹈动作 , 补上缺失的数据 , 从而实现舞蹈的平滑过渡 , 产生自然的效果 。
实验结果证明 , 与基线法相比 , ChoreoNet性能更好 , 可以生成持续时间较长的结构化控件 , 来生成与音乐匹配的动作 , 并使其自然连接、情感流畅 。
在这一突破中 , 搜狗对音频驱动身体动作这一课题的敏锐感知 , 以及AI分身技术在身体动作及姿态生成方面的加成 , 无疑是领先技术能力与创新意识的绝佳组合 。
持续领跑 , 搜狗与分身技术的不解之缘