行业互联网搜狗联合清华天工研究院推出 ChoreoNet 模型：让数字人随着音乐翩翩起舞 |

声音与AI行为搭配在一起，会发生怎样的化学反应呢？这一话题，正在成为国内外AI研究比较热衷的新方向。
比如卡内基·梅隆大学和CMU机器人研究所，就在研究声音和机器人动作之间的相互作用；国内则从数字人入手，搜狗分身技术团队联合清华大学天工智能计算研究院贾珈老师团队，率先展开了音频驱动身体动作的研究。
【行业互联网搜狗联合清华天工研究院推出 ChoreoNet 模型：让数字人随着音乐翩翩起舞】近日二者共同发表的数字人技术论文《ChoreoNet:基于舞蹈动作单元的音乐-舞蹈合成框架》，就被2020国际顶级盛会ACMMultimedia录用为长文。
作为计算机领域诺贝尔奖——图灵奖的评选机构， ACM(国际计算机学会AssociationforComputingMachinery)的业界地位不用赘述，旗下的ACMMultimedia也被认为是多媒体技术领域奥运级别的顶级盛会，论文接受率很低。
那么，能得到顶会的认可，这一新技术究竟有哪些开创性呢？
闻声起舞， "乐舞合成"是怎样实现的？
让数字人根据文本语义做出相对应的面部表情及肢体动作，目前已经有不少成熟的应用，比如AI合成主播。如果再能够跟随音频做出同步、自然的肢体反应，无疑会在多种场景中产生奇妙的化学反应。
不过，随声而动这件事的难度在于，背后需要解决的技术问题不少，比如：
传统音乐与舞蹈合成的方式是基线法，通过人体骨骼关键点的映射，但许多关键点难以捕捉和预测，就会出现高度冗余和噪声，导致合成结果的不稳定、动作节衔接不像真人。
后来，雅尔塔等学者也提出要通过AI的弱监督学习来解决上述问题，但由于缺乏对人类舞蹈经验知识的了解，依然会出现合成不够自然、情感表达不够流畅的问题。
另外，由于音乐片段比较长，背后伴随着成千上万的动作画面，需要智能体记住并映射这种超长的序列也是一大挑战。

本文插图
搜狗及清华天工院研究团队所做的突破，就是将人类专业知识融入算法，提出了一个模仿人类舞蹈编排的程序ChoreoNet ，来根据音乐生成动态优美连贯、非线性高度拟真的舞蹈。
简单来说， ChoreoNet是将专业舞者的各个动作单元与音乐旋律捕捉并数据化，然后让AI在其中寻找规律，知道在怎样的音乐节拍、旋律风格中应该做出怎样的舞蹈动作，进而形成连贯的动作轨迹。
其中，研究人员共突破了两个环节：
1.舞蹈知识化。用动作捕捉采集专业的人类舞者是如何根据音乐的节奏、旋律来编排动作的。研究人员收集了4种不同类型（恰恰、华尔兹、伦巴和探戈）的舞蹈数据，数个音乐节拍裁剪出一个编舞动作单元(CAUs)相对应的片段，形成一个动作控制单元（CA），形成一个音乐与动作的映射序列。

本文插图
2.之前采集的舞蹈动作只是人体骨骼关键点数据，怎样让它们之间的连续过渡更加自然呢？研究人员借助NLP语义理解，让AI可以根据积累的知识进行实时反应。利用GAN设计了一个运动生成模型，让AI可以绘制一些舞蹈动作，补上缺失的数据，从而实现舞蹈的平滑过渡，产生自然的效果。
实验结果证明，与基线法相比， ChoreoNet性能更好，可以生成持续时间较长的结构化控件，来生成与音乐匹配的动作，并使其自然连接、情感流畅。
在这一突破中，搜狗对音频驱动身体动作这一课题的敏锐感知，以及AI分身技术在身体动作及姿态生成方面的加成，无疑是领先技术能力与创新意识的绝佳组合。
持续领跑，搜狗与分身技术的不解之缘