行业互联网搜狗联合清华天工研究院推出 ChoreoNet 模型：让数字人随着音乐翩翩起舞( 二 ) |

可以看到， ChoreoNet的出现，既带来了人机交互能力的提升，也给机器学习融入了知识元素。这可以看做是搜狗"分身技术"的一次进阶，也侧面印证了搜狗以"自然交互+知识计算"为核心的AI技术版图，正在持续狂奔，也得以积蓄起不断引领技术方向的势能。
从2018年首创分身技术之后，搜狗的研发脚步从未停止，持续专注于如何以文本及音频更好驱动数字人的面部表情及唇动进行研究。相继在2D/3D数字人领域构建了音画同步、逼真的面部表情唇动生成及驱动能力。

本文插图
如何能够让数字人更加自然并且富有表现力也是搜狗分身的重点研究方向，其中身体动作以及姿态的表达至关重要。在对数字人的面部驱动达到较高标准后，搜狗将研究重点从面部为主的驱动转到面部+动作的驱动，重点攻关如何让肢体动作更具自然表现力。如在今年5月推出的3DAI合成主播身上，不仅有经得起高清镜头考验的面部表现，同时实现了以文本语义为驱动的自如行走。
如今， ChoreoNet更进一步，实现了以音频对AI数字人进行实时驱动。搜狗在业内率先尝试并取得突破性研发结果的这一举动，更是一改只能由文本、语义驱动AI分身面部+动作的现状，为行业带来了更多的创新可能，搜狗的分身技术理想与实力也跃然纸上。
不断打造可视化、能自然交互的AI数字人，搜狗到底想做什么？
人机交互的未来，与搜狗的技术远景
回归到企业战略层面，搜狗的AI理念是让AI赋能于人。通过人机协作，把人从重复性工作中解放出来，更好地解放社会生产力。比如AI主播，就可以让主持人不再困于朗读既定内容，可以投身于更具创造性的工作。当然，这一切都要从更自然的人机交互开始，完成一次次交流与触碰。
而此次ChoreoNet让数字人跟随音乐起舞，这个创意的突破不仅仅是技术上够炫酷，应用空间也非常巨大。
不出意外，搜狗很大可能会将该技术同3D数字人相结合，因为相较2D数字人， 3D数字人的肢体灵活性、可塑性驱动更强，从而有更广泛的应用空间。音频驱动技术的加入，不仅能丰富搜狗3D数字人在新闻播报、外景采访的场景，更直接有助于突破融媒体领域、向娱乐、影视等领域落地进军。可以看到，基于视觉的人机交互会越来越成为主流，比如当前流行的智能客服、虚拟偶像等等，往往需要大量文本、语义的输入来进行推理与交互，虚拟偶像的动作也需要捕捉后由人工逐帧进行制作，而改为音频驱动可以更为直接地实现语音交流，节省制作/计算的步骤与成本。

本文插图
此外，人类知识体系与机器学习的结合，让AI能力有极大的提升。通过垂直领域的知识数据进行训练和学习，从而提供更精准、可靠的服务，大大提升AI客服的接受度。
当然，音频驱动也可以生成更具人性化的个人秘书，帮助人减轻工作负担、提高效率的同时，通过音频识别与判断来实时反应，表现力更加丰富，让智能家居、服务机器人等更好地融入生活环境，在老人关怀、私人助理、儿童陪伴等等场景之中，扮演更积极的角色。
业内有个共识，一般情况下只有对日常生活和技术突破具有巨大影响潜力的研究项目，才会被ACMMultimedia通过和录取。从这个角度看，搜狗与清华天工院所做的工作，远远不只是学术上的突破那么简单。当全球科技巨头都在探索如何用多模态交互缔造新玩法、新功能的时候，搜狗已经向前迈出了让人眼前一亮的步伐。
让数字人更像人，就能更早地与人类达成亲密无间的配合与协作，对于人类和AI来说，同样重要。也正由于此，世界顶级盛会才会投注认可与鼓励。下一次，搜狗会为数字人集齐怎样的能力呢？我们拭目以待。