FICCV 2021 | audi( 二 )

实验结果分析

定性比较实验

图 4 与现有音频驱动的人脸视频生成方法的定性比较结果
如图4，图5，图6所示，我们与现有音频驱动的人脸视频生成方法进行比较。相比之下，通过显式和隐式属性的协同学习，我们的方法生成具有个性化的头部运动，考虑到不同个体的运动特性，同时可以生成更加逼真眨眼信息的人脸视频。（详细的比较结果请参考上述的视频链接）

文章插图

图 5 与 Vougioukas，Chen等方法的定性对比

文章插图

图 6 与 Suwajanakorn，Thies等方法的定性对比

定量比较实验

我们同时通过定量化分析实验，如关键点运动偏移，视听同步置信度进行衡量，具体信息如表1所示。本文所提出的联合隐式和显式属性生成框架，超越了大多数现有方法，在各项属性生成任务中，均具有较优的解析质量。

文章插图
如表2所示，我们通过进行主观的用户研究（User Study），即从人类观察的角度比较生成的结果，其中更大的数值代表更优的生成质量和用户认可度。

文章插图

结语

在这项工作中，除传统的唇部运动等显式属性之外，我们以自然头部姿势和眨眼信息等隐式属性作为学习目标，优化谈话人脸视频的生成质量和真实度。但需要注意的是，人脸谈话视频仍然具有其他更细节的隐式属性，例如，眼球运动、身体和手势、微表情等等。这些属性可能受其他更深层次维度信息的引导，可能需要其他网络组件的特定设计，仍有待于未来进一步探究。我们希望本文提出的FACIAL 框架可以为未来探索隐式属性学习提供一种新颖的研究思路和启发。

参考文献

[1] Lele Chen, Ross K Maddox, Zhiyao Duan, and Chenliang Xu. Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. CVPR, 2019.

[2] Hang Zhou, Yu Liu, Ziwei Liu, Ping Luo, and Xiaogang Wang. Talking face generation by adversarially disentangled audio-visual representation. AAAI, 2019.

[3] Supasorn Suwajanakorn, Steven M Seitz, and Ira Kemelmacher-Shlizerman. Synthesizing obama: learning lip sync from audio. TOG, 2017.

[4] Justus Thies, Mohamed Elgharib, Ayush Tewari, Christian Theobalt, and Matthias Nie?ner. Neural voice puppetry: Audio-driven facial reenactment. ECCV, 2020.

[5] Ran Yi, Zipeng Ye, Juyong Zhang, Hujun Bao, and Yong-Jin Liu. Audio-driven talking face video generation with natural head pose. arXiv preprint arXiv:2002.10137, 2020.

[6] Yang Zhou, Xintong Han, Eli Shechtman, Jose Echevarria, Evangelos Kalogerakis, and Dingzeyu Li. Makelttalk: speaker-aware talking-head animation. TOG, 2020.

雷锋网雷锋网雷锋网