打开，体验流畅的单目三维手势技术机器之心专栏机器之心编辑部近日

机器之心专栏
机器之心编辑部
近日，快手 Y-Tech 团队研发上线了国内首家端上单目三维手势技术，用户在手机上就能体验到流畅的三维手势技术和相关魔表效果。
历时一年多，快手研发人员在手部数据生成、数据真实化、网络定制化与轻量化、领域迁移等多个方面进行了大量探索，提出了领域特征自适应对齐和显式教师网络等方法，提高了跨域训练效果，降低了不合理手型概率，相关工作分别发表在 ACMMM 2020 和 BMVC 2020 上。
文章插图
论文链接：
文章插图
论文链接：
效果展示：
单目三维手势
三维手势技术指的是输入包含人手的彩色图像，预测人手关键点在相机空间下的三维坐标，如图 1 所示。
文章插图
图 1：三维手势预测任务简介
该技术在虚拟现实、机器人控制以及体感游戏等领域有着广泛的应用前景，成为近年来的热点研究方向。但是三维手势识别，尤其是单目场景下，是一项极具挑战性的任务。受深度歧义性以及遮挡等因素的影响，三维手势数据的标注十分困难，这导致了三维手势训练数据的匮乏。基于这种场景单一和有限的手势数据进行训练，神经网络很难取得令人满意的效果。
一种解决方案是利用多摄像头系统采集不同角度的手部图片，然后使用三角化方法以自动或半自动的方式标注数据。然而该方案采集的图片背景比较单一，标注噪音也较大。另一种方案是使用计算机图像学（CG）方法生成虚拟手部数据。生成数据成本低廉、分布均匀可控、标注准确，能够作为真实数据集的补充引入到训练当中，结合数据真实化和领域迁移等方法能够有效提升手势识别的鲁棒性。
快手 Y-Tech 团队使用 CG 生成数据，结合提出的两种网络训练新方法有效缓解了训练数据不足和预测手型不合理现象，提升了预测的准确性。
【打开，体验流畅的单目三维手势技术】自适应特征对齐方法提升跨域训练效果。现有方法大多采用生成数据与真实数据联合训练的方式，忽略了两者在图像和标注层面的差异，导致神经网络无法有效学习二者的共性特征。通过自适应学习领域共有特征和独有特征，该方法能有效提升生成数据在真实场景的泛化能力。
结合教师网络和人手物理约束提升预测手势合理性。训练数据不足时，神经网络无法充分挖掘数据集的高层次信息，导致预测手势中具有较多的不合理手型。针对这个问题，研究人员设计了一种显式教师网络来指导手势关键点预测模型，使输出符合人手物理约束。
自适应的特征对齐
近年来，许多研究者使用生成数据来缓解真实场景下的训练数据匮乏问题，显著提升了真实场景数据集下的三维手势预测准确率 [1,2] ，但是这些方法往往采用生成数据与真实数据联合训练的方式，忽略了二者的领域差异。
生成数据与真实数据的领域差异主要体现在两个方面：视觉差异与标注差异。由于人手的皮肤纹理非常复杂，现有的生成数据还无法模拟出完全真实的人手，如图 2 所示。同时由于标注机制的不同，生成数据可以使用人手骨骼作为标注点，而真实数据集往往只能以皮肤表面点为标注点，这导致二者的三维标注并不相同，如图 3 所示。
由于生成数据和真实数据的差异性无法避免，特征对齐或特征映射的难度较大，无法有效学习二者的共有特征，因而生成数据集的作用被弱化。
文章插图