人体|用于单目3D人体姿态估计的局部连接网络,克服图卷积网络限制

关注本文是被人工智能领域的顶级期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)于2020年8月接收的论文《用于单目3D人体姿态估计的局部连接网络(Locally Connected Network for Monocular 3D Human Pose Estimation)》的解读 。
该论文由北京大学与微软亚洲研究院、深睿医疗合作 , 解决了从单张图像对场景中的人进行三维姿态估计的问题 。 该工作基于2019年 ICCV 论文《针对三维人体姿态估计的网络结构优化(Optimizing Network Structure for 3D Human Pose Estimation)》 , 提出局部连接网络(LCN) , 来克服图卷积神经网络(GCN)表征能力不足的限制 , 极大地提高网络表征与泛化能力 , 且进一步实现端到端部署 , 并成功应用至不同场景 。
人体|用于单目3D人体姿态估计的局部连接网络,克服图卷积网络限制文章插图
1
背景介绍
利用计算机视觉技术对场景中的人进行姿态估计是当前重要的研究问题之一 , 但面对如遮挡、运动模糊等问题的挑战仍未被完全解决 。 我们旨在研究单目三维人体姿态估计 , 即从单张图像恢复人体关节点 3D 坐标 。 已有的工作之一是基于深度学习方法的全连接网络(Fully Connected Networks)(参考文献1) , 虽然相比传统方法已经大大提高了准确率 , 但是该方法并未利用人体所提供的丰富的先验知识 , 如人体关节连接与人体肢体长度等信息 , 该方法受限于其网络中密集连接而导致的弱表征力(图1(a)) 。
而后的工作(参考文献2)将图卷积网络(Graph Convolutional Network , GCN)的思想应用到这一问题中 , 却囿于其共享权重的设计并未达到很好的效果(图1(b)) 。 基于 GCN , 我们提出了一个广义公式 ,, 并推导出 FCN , GCN 都是该公式的特例 。
人体|用于单目3D人体姿态估计的局部连接网络,克服图卷积网络限制文章插图
图1. FCN , GCN 与本文所提出的 LCN 模型中某一层网络的概念性差异示意图2
模型概览
人体|用于单目3D人体姿态估计的局部连接网络,克服图卷积网络限制文章插图
图2. 我们的端到端单目 3D 人体姿态估计模型的整体流程本文中我们提出了一种从单张图像中进行 3D 人体姿态估计的方法(图2) 。 该方法包括两个步骤:首先从图像中估计 2D 姿态 , 然后估计相应的 3D 姿态 。 现有的 2D 姿态估计器已较成熟 , 我们的改进着重于第二步 。
考虑到人体关节连接可以自然地用图来表示 , 我们从图卷积网络(GCN)出发 , 基于上述广义公式 , 将 GCN 在用于 3D 姿势估计时为不同关节分配共享过滤器的缺点克服 , 提出局部连接网络(Local Connected Network , LCN) , 以为不同的关节分配专用而非共享的过滤器 。 利用空间积分的常用可微手段(spatial integral)(参考文献3) , 我们联合已有的 2D 姿态估计器和 LCN 网络进行端到端训练 , 使其可以处理不断迭代变化的 2D 姿态 。
3
实验结果
我们在两个基准数据集上评估了我们的方法 , 观察到 LCN 已达到最好水平并且具有强大的跨数据集泛化能力 。 表1为在 H36M , 即目前最大的三维人体姿态估计基准数据集之一上的表现 , 其中 Ours(Joint)为我们端到端训练模型的结果 , 评价指标是预测姿态与真实姿态的平均关节误差值 , 单位毫米 。
人体|用于单目3D人体姿态估计的局部连接网络,克服图卷积网络限制文章插图
表1.现有工作与我们的模型在H36M数据集上的定量误差结果(越小表示越好)
【人体|用于单目3D人体姿态估计的局部连接网络,克服图卷积网络限制】图3为应用我们的模型在不同场景图片中的效果 。 可以看到 , 该模型可成功泛化至背景丰富且动作较复杂的未曾见过的场景中 。
人体|用于单目3D人体姿态估计的局部连接网络,克服图卷积网络限制文章插图
图3. 我们的模型应用在不同场景中的可视化结果 , 最后一列为失败案例4
结语
本文从图卷积网络 GCN 出发 , 提出局部连接网络 LCN , 来从单目图像中估计 3D 人体姿态 , 并有效地克服了 GCN 的局限性 。 特别地 , LCN 具有很强的表征与泛化能力 , 通过端到端联合训练在基准数据集上达到了最好水平 。 更重要的是 , LCN 可以很好地推广到丰富新颖的动作与场景中 。
参考文献
[1] J. Martinez, R. Hossain, J. Romero, and J. J. Little, "A simple yet effective baseline for 3d human pose estimation," in ICCV 2017.
[2] L. Zhao, X. Peng, Y. Tian, M. Kapadia, and D. N. Metaxas, "Semantic graph convolutional networks for 3d human pose regression," in CVPR 2019.