计算机视觉工坊单阶段6D对象姿势估计( 二 )

本文插图
其中λi是比例因子， R和t是定义相机姿态的旋转矩阵和平移矢量。因为R是旋转，所以它同样只有三个自由度和t ，总共为6 。

本文插图
图2：3D到2D的对应关系。（a）给定n个3D对象关键点pi（{（pi?uik）}1≤i≤n ， 1≤k≤m中的每一个的m个潜在2D对应uik ，可以基于这些3D到 2D对应。在这里，本文仅显示pi的对应簇。摄像机坐标系和对象坐标系分别由O和W表示。（b）姿势也可以从点到向量的对应关系中获得，在这种情况下，可以在3D点和2D向量之间定义3D到2D的对应关系。本文的方法可以处理两种情况。
注意，上面的3D到2D对应不限于3D点到2D点对应。特别是，如图2（b）所示，本文的形式主义可以处理3D点到2D向量的对应关系，这已被证明更适合与深度网络结合使用。在那种情况下，可以将2D位置推断为两个2D向量的交点，然后等式1仍然保留在交叉点上。如下所述，本文的方法也仍然适用，因此除非必要，否则本文不会明确区分这两种类型的3D到2D对应关系。
经典的PnP方法尝试在给定几种对应关系的情况下恢复R和t ，这通常涉及使用RANSAC查找有效位。在此过程中，必须对许多随机选择的对应子集执行SVD ，在找到仅包含有效对应的一个子集之前必须对其进行尝试。在这项工作中，本文建议通过非线性回归来代替这一繁琐的过程，该非线性回归是由经过适当设计的具有参数Θ的深层网络g实现的。换句话说，本文有

本文插图
现在，本文转到gθ的实际实现。在本节的其余部分中，本文首先讨论网络作为输入然后输入的3D至2D对应关系集C3 2 = {（pi piu ik）}1≤i≤n ， 1≤k≤m的性质本文设计用来说明它们的体系结构。
2.1.1 密集点的属性
本文将所有与特定3D点相关联的2D点都称为一个簇，因为假设用于发现它们的算法是一个很好的算法，它们倾向于围绕3D点投影的真实位置进行聚类，如图1所示。本文的实现选择出于以下考虑：
集群排序。聚类中的对应顺序无关紧要，并且不应影响结果。但是，聚类的顺序对应于3D点的顺序，该顺序已给定并固定。
集群内部和集群之间的交互。尽管同一群集中的点对应于相同的3D点，但是应该预计每个点的2D位置估计会很吵。因此，该模型需要捕获每个群集内的噪声分布。更重要的是，一个单独的群集无法告诉本文有关姿势的任何信息，并且只能通过捕获多个群集的全局结构来推断最终的姿势。
刚性转换。在使用深度网络处理3D点云时，通常希望结果对于刚性变换是不变的。相比之下，在这里，本文希望2D点代表3D点的投影，并且本文从它们中提取的特征应该取决于它们的绝对位置，这对于姿势估计至关重要。
2.1.2 网络架构
本文构建了一个简单的网络架构，如图3所示，该架构利用上面讨论的属性从对应簇预测姿势。它包括三个主要模块：具有共享网络参数的本地特征提取模块，单个群集中的特征聚合模块以及由简单的全连接层组成的全局推断模块。

本文插图
图3：单阶段6D对象姿态估计的总体架构。在通过一些细分驱动的CNN为6D姿势建立3D到2D对应关系之后，本文使用三个主要模块直接从这些对应关系簇中推断出姿势：具有共享网络参数的局部特征提取模块，一个特征在不同聚类中运行的聚合模块，以及由简单连接的层组成的全局推断模块，用于估计最终姿态为四元数和平移。 CNN输出中的颜色表示从网格单元中心到相应的投影3D边界框角的2D偏移。