计算机视觉工坊单阶段6D对象姿势估计( 三 )


局部特征提取 。 本文使用具有三层的MLP为每个对应关系提取局部特征 , 并在对应关系和整个群集之间共享权重 。
分组特征聚合 。 由于给出了聚类的顺序 , 但是每个聚类中的点是无序的 , 为了提取每个聚类的表示 , 本文设计了一种对对应顺序不敏感的分组特征聚合方法 。 从理论上讲 , 本文可以使用与PointNet类似的架构 。 但是 , PointNet旨在为刚性变换提供不变性 , 这与本文所需要的相反 。 相反 , 给定n个簇 , 每个簇包含m个2D点{uik} , 1≤i≤n , 1≤k≤m , 本文定义了一个集合函数F:X→RnD将对应关系{uik}1≤k≤m映射到 nD维向量
计算机视觉工坊单阶段6D对象姿势估计
本文插图
其中 , fik是通过上述完全连接的层获得的uik的D维特征表示 , MAX()是最大池操作 , 而CAT()是串联操作 。 在本文的实验中 , 本文发现实例规范化和批处理规范化都没有改善此处的性能 。 因此 , 本文不在网络gθ中使用这些操作 。
原则上 , 可以使用单个最大池化操作 , 而无需考虑组的顺序 , 就像PointNet可以实现所有点的置换i方差一样 。 但是 , 在本文的案例中 , 这意味着忽略了固定了组顺序的属性 。 相比之下 , 等式3对于簇中的任何置换都是不变的 , 但仍然说明了预先定义的簇顺序 。 本文在结果部分展示了这种方法的好处 。
全局推断 。 然后 , 本文将聚集组特征的nD维向量通过另一个输出6D姿势的MLP 。 为此 , 本文使用三个完全连接的层并将最终姿势编码为四元数和平移 。
2.2单阶段6D对象姿态估计
上面描述的深度网络为本文提供了一种从给定对象的对应簇预测6D姿势的可区分方式 。 给定输入图像 , 因此本文仍然需要检测每个对象并建立3D到2D的对应关系 。 为此 , 本文使用另一个带有参数Φ的深度回归器f , 对于一个对象 , 本文可以这样写:

计算机视觉工坊单阶段6D对象姿势估计
本文插图
其中I是输入的RGB图像 。
实际上 , {pi}通常被视为对象3D模型的3D边界框的八个角 , 这会导致针对不同对象类型的不同3D点{pi} 。 在本文的实验中 , 本文发现对每个对象使用相同的{pi}对fφ的精度影响很小 , 并且使随后对gθ的训练更加容易 。 因此 , 本文对所有数据集对象使用单个多维数据集 , 定义为包含一个球体的最小立方体 , 该球体的半径是所有对象3D模型的边界球体半径的平均值 。 这意味着3D关键点坐标是由簇的顺序隐式给出的 , 不需要明确指定为网络输入 。 因此 , 本文对每个输入对应项使用4D表示 , 其中不包括3D坐标 。 相反 , 由于的网络在图像网格上运行 , 因此当本文使用它查找对应关系时 , 本文将输入作为2D投影所在的网格单元中心的x和y坐标以及dx和dy从该中心偏移 。 换句话说 , 2D对应关系的图像坐标为x + dx和y + dy 。 本文尝试将这些直接用作输入 , 但通过实验发现 , 给网络一阶扩展的效果更好 。 当使用而不是的网络查找对应关系时 , 本文使用相同的输入格式 , 但对dx和dy进行归一化 , 以便它们表示方向 。
因此 , 本文的完整模型可以写成
计算机视觉工坊单阶段6D对象姿势估计
本文插图
为了训练它 , 本文最小化损失函数
计算机视觉工坊单阶段6D对象姿势估计
本文插图
它组合了旨在将每个网格单元分配给背景的对象类别的分割项Ls , 关键点回归项Lk和姿势估计项Lp 。 本文将Ls设为焦点损失 , 将Lk设为回归项 。 具体取决于本文使用两种架构中的哪一种 。 本文将Lp设为3D空间重构误差 , 即
计算机视觉工坊单阶段6D对象姿势估计