计算机视觉工坊单阶段6D对象姿势估计( 六 )

表1：在Occluded-LINEMOD上使用不同对应提取网络的评估。通过用本文的小型网络代替它们最初的基于RANSAC的后处理，本文评估了两个最先进的对应提取网络：SegDriven 和PVNet 。在这两种情况下，本文的方法始终优于原始版本。在此，本文报告ADD-0.1d 。
在表2中，本文表明，单级网络的性能优于最新方法PoseCNN ， Seg Driven和PVNet 。图9提供了定性结果。在表3中，本文报告了输入图像分辨率为640×480的运行时。本文的方法也比其他方法更快，因为它消除了RANSAC迭代过程。

本文插图
表2：与Occluded-LINEMOD的技术水平的比较。本文将结果与PoseCNN ， SegDriven和PVNet的ADD-0.1d和REP-5px进行了比较。本文的方法执行最新技术，尤其是在ADD-0.1d中。

本文插图
表3：比较速度。本文比较了PoseCNN ， SegDriven ， PVNet的运行时间（以毫秒为单位）以及本文在现代GPU（GTX1080 Ti）上的运行时间。除了PoseCNN ，这些方法首先提取对应关系，然后将它们融合。使用与PVNet中相同的对应提取主干，由于本文的网络避免了基于RANSAC的融合的需要，因此本文的方法运行速度快了大约2倍。

本文插图
图9：在Ocluded-LINEMOD上的定性结果。如前三栏所示，即使存在较大的遮挡，本文的方法也能得出准确的结果。最后一列显示了两种失败的情况，目标蛋盒被过多地堵塞，目标胶表现出微妙的对称模糊性，使得对应提取网络不容易建立稳定的对应。在这里，姿势可视为每个对象的3D网格的投影。
3.2.2 YCB-Video 结果
表4总结了与PoseCNN， SegDriven 和PVNet 进行比较的结果。它表明本文的方法在该数据集上也始终优于其他方法。此外，请注意，它的运行速度比PoseCNN快10倍，也比SegDriven和PVNet快2倍。

本文插图
【计算机视觉工坊单阶段6D对象姿势估计】
表4：与YCBVideo的最新技术比较。本文将结果与PoseCNN 、SegDriven 和PVNet 的ADD-0.1d和REP-5px进行了比较。本文用“-”表示原始PVNet论文中缺少的结果。
3.3 限制
虽然本文的方法与最先进的对应提取网络结合使用时是准确且快速的，但根据对应关系估算姿势的网络仍不如传统的基于几何的PnP算法准确当可以通过其他方式获得非常精确的对应关系时，如图6所示。此外，它不能解决通用的PnP问题，因为本文仅针对固定的3D坐标集对其进行了训练。对此进行改进将成为未来工作的重点。
四、结论
本文为6D检测和姿态估计引入了一种单阶段方法。它的关键要素是一个小型网络，该网络接受候选3D到2D的对应关系并返回6D姿势。当与最先进的方法相结合来建立对应关系时，它可以通过允许端到端的培训并消除他们通常需要的一些RANSAC风格程序来提高性能。未来的工作将集中在使姿势估计网络更准确和更通用上，以便可以在更广泛的范围内使用它。