计算机视觉工坊单阶段6D对象姿势估计( 四 )


本文插图
其中? Rand? t是估计的旋转矩阵和平移矢量 , R和tare是真实值 。 从估计的四元数和真实的四元数估计旋转 , 可以以可微分的方式进行 。
本文的体系结构同时为一组预定义的3D关键点输出分割蒙版和潜在的2D位置 。 更具体地说 , 对于具有S个对象类和大小为h×w×3的输入图像I的数据集 , 它输出大小为H×W×C的3D张量 。 尺寸H和W与输入分辨率成正比 , C =(S + 1)+ 2 * n , 其中(S + 1)个通道用于分割 , 其中一个用于背景类 , 一个用于2D位置(或 对应于n个3D点pi的2D方向向量) 。 为了获得给定对象的对应聚类 , 本文在输出特征张量上随机抽取m = 200个网格像元 , 这些像元属于特定类标签的分割掩码 。
三、实验
本文将单阶段方法与更传统但最先进的两阶段框架进行比较 , 首先是综合数据 , 然后是来自具有挑战性的Ocluded-LINEMOD和YCB-Video的真实数据个数据集 。
3.1 合成数据
本文使用虚拟校准相机创建合成的3D到2D对应关系 , 其图像尺寸为640×480 , 焦距为800 , 主点位于图像中心 。 本文将目标对象作为一个单位3D球体 , 该球体本文随机旋转并且其中心在相机坐标系中表示的间隔[-2,2]x[-2,2]x[4,8]内随机平移, 如图4所示 。
计算机视觉工坊单阶段6D对象姿势估计
本文插图
图4:合成数据
从对应簇中回归的网络gθ期望以[x , y , dx , dy]形式的4D输入 , 其中x , y代表图像网格位置的中心 , 而dx , dy从那个中心转移 。 在这里 , 每个对象都应代表一个球体的特定对象的边界框特定角的潜在图像对应 。 给定通过在图像中投影对象的3D模型而获得的特定对象的分割蒙版 , 本文可以通过以下方式创建对应关系 。 本文在图像中投影球体3D边界框的每个角 , 并针对分割蒙版中的每个网格单元 , 将像元中心x , y和位移dx , dy记录到投影的角 。 然后 , 本文从遮罩内的200个随机采样的网格单元中获取结果对应关系 。 本文将高斯噪声添加到其dx , dy值 , 并通过将dx , dy的某些百分比设置为图像中均匀采样的值来创建离群值 。 图5演示了此过程 。

计算机视觉工坊单阶段6D对象姿势估计
本文插图
图5:生成对应关系 。 本文在图像中投影球体3D边界框的每个角 , 然后针对对象蒙版中的每个网格单元 , 通过记录中心x , 网格单元的y和偏移dx , dy到投影角来创建对应关系 。
本文在20K合成训练图像上以300个纪元训练了gθ , 批处理大小为32 , 使用Adam优化器的学习率为1e-4 。 在训练期间 , 本文随机添加方差σ在[0,15]范围内的2D噪声 , 并创建0%到30%的异常值 。 为了测试在不同噪声水平和离群率下获得的精度 , 本文使用2K合成测试图像 , 并根据等式7的3D空间重构误差报告平均姿态精度 。
与RANSAC PnP比较 。 将PnP算法与RANSAC结合使用是处理噪声对应的最广泛方法 。 图6显示基于RANSAC的EPnP和基于RANSAC的P3P具有相似的性能 。 当噪声很小时 , 虽然它们比本文的基于学习的方法更准确 , 但是当噪声水平增加时 , 本文的方法很快变得更加准确 。
计算机视觉工坊单阶段6D对象姿势估计
本文插图
图6:与RANSAC PnP的比较 。 本文将本文的网络与两种基于RANSAC的经典PnP方法(EPnP和P3P)进行比较 。 两种基于RANSAC的方法具有非常相似的性能 。 更重要的是 , 当噪声增加时 , 本文的方法更加准确和可靠 。
对应聚类的重要性 。 为了展示按照本文的方式构建网络的重要性 , 本文实现了一个简化的版本 , 该版本使用单个最大池操作来实现所有对应关系的排列不变性 , 而无需考虑与关键点匹配的聚类顺序 。 为了使这项工作有效 , 本文必须明确地将与每个对应关系关联的3D关键点坐标合并为网络的输入 。 如图7所示 , 不对关键点的固定顺序建模会导致准确性显着下降 。