计算机视觉工坊单阶段6D对象姿势估计( 五 )


计算机视觉工坊单阶段6D对象姿势估计
本文插图
图7:对应聚类的重要性 。 本文将本文的网络与只有一个最大池操作的网络进行比较 , 因此不考虑集群的顺序 。 忽略此属性显然会降低性能 。
与PVNet基于投票的PnP相比 。 在上述实验中 , 二维对应关系以图像点的二维位置表示 。 由于目前最好的技术之一改用方向 , 并从那些基于投票的PnP方案中推断出姿势 , 因此本文将相同的3D点与2D向量对应关系馈入了本文自己的网络 。 在这种设置下 , 如图8所示 , 该姿势对对应噪声更加敏感 。 但是 , 与前面的情况一样 , 尽管在几乎没有噪声的情况下基于投票的PnP会产生更准确的结果 , 但是当噪声水平增加时 , 本文的方法会更加健壮和准确 。
计算机视觉工坊单阶段6D对象姿势估计
本文插图
图8:与PVNet基于投票的PnP的比较 。 当使用3D点到2D向量的对应关系时 , 本文将本文的网络与PVNet使用的基于投票的PnP进行比较 。 与基于投票的PnP相比 , 本文的方法对噪声的鲁棒性强得多 。
3.2 真实数据
本文根据来自两个具有挑战性的数据集(Occluded-LINEMOD 和YCBVideo )的真实数据评估了本文的方法 。
被遮挡的LINEMOD由8个对象组成 , 是较旧的LINEMOD数据集的子集 。 与仅对一个对象每个图像进行注释的LINEMOD不同 , 闭塞LINEMOD具有多个带注释的对象 。 这对于评估既执行实例检测又进行姿势估计的方法的评估更有意义 。 除了杂乱的背景 , 无纹理的物体以及LINEMOD不断变化的照明条件外 , 被遮挡的LINEMOD在多个物体实例之间也存在严重的遮挡 。 由于Occluded-LINEMOD中只有1214张测试图像 , 而没有明确的训练数据 , 因此本文基于LINEMOD训练数据来训练本文的网络 。
YCB视频是更新的 , 甚至更具挑战性 。 它具有从YCB数据集中提取的21个对象 , 并包含来自92个视频序列的约130K真实图像 。 它带来了OccludedLINEMOD的所有挑战以及更多不同的对象大小 , 包括几个无纹理的微小对象 。
数据准备 。 对于被遮挡的LINEMOD , 本文首先使用剪切粘贴合成技术从LINEMOD数据和随机背景数据生成20K图像 , 并带有4至10个不同的实例 对于每个图像 。 然后 , 本文从带纹理的3D网格为每种对象类型生成10K渲染图像 。 渲染过程中的姿势范围与LINEMOD中的相同 , 除了以下几点:为了处理遇到对称对象时的姿势歧义 , 本文在训练过程中根据对象的对称类型将姿势范围限制为子范围 , 以避免混淆网络 。 最后 , 本文的训练数据由具有多个实例的20K合成图像和每个对象只有一个实例的10K渲染图像组成 , 总共(20 + 10×8)K图像 。
对于YCB视频 , 本文遵循类似的步骤 。 本文使用提供的3D网格模型并根据数据集的姿态统计信息为21个对象中的每一个渲染10K图像 。 但是 , 本文不使用剪切粘贴技术来生成具有多个实例的图像 , 因为在原始的YCB视频图像中已经使用多个对象进行了注释 , 因此本文直接使用它 。
训练步骤 。 对于这两个数据集 , 本文都将输入图像缩放为416×416分辨率以进行训练和测试 。 本文使用Adam进行优化 , 将初始学习率设置为1e-4 , 并在处理了数据样本总数的50% , 75%和90%之后除以10 。 本文将批量大小设置为8 , 并依靠通常的数据增强技术 , 即随机亮度 , 高斯噪声 , 平移 , 缩放以及遮挡 。 本文通过在线数据增强在5M训练样本上训练网络 。
3.2.1 遮挡数据及比较结果
如前所述 , 为证明本文的方法是通用的 , 本文结合两个对应提取网络SegDriven和PVNet对其进行了测试 。 表1显示 , 通过用本文的网络替换原始的基于RANSAC的后处理以将方法转变为单阶段方法 , 可以在两种情况下提高性能 。