计算机视觉工坊单阶段6D对象姿势估计( 六 )
表1:在Occluded-LINEMOD上使用不同对应提取网络的评估 。 通过用本文的小型网络代替它们最初的基于RANSAC的后处理 , 本文评估了两个最先进的对应提取网络:SegDriven 和PVNet 。 在这两种情况下 , 本文的方法始终优于原始版本 。 在此 , 本文报告ADD-0.1d 。
在表2中 , 本文表明 , 单级网络的性能优于最新方法PoseCNN , Seg Driven和PVNet 。 图9提供了定性结果 。 在表3中 , 本文报告了输入图像分辨率为640×480的运行时 。 本文的方法也比其他方法更快 , 因为它消除了RANSAC迭代过程 。
本文插图
表2:与Occluded-LINEMOD的技术水平的比较 。 本文将结果与PoseCNN , SegDriven和PVNet的ADD-0.1d和REP-5px进行了比较 。 本文的方法执行最新技术 , 尤其是在ADD-0.1d中 。
本文插图
表3:比较速度 。 本文比较了PoseCNN , SegDriven , PVNet的运行时间(以毫秒为单位)以及本文在现代GPU(GTX1080 Ti)上的运行时间 。 除了PoseCNN , 这些方法首先提取对应关系 , 然后将它们融合 。 使用与PVNet中相同的对应提取主干 , 由于本文的网络避免了基于RANSAC的融合的需要 , 因此本文的方法运行速度快了大约2倍 。
本文插图
图9:在Ocluded-LINEMOD上的定性结果 。 如前三栏所示 , 即使存在较大的遮挡 , 本文的方法也能得出准确的结果 。 最后一列显示了两种失败的情况 , 目标蛋盒被过多地堵塞 , 目标胶表现出微妙的对称模糊性 , 使得对应提取网络不容易建立稳定的对应 。 在这里 , 姿势可视为每个对象的3D网格的投影 。
3.2.2 YCB-Video 结果
表4总结了与PoseCNN, SegDriven 和PVNet 进行比较的结果 。 它表明本文的方法在该数据集上也始终优于其他方法 。 此外 , 请注意 , 它的运行速度比PoseCNN快10倍 , 也比SegDriven和PVNet快2倍 。
本文插图
【计算机视觉工坊单阶段6D对象姿势估计】
表4:与YCBVideo的最新技术比较 。 本文将结果与PoseCNN 、SegDriven 和PVNet 的ADD-0.1d和REP-5px进行了比较 。 本文用“-”表示原始PVNet论文中缺少的结果 。
3.3 限制
虽然本文的方法与最先进的对应提取网络结合使用时是准确且快速的 , 但根据对应关系估算姿势的网络仍不如传统的基于几何的PnP算法准确 当可以通过其他方式获得非常精确的对应关系时 , 如图6所示 。 此外 , 它不能解决通用的PnP问题 , 因为本文仅针对固定的3D坐标集对其进行了训练 。 对此进行改进将成为未来工作的重点 。
四、结论
本文为6D检测和姿态估计引入了一种单阶段方法 。 它的关键要素是一个小型网络 , 该网络接受候选3D到2D的对应关系并返回6D姿势 。 当与最先进的方法相结合来建立对应关系时 , 它可以通过允许端到端的培训并消除他们通常需要的一些RANSAC风格程序来提高性能 。 未来的工作将集中在使姿势估计网络更准确和更通用上 , 以便可以在更广泛的范围内使用它 。
- 数评时代 S7e开箱:高色域AMOLED屏与轻薄机身,视觉手感双提升,vivo
- 计算机视觉工坊 汇总|基于激光雷达的3D目标检测开源项目&数据集
- 计算机视觉工坊汇总|基于激光雷达的3D目标检测开源项目&数据集
- 亮哥说科技 你说了算原子随身听:打造专属于自己的音乐小世界交互池:让生活方式更加便捷行为壁纸:带来视觉上美的享受写在最后,VIVO自研OriginOS系统
- 北晚新视觉网 你会配合吗?网友:如实表述,2.9元买头绳收3元好评返现卡
- 成都西凡视觉|婚纱摄影|拍婚纱照选礼服攻略 婚纱照3套衣服怎么选
- 成都西凡视觉|婚纱摄影|拍婚纱照前准备事项 拍婚纱照要注意什么事项
- 成都西凡视觉|婚纱摄影|适合公布婚纱照发朋友圈的句子
- 视觉识尚|气质女神~江疏影黑色大衣+北欧风毛衣简约精致
- 智东西寒武纪MLU & 浪潮元脑联合专场上线,详解基于寒武纪MLU的视觉增强加速与应用|直播预告