韭菜花音乐|业界首个!大规模多相机通用物品场景数据集MessyTable( 二 )


各种算法在MessyTable上的表现如何?
答:我们测试了多种算法基线(见表2) 。 单应性投影(Homographicprojection)并不意外地表现很差 , 因为其关键的物体都在同一平面的假设在复杂场景中不成立;基于SIFT关键点提取的传统方法效果也不好 , 因为无纹理的物体上关键点极少;基于深度学习的Patch-Matching的方法如MatchNet、Deep-Compare及DeepDesc效果一般 , 而基于Triplet结构的基线表现有较大幅度的提升 , 但也受限于无法区分相似相同的物体;表2:各算法基线在MessyTable上的表现显示结合外观信息、周围信息、几何信息的算法取得最好的效果我们发现除了外观信息 , 周围信息非常重要 。 因此我们提出将检测框之外的信息包括进来 。 我们将这个操作称之为Zoom-out 。 但是我们发现直接在Triplet网络上加上Zoom-out效果不好 , 于是我们观察人类的行为:一个人只有当物体本身的特征信息不足时 , 才会从周边寻求线索 。 因此 , 我们提出ASNet(图7) , 它有外观特征分支和周围特征分支 , 并使用一个lambda系数来平衡两个分支(公式1) 。 当物体的外观信息相似时 , Lambda的设计(公式2)使网络分配更大的权重给周围信息分支 。 图7:Appearance-SurroundingNetwork(ASNet)ASNet显著地提升了关联的表现 。 图8的特征图的可视化显示了ASNet学会了从实例周围获取线索 , 而直接使用Zoom-out仍然专注于实例本身 。 图8:直接使用Zoom-out仍然专注于实例本身(只在中心存在一个高响应区域) , 但ASNet学会了从实例周围获取线索(在实例周围仍有多个高响应区域)我们同时还发现在ASNet的基础上增加一个基于对极几何的软约束可以继续提升表现 , 证明几何信息是和外观信息、周围信息相得益彰的 。 6
多相机关联还没有解决的问题和下一步的研究方向有什么?
答:需要指出的是 , 尽管同时使用了外观信息、周围信息和特征信息 , 目前的算法在复杂场景和大相机角度差的情况下表现仍不尽人意 。 在图9中 , 我们比较了四个较强算法在不同相机角度差的情况的表现 , 发现三个衡量指标都在相机角度差变大的情况下迅速变差 。 图9:相机角度差越大 , 关联的表现越差;衡量指标:a)AP;b)FPR-95;c)IPAA-80在表3中 , 我们测试了模型在三个难度的子数据集上的表现 。 越难的子集有的遮挡、相同的物体、更少的出现在共享视野的物体 , 因此模型的表现也更差 。 表3:场景越困难 , 关联的表现较差更多的失败例子(图10)包括当相同的物体被摆放在一起或者堆叠起来 , 造成相似的周围信息以及几何软约束的惩罚 。 图10:更多的失败例子以上的这些目前算法的不足给我们提出了三个重要的研究方向:1)如何提取更强的外观、周围以及几何信息?2)如果更好地融合这些信息?3)有没有其它信息我们可以利用?7
我可以怎么使用MessyTable?
答:MessyTable有两个主要的作用:作为一个高指向性的基线和作为一个实例关联的预训练源 。 对于前者 , 在MessyTable上表现更好的算法 , 在其它多相机数据集上也有更好的表现;对于后者 , 在MessyTable上预训练的模型在其它数据集上的表现比在ImageNet上预训练的表现更好 。 值得注意的是 , 我们测试的其它三个数据集甚至包括车辆、行人等与MessyTable中的通用物品差别较大的类别 。 详见表4 。 表4:MessyTable可以作为一个高指向性的基线和作为一个实例关联的预训练源结语:我们希望MessyTable在实例关联这个领域中促进新颖算法的研究以及发掘新的问题 。 更多的细节请见我们的项目主页 。 阅读原文 , 直达“ECCV”小组 , 了解更多会议信息!
阅读原文