韭菜花音乐|业界首个！大规模多相机通用物品场景数据集MessyTable 商汤、南洋理工AI科技评论昨天作者|商

商汤、南洋理工AI科技评论昨天

文章图片
作者|商汤、南洋理工大学编辑|陈大鑫众所周知巧妇难为无米之炊，在如今深度学习大行其道的时代，一个数量大、质量好的数据集犹如一块璞玉，就等着算法去雕刻。今天介绍的就是来自商汤与新加坡南洋理工大学联合制作的大规模多相机通用物品场景数据集MessyTable ， MessyTable包括5500+手工设计的场景，共计5万多张图片和120万个密集标注的检测框，其对应论文已被ECCV2020接收。针对现实生活中多相机系统应用的难点，如相似相同的物品、密集遮挡、大角度差等问题，我们设计了大量真实、有趣又极富挑战的场景：围绕着混乱的餐桌（MessyTable）部署了多个视角的相机，其任务是关联不同相机视角中的实例。看似简单任务却要求算法能够分辨细微的外观差别、从邻近的区域获取线索以及巧妙地使用几何约束等。我们同时提出了利用多相机场景下周围信息的新算法。我们希望MessyTable不仅可以作为极富挑战的基线为后续研究指明方向，也可以作为高度真实的预训练源为算法落地开辟道路。
MessyTable

文章图片
图1：MessyTable中的一个场景示例（只可视化了4个视角中的5个物体）本文我们以7次问答的方式总结了我们的工作：
问题1：MessyTable与现有的ReID和跟踪有什么关系？
问题2：MessyTable有哪些挑战？
问题3：MessyTable的规模有多大？
问题4：MessyTable有哪些设计上的考量？
问题5：各种算法在MessyTable上的表现如何？
问题6：多相机关联还没有解决的问题和下一步的研究方向有什么?
问题7：我可以怎么使用MessyTable？
1
MessyTable与现有的ReID和跟踪有什么关系？
答：
【韭菜花音乐|业界首个！大规模多相机通用物品场景数据集MessyTable】ReID和跟踪本质上都可以理解为实例的关联，往往需要利用外观信息等。 MessyTable虽然主要是为了多相机场景中实例的关联的研究，但是它包含的分辨细微的外观差别、密集遮挡、大角度差等挑战都是和其它实例关联共通的。我们希望MessyTable在服务多相机这个特定场景之外，成为一个实例关联任务通用的数据集，成为新算法的测试场。
2
MessyTable有哪些挑战？
答：
主要的挑战有：
1、相机之间有大角度差，实例的外观在不同视角中差别很大（如图1的InstanceID为5的罐头）；
2、部分（图2a）甚至完全（图2b）遮挡，为依靠外观信息的关联算法增加了困难；
3、相似（图2c）或相同（图2d）的物体，因此仅仅使用类似传统ReID的基于外观的算法是不足够的；
4、物体的堆叠（图2e/f）贴近现实生活中的混乱程度，使用传统的单应性矩阵投影等方法无法解决。
图2：MessyTable中的各种挑战：a）部分遮挡；b）完全遮挡；c）相似物体；d）相同物体；e）和f）复杂的堆叠3
MessyTable的规模有多大？
答：我们在表1中与其它类似的多相机数据集的规模的对比。 MessyTable包括5500+手工设计的场景，共计5万多张图片和120万个密集标注的检测框，每个检测框都有一个InstanceID（同一个物体在不同视角下的InstanceID相同）。表1：MessyTable与类似多相机数据集的规模对比4
MessyTable有哪些设计上的考量？
答：我们主要有三个设计：场景难度等级、多相机的设置以及通用物品的选择。场景难度等级：我们将MessyTable的场景设计为三个难度等级。越困难的场景中有更多的遮挡、相似相同的物体以及更多物体处于共享视野之外。详见图3 。图3：a）三个难度等级的场景示例；b）更难场景有更多的实例；c）更难场景有更少的实例出现在共享视野；d）更难场景有更多相同物体的实例多相机的设置：为了研究相机相对角度对关联表现的影响，我们设置了9个相机以及567个不同的相机部署方案，产生了2万多对相对相机位置。详见图4 。图4：a）相机在空间中的均匀分布（投影至1号相机）；b）采集中的相机布置；c）相对相机角度的分布有极大的多样性通用物品的选择：我们挑选了120种餐桌上常见的物体：60种超市商品、23种果蔬、13种面点以及24种餐具，包括多种大小、颜色、纹理和材料。在图5中我们统计了这些物体的出现频率，在图6中我们罗列了完整的物体清单。图5：120种物体的出现频率图6：全物体清单5