来自Google:DELG,统一全局和局部特征的实例识别研究

作者:Cam Askew and André Araujo
编译:ronghuaiyang
导读
本文介绍了Google AI在实例识别领域的最新进展DELG , 将全局和局部特征的提取统一到了一个模型中 。
论文:
代码:https://github.com/tensorflow/models/tree/master/research/delf
Instance-level recognition (ILR)是识别一个的特定实例的计算机视觉任务 , 而不仅仅是它所属的类别 。 例如下图中 , 我们希望得到的是“梵高的星空” , “巴黎的凯旋门”而不是“后印象派绘画”以及“拱门”这样的标签 。 实例识别问题存在于许多领域 , 如地标、艺术品、产品或商标 , 并且在视觉搜索应用、个人照片管理、购物等领域都有应用 。 在过去的几年中 , 谷歌对于ILR的研究贡献包括:Google Landmarks Dataset,Google Landmarks Dataset v2 (GLDv2)以及新的模型包括 DELF 和Detect-to-Retrieve 。
来自Google:DELG,统一全局和局部特征的实例识别研究文章插图
对于自艺术品、地标和产品 , 有三种类型的图像识别问题 , 分布具有不同级别的标签(基本、细粒度、实例) 。 在我们的工作中 , 我们关注于实例识别 。
在本文中 , 我们的重点是在ECCV ' 20上的Instance-Level Recognition研讨会上的一些结果 。 这个workshop的内容包括“DEep Local and Global features” (DELG) , 最先进的图像特征实例识别模型 , 并给出了DELG以及其他一些ILR技巧的开源代码 。 会中同时还提出了基于GLDv2的两个新的里程碑式挑战(关于识别和检索任务) , 以及扩展到其他领域的未来ILR挑战:艺术品识别商品品检索 。 研讨会的长期目标和挑战是通过统一来自不同领域的研究工作流程 , 促进ILR领域的进步 , 并推动该领域的最新进展 , 迄今为止 , 这些研究工作大多是用来解决单独的问题的 。
DELG:深度局部和全局特征有效的图像表示是解决实例识别问题的关键 。 通常需要两种类型的表示:全局和局部图像特征 。 全局特征概括了图像的全部内容 , 导致一种紧凑的表示 , 但舍弃了实例中比较独特的视觉元素的空间排列信息 。 另一方面 , 局部特征包括关于特定图像区域的描述和几何信息 , 它们在描绘同一物体的图像匹配时特别有用 。
目前 , 大多数依赖这两种特征的系统需要使用不同的模型分别利用它们 , 这会导致冗余计算 , 降低整体效率 。 为了解决这个问题 , 我们提出了DELG , 一个用于局部和全局图像特征的统一模型 。
DELG模型利用了一个全卷积神经网络 , 它有两个不同的头:一个用于全局特征 , 另一个用于局部特征 。 利用深度网络层的特征图进行聚合 , 得到全局特征 , 有效地总结了输入图像的显著特征 , 使模型对输入的细微变化具有更强的鲁棒性 。 局部特征分支利用中间特征图来检测重要的图像区域 , 在注意力模块的帮助下 , 产生描述符 , 通过让描述符具有可区分性的方式来表示相关的局部内容 。
来自Google:DELG,统一全局和局部特征的实例识别研究文章插图
我们提出的DELG模型(左) 。 全局特征可用于基于检索的系统的第一阶段 , 有效地选择最相似的图像(下) 。 然后利用局部特征对top-level的结果进行重新排序(右上) , 提高系统的精度 。
这种新颖的设计可以进行高效的推理 , 因为它可以在单一模型中提取全局和局部特征 。 第一次 , 我们证明了这样一个统一的模型可以端到端训练 , 并为实例识别任务提供最先进的结果 。 与以往的全局特征相比 , 该方法的平均平均精度比其他方法高7.5% , 在局部特征重排序阶段 , 基于delg的结果比之前的工作提高了7% 。 整体而言 , DELG在GLDv2识别任务上的平均准确率达到了61.2% , 除了2019 challenge中的两种方法外 , 超过了其他的所有方法 。 注意 , 2019 challenge中的所有方法都进行了复杂模型的集成 , 而我们的结果只使用一个单一的模型 。