NeurIPS 2020 | 基于细粒度动态网络的图像物体检测器：NeurIPS2020|基于细粒度动态

原标题：NeurIPS2020|基于细粒度动态网络的图像物体检测器
作者：西安交通大学人工智能学院二年级博士生宋林
NeurIPS2020文章专题
第·13·期
近年来，动态网络被广泛地探索并应用于图像分类任务中。动态网络可以在推断阶段，根据输入自适应地改变网络的连接方式。使得网络可以在相似的计算复杂度下获得更多的模型容量，从而达到高效率和高特征表达的并存。
本文是西安交通大学人工智能学院联合香港中文大学、中国科学院自动化研究所发表于NeurIPS2020的一项工作。本工作第一次将动态网络引入到目标检测任务中，并设计了基于细粒度动态网络的FPNhead和新型的门控函数，从而实现了根据每个目标中不同的子区域（sub-regions）的特性分配不同FPN层级的特征；同时利用空间稀疏卷积，在达到更高检测性能的同时，显著地降低了计算复杂度。

文章图片
https://arxiv.org/abs/2012.03519
代码链接：
【NeurIPS 2020 | 基于细粒度动态网络的图像物体检测器】https://github.com/StevenGrove/DynamicHead
一、传统特征融合方式
回顾目标检测的发展历史，众多多尺度特征聚合的方法被提出。这些方法一般可以分为两大类。第一大类是基于人工设计的网络结构域，如图1中特征金字塔网络，其使用手工设计的流水线。另一大类是基于网络结构搜索（NAS），如图2中Auto-FPN ，在预定义的搜索空间中，自动地搜索特征级的连接形式。如图3 ，上述方法以静态或固定的网络结构，推断不同的目标实例。这种方式导致它们只能对每个目标实例进行粗粒度的特征级融合，忽略了实例中不同子区域的特异属性。

文章图片
图1：手工设计的特征金字塔网络

文章图片
图2：网络结构搜索的特征融合网络

文章图片
图3：传统方法采用粗粒度的特征级的聚合方式，忽略了目标内部不同区域间的区别
二、细粒度动态特征融合方式
因此，在这项工作中，我们引入了细粒度的动态路由机制来设计一个新的特征融合方式。如图4所示，与传统方式不同，本文提出的网络可以有条件地从多个FPN阶段中选择像素级子区域的组合，从而增强单个目标的特征表达能力。

文章图片
图4：本文提出的网络示意图，图中只展示了一个FPN尺度下聚合过程
图5是本文提出的细粒度动态网络的总体架构。蓝色圆圈表示细粒度动态路由器，使用数据相关的空间门控，有条件地选择子区域进行连接。虚线箭头表示一个预定义的网络，用于变换所选子区域的特征。也就是说，根据输入子区域的不同，网络连接将发生改变。所以,提出的动态网络可以有更多的参数容量，并保持较低的计算复杂度。

文章图片
图5：本文提出的动态网络架构图
为了实现该效果，如图6所示，我们使用空间稀疏卷积代替传统网络中的常规卷积，减少了空间上的计算量。此外，如下式所示，我们提出了一个新的门控激活函数，以实现完全端到端训练。

文章图片
图6：子模块结构图
三、实验结果
为了验证该方法的有效性，我们将该方法应用于FCOS检测框架。如图7所示，与固定结构相比，本文的动态网络以较少的计算复杂度获得了持续的性能提升。

文章图片
图7：采用提出动态网络在FCOS+ResNet-50下COCOval的性能效率图
此外，表1中给出了在SOTA的检测器上的实验。在计算复杂度相近的情况下，动态网络可以容纳更多的模型容量，并取得了显著的性能提升。

文章图片
表1：采用提出动态网络在各类框架下COCOval的性能效率表
//
作者简介
宋林，西安交通大学人工智能学院二年级博士生，导师为孙剑和孙宏滨。他目前的研究兴趣是通用物体检测、图像分割和视频行为识别与检测。