港大提出OneNet: 一阶段端到端的目标检测网络

原标题:港大提出OneNet:一阶段端到端的目标检测网络
作者:孙培泽
本文介绍一下我们最近的工作:OneNet:TowardsEnd-to-EndOne-StageObjectDetection 。 现有的one-stagedetectors的labelassign , 都只用到了位置信息(location) , 如boxIoU(e.g.,YOLO,RetinaNet),pointdistance(e.g.,FCOS,CenterNet) 。 但是目标检测是分类(classification)和定位(location)的联合任务 , 只考虑位置信息的labelassign和网络的优化目标存在着非常大的misalignment , 导致冗余的高分检测框 , 从而需要NMS后处理 。
本文提出了OneNet , 首次实现了end-to-enddensedetectorwithoutNMS 。 OneNet的样本匹配策略是MinimumCostAssign:cost定义为样本与gt的分类距离(classificationcost)和位置距离(locationcost)之和;正样本是所有样本中和gt的cost最小的样本 , 其他都是负样本 。 我们发现 , classificationcost是去除NMS的关键;没有classificationcost会导致冗余的高分检测框 , 从而需要NMS后处理 。 OneNet在标准的COCObenchmark上达到了37.7AP/50FPS , 35.0AP/80FPS 。

港大提出OneNet: 一阶段端到端的目标检测网络
文章图片
https://arxiv.org/abs/2012.05780
代码链接:
https://github.com/PeizeSun/OneNet
一、简介
现有的end-to-end的目标检测模型都是two-stage或者multiple-stage(如:DETR , DeformableDETR , SparseR-CNN) 。 这些模型的检测性能很好 , 但是由于各种复杂layer的存在而不容易部署 , 但one-stage在工业应用中有着更大的潜力 。 我们提出了OneNet:end-to-endone-stageobjectdetector 。

港大提出OneNet: 一阶段端到端的目标检测网络
文章图片
图1不同的样本匹配策略
OneNet的优势是:
整个网络是全卷积的 , 没有各种非常规的layer(比如GN , RoI-Align , DynamicConv) 。 无需Non-MaximumSuppression(NMS)后处理或者self-attention模块 。 样本匹配策略是简单的MinimumCost , 无需启发式规则或者复杂的最优二分匹配 。cost定义为样本与gt的classificationcost和locationcost之和 。
我们发现 , classificationcost是实现end-to-end的关键 。 而回顾之前的densedetector样本匹配策略 , 都是只有locationcost , 如boxIoU(e.g.,YOLO,RetinaNet) , pointdistance(e.g.,FCOS,CenterNet) 。 只有locationcost的样本匹配策略会导致冗余的高分检测框(图4) , 从而需要NMS后处理去除这些冗余框 。
二、OneNet
输入图片(H×W×3) , backbone产生featuremap(H/4×W/4×C) , head预测分类(H/4×W/4×K)和回归(H/4×W/4×4) , 最后的输出直接取top-k高分框 。

港大提出OneNet: 一阶段端到端的目标检测网络
文章图片
图2OneNetpipeline
Backbone:Backbone是先bottom-up再top-down的结构 。 其中 , bottom-up结构是resnet , top-down结构是FPN 。 我们实现了两种FPN , 一种是上采样中引入deformableconv , 为了追求较高检测精度;一种是普通conv , 方便工业部署 。
Head:Head是两个并行的conv , 分类conv预测类别 , 回归conv预测到物体框的4个边界的距离 。
Output:直接取top-k高分框 , 没有NMS , 也没有类似CenterNet中max-pooling的操作 。
样本匹配策略:OneNet的样本匹配策略是一种基于minimumcost的异常简单的方法 , 没有启发式规则 , 也没有最优二分匹配 。 cost定义为样本与gt的classificationcost和locationcost之和 , 具体定义是:

港大提出OneNet: 一阶段端到端的目标检测网络
文章图片
其中 , 是分类focalloss , 和是预测框和gt框归一化后的l1loss和giouloss 。 λ是系数 。
对每个gt , 正样本是和gt的cost最小的样本 , 其他都是负样本 。 伪代码如下:
#Ciscostmatrix,shapeof(nr_sample,nr_gt)
C=cost_class+cost_l1+cost_giou
#Minimumcost, src_indisindexofpositivesample
_, src_ind=torch.min(C,dim=0)
tgt_ind=torch.arange(nr_gt)
三、实验
图3给出了只考虑locationcost和综合考虑locationcost+classificationcost的正样本 。 只考虑locationcost时 , 正样本是离物体框中心最近的样本点 。 这样的正样本有利于定位 , 但是对分类并不友好 , 如:第一个case的人体姿态导致正样本点落在人体边缘 , 这并不是较优的选择 。

港大提出OneNet: 一阶段端到端的目标检测网络
文章图片
图3onlylocationcost(1strow)和locationcost+classificationcost(2ndrow)的正样本 。 实际正样本是一个点 , 图中被高亮圈突出 , 以便更好的可视化 。
综合考虑locationcost+classificationcost的正样本 , 一般落在物体的更具辨别性的区域 , 如:人体内部 , 斑马头部 。 这样的正样本有利于分类 , 同时对定位也较为友好(毕竟正样本点依然在物体框内部) 。