港大提出OneNet: 一阶段端到端的目标检测网络：港大提出OneNet:一阶段端到端

原标题：港大提出OneNet:一阶段端到端的目标检测网络
作者：孙培泽
本文介绍一下我们最近的工作：OneNet:TowardsEnd-to-EndOne-StageObjectDetection 。现有的one-stagedetectors的labelassign ，都只用到了位置信息(location) ，如boxIoU(e.g.,YOLO,RetinaNet),pointdistance(e.g.,FCOS,CenterNet) 。但是目标检测是分类(classification)和定位(location)的联合任务，只考虑位置信息的labelassign和网络的优化目标存在着非常大的misalignment ，导致冗余的高分检测框，从而需要NMS后处理。
本文提出了OneNet ，首次实现了end-to-enddensedetectorwithoutNMS 。 OneNet的样本匹配策略是MinimumCostAssign:cost定义为样本与gt的分类距离(classificationcost)和位置距离(locationcost)之和;正样本是所有样本中和gt的cost最小的样本，其他都是负样本。我们发现， classificationcost是去除NMS的关键；没有classificationcost会导致冗余的高分检测框，从而需要NMS后处理。 OneNet在标准的COCObenchmark上达到了37.7AP/50FPS ， 35.0AP/80FPS 。

文章图片
https://arxiv.org/abs/2012.05780
代码链接：
https://github.com/PeizeSun/OneNet
一、简介
现有的end-to-end的目标检测模型都是two-stage或者multiple-stage(如:DETR ， DeformableDETR ， SparseR-CNN) 。这些模型的检测性能很好，但是由于各种复杂layer的存在而不容易部署，但one-stage在工业应用中有着更大的潜力。我们提出了OneNet:end-to-endone-stageobjectdetector 。

文章图片
图1不同的样本匹配策略
OneNet的优势是：
整个网络是全卷积的，没有各种非常规的layer(比如GN ， RoI-Align ， DynamicConv) 。无需Non-MaximumSuppression(NMS)后处理或者self-attention模块。样本匹配策略是简单的MinimumCost ，无需启发式规则或者复杂的最优二分匹配。cost定义为样本与gt的classificationcost和locationcost之和。
我们发现， classificationcost是实现end-to-end的关键。而回顾之前的densedetector样本匹配策略，都是只有locationcost ，如boxIoU(e.g.,YOLO,RetinaNet) ， pointdistance(e.g.,FCOS,CenterNet) 。只有locationcost的样本匹配策略会导致冗余的高分检测框(图4) ，从而需要NMS后处理去除这些冗余框。
二、OneNet
输入图片(H×W×3) ， backbone产生featuremap(H/4×W/4×C) ， head预测分类(H/4×W/4×K)和回归(H/4×W/4×4) ，最后的输出直接取top-k高分框。

文章图片
图2OneNetpipeline
Backbone:Backbone是先bottom-up再top-down的结构。其中， bottom-up结构是resnet ， top-down结构是FPN 。我们实现了两种FPN ，一种是上采样中引入deformableconv ，为了追求较高检测精度；一种是普通conv ，方便工业部署。
Head:Head是两个并行的conv ，分类conv预测类别，回归conv预测到物体框的4个边界的距离。
Output:直接取top-k高分框，没有NMS ，也没有类似CenterNet中max-pooling的操作。
样本匹配策略：OneNet的样本匹配策略是一种基于minimumcost的异常简单的方法，没有启发式规则，也没有最优二分匹配。 cost定义为样本与gt的classificationcost和locationcost之和，具体定义是：

文章图片
其中，是分类focalloss ，和是预测框和gt框归一化后的l1loss和giouloss 。 λ是系数。
对每个gt ，正样本是和gt的cost最小的样本，其他都是负样本。伪代码如下：
#Ciscostmatrix,shapeof(nr_sample,nr_gt)
C=cost_class+cost_l1+cost_giou
#Minimumcost, src_indisindexofpositivesample
_, src_ind=torch.min(C,dim=0)
tgt_ind=torch.arange(nr_gt)
三、实验
图3给出了只考虑locationcost和综合考虑locationcost+classificationcost的正样本。只考虑locationcost时，正样本是离物体框中心最近的样本点。这样的正样本有利于定位，但是对分类并不友好，如：第一个case的人体姿态导致正样本点落在人体边缘，这并不是较优的选择。

文章图片
图3onlylocationcost(1strow)和locationcost+classificationcost(2ndrow)的正样本。实际正样本是一个点，图中被高亮圈突出，以便更好的可视化。
综合考虑locationcost+classificationcost的正样本，一般落在物体的更具辨别性的区域，如：人体内部，斑马头部。这样的正样本有利于分类，同时对定位也较为友好（毕竟正样本点依然在物体框内部）。