PANet：YOLOv4中的路径聚合网络作者：MiracleR编译：ronghuaiyan

作者：Miracle R
编译：ronghuaiyang
导读
非常简单高效的特征金字塔模块。
文章插图
是最重要的计算机视觉过程之一，它将图像分割成更小的、多个片段，这样的话，目标的表示和进一步的分析就变得简单。这个过程有各种各样的应用，从在医学图像定位肿瘤和发展机器视觉中的生物测量识别的目标检测。图像分割过程主要分为两个部分：Semantic segmentation和Instance segmentation 。
语义分割是指将图像中的像素分类为有意义的目标类别，如天空、道路或公共汽车。
实例分割包括以像素级识别、分类和定位图像中出现的各种实例(对象) ，并要求保留图像中出现的最精细的特征。它是目标检测过程中最复杂的任务之一。过去， Mask R-CNN是最常用的实例分割技术。单阶段目标测器技术YOLO3使用了特征金字塔。在YOLO的最近的一个版本YOLOv4中，使用了一种新的方法来分割实例，称为Path Aggregation Network或PANet或简称为PAN 。让我们更详细地了解一下这项技术。
PANet:PANet位在于YOLOv4模型的neck ，主要通过保留空间信息来增强实例分割过程。
文章插图
PANet的性质YOLOv4中选择PANet进行实例分割的原因是它能够准确地保存空间信息，有助于正确定位像素点，形成mask 。
文章插图
使PANet如此准确的特性有：
1. 从底到上的路径增强
文章插图
当图像经过神经网络的各个层时，特征的复杂度增加，同时图像的空间分辨率降低。因此，像素级mask无法通过高层次的特征准确的识别。
YOLOv3中使用的FPN使用自顶向下的路径来提取语义丰富的特征并将其与精确的定位信息结合起来。但对于为大目标生成mask ，这种方法可能会导致路径过于冗长，因为空间信息可能需要传播到数百个层。
另一方面， PANet使用另一条自底向上的路径，而FPN采用的自顶向下的路径。通过使用从底层到顶层的横向连接，这有助于缩短路径。这就是所谓的**“shortcut”**连接，它只有大约10层。
2. 自适应特征池化
文章插图
以前使用的技术，如Mask-RCNN使用单一阶段的特征来做mask预测。如果感兴趣区域较大，则使用ROI Align Pooling从较高层次提取特征。虽然相当准确，但这仍然可能导致不希望的结果，因为有时两个proposals只有10像素的差异，但是分配到了两个不同的层，而实际上它们是非常相似的proposals 。
为了避免这种情况， PANet使用来自所有层的特征，并让网络决定哪些是有用的。对每个特征图进行ROI对齐操作，提取目标的特征。接下来是元素级的最大融合操作，以使网络适配新的特征。
3. 全连接融合
文章插图
在Mask-RCNN中，使用FCN来代替全连接层，因为它保留了空间信息，减少了网络中的参数数量。然而，由于所有空间位置的参数都是共享的，模型实际上并没有学会如何使用像素位置来进行预测，默认情况下，它会在图像的顶部显示天空，在底部显示道路。
另一方面，全连接层是位置敏感的，可以适应不同的空间位置。
PANet使用来自这两层的信息来提供更准确的mask预测。
为YOLOv4做的修改PANet通常使用自适应特征池化将相邻的层相加到一起进行mask预测。但是，在YOLOv4中使用PANet时，这种方法做了点修改，例如，不是相加相邻的层，而是对它们应用一个拼接操作，以提高预测的准确性。
文章插图
性能分析使用ResNet-50骨干，使用多尺度图像进行训练， PANet超过了Mask-RCNN和2016年冠军，并且在2017年COCO实例分割挑战中也获得了冠军，在不需要大batch训练的目标检测任务中排名第二。
文章插图
在Cityscapes数据集上，它的表现也一直优于Mask-RCNN 。经过COCO的预训练，该模型能够比Mask-RCNN高出4.4个百分点。
文章插图