【爱与否科技】v4它来了:接棒者出现,速度效果双提升,YOLO( 二 )


用于检测器的BagofSpecials(BoS):Mish激活、SPP块、SAM块、PAN路径聚合块和DIoU-NMS 。
架构选择
该研究的目标是找出输入网络分辨率、卷积层数量、参数量(滤波器大小*滤波器*通道/组)和层输入数量(滤波器)四者之间的最优平衡 。
次要目标则是挑选能够增加感受野的额外块(additionalblock) , 以及针对不同级别的检测器从不同骨干层中挑选最佳的参数聚合方法 , 如FPN、PAN、ASFF和BiFPN网络 。
研究者在CSPDarknet53上添加了SPP块 , 因为它能够极大地增加感受野 , 分离出最显著的上下文特征 , 并且几乎没有降低网络运行速度 。 他们针对不同级别的检测器从不同骨干层中挑选PANet作为参数聚合方法 , 而放弃了YOLOv3中使用的FPN网络 。
最后 , 研究者选择了CSPDarknet53骨干网络、SPP额外模块、PANet路径聚合neck和YOLOv3(基于锚的)head作为YOLOv4的整体架构 。
BoF和BoS的选择
为了提升目标监测的训练效果 , CNN使用了以下方法:
激活函数:ReLU、leaky-ReLU、parametric-ReLU、ReLU6、SELU、Swish、Mish;
边界框回归损失(Boundingboxregressionloss):MSE、IoU、GIoU、CIoU、DIoU;
数据增强:CutOut、MixUp、CutMix;
正则化方法:DropOut,、DropPath、SpatialDropOut、DropBlock;
通过均值和方差的归一化网络激活函数:批归一化(BN)、跨GPU批归一化(CGBN或SyncBN)、滤波器响应归一化(FRN)、交叉迭代批归一化(CBN);
跳跃连接方式:残差连接、加权残差连接、多输入加权残差连接、Crossstage局部连接(CSP) 。
在训练激活函数时 , 因为PReLU和SELU更难训练 , ReLU6是专为量化网络设计的 , 所以从候选列表里删除了这几个函数 。
额外改进
为了使检测器更适合在单个GPU上进行训练 , 研究者还做出了以下额外的设计与改进:
提出新型数据增强方法Mosaic和自对抗训练(SAT);
在应用遗传算法时选择最优超参数;
修改现有方法 , 使新方法实现高效训练和检测——modifiedSAM、modifiedPAN和Crossmini-BatchNormalization(CmBN) 。
新型数据增强方法Mosaic混合了4张训练图像 , 而CutMix只混合了两张输入图像 , 具体如下图3所示:
【爱与否科技】v4它来了:接棒者出现,速度效果双提升,YOLO
文章图片
图3:Mosaic表示的一种新型数据增强方法 。
自对抗训练(SAT)也是一种新的数据增强方法 , 它包括两个阶段 。 第一个阶段中 , 神经网络更改原始图像;第二阶段中 , 训练神经网络以正常方式在修改后的图像上执行目标检测任务 。
CmBN是CBN的改进版 , 它仅收集单个批次内mini-batch之间的统计数据 。
【爱与否科技】v4它来了:接棒者出现,速度效果双提升,YOLO
文章图片
图4:CmBN图示 。
研究者还将SAM从空间注意力机制(spatial-wiseattention)修改为点注意力机制(point-wiseattention) , 并将PAN中的捷径连接替换为级联 , 如下图5、6所示:
【爱与否科技】v4它来了:接棒者出现,速度效果双提升,YOLO
文章图片
图5:ModifiedSAM 。
【爱与否科技】v4它来了:接棒者出现,速度效果双提升,YOLO
文章图片
图6:ModifiedPAN 。
实验结果
YOLOv4与其他SOTA目标检测器的对比结果如下图8所示 。 从图上可以看出 , YOLOv4位于帕累托最优曲线上 , 并在速度和准确性上都优于最快和最精准的检测器 。
【爱与否科技】v4它来了:接棒者出现,速度效果双提升,YOLO
文章图片
图8:不同目标检测器的速度和准确性对比结果 。