实时语义分割的城市场景小物体扩增( 四 ) 摘要：语义分割是自动驾驶场

文章插图
图 5：本文的模型与 Camvid 上的 SegNet 之间的定性比较
文章插图
表 4：CAMVID 和合成 CAMVID（SCA）数据集的实验
C. 关于合成 Cityscapes 数据集上的实验
为了验证本文的 SC 数据集的有效性，本文首先在 OC 上训练了 NDNet45-FCN8-LF ，然后在三个 SC 数据集上进行了训练：SC1 ， SC2 和 SC3 。结果列于表 5 。最后两列显示整体性能和小物体的性能。以下列出了三个重要的观察结果：
1）通过将训练集从 OC 切换到本文的 SC1 ， NDNet45-FCN8-LF 的整体分割精度（mIoU）从 64.6％提高到 66.4％，小物体的性能从 50.4％提高到 52.6％。定性结果如图 7 所示。定性和定量结果均验证了本文 SC 的有效性。
2）尽管通过将训练集从 OC 更改为 SC2 ，本文仍然在小物体上获得了较大的性能提升（2.5％），但总体性能提升很小（0.3％）。这主要是因为过度粘贴的小物体会降低其他物体（例如公共汽车和火车）的相对比例。
3）在 SC3 上的培训在 SC1 上显示了相似的结果，再次证明了本文的数据扩增策略的有效性。
结合本文在 NDNet45-FCN8-LF 上进行的实验，可以得出结论，通过使用较少的粘贴小物体，本文可以在小物体的性能和总体性能之间取得更好的平衡。该实验表明，本文的小物体增强不仅适用于实时分割方法，还适用于高质量的分割方法。
文章插图
表 5：NDNET45-FCN8-LF 在不同训练集上的性能
D. 效率分析
如表 6 所示，在所有比较方法中，本文的方法的 FLOP 最少。在高分辨率（1024×2048）图像上，本文的方法的 FLOP 分别是 ENet ， ERFNet 和 IcNet 的 4.14、25.57 和 7.35 倍。
文章插图
表 6：本文的方法与最新方法之间的效率比较
E. 与最先进方法的比较
最后，本文在 Cityscapes 测试集中评估了本文的方法，以将其与高质量和实时方法进行比较。表 7 显示了比较结果。除以 640×360 分辨率报告 FLOP 的高质量方法外，所有 FLOP 的计算均以表第二栏中列出的分辨率为准。
本文的方法在准确性和效率上都优于早期的基于 VGG 的分割方法。尽管最先进的方法可以实现 80％或更高的分割精度，但由于效率低，它们不适合实时应用。此外，最新方法的分割精度还受益于其他训练数据。由于实际应用通常基于计算资源有限的嵌入式系统，因此，当适应嵌入式系统时， Titan X GPU 上当前实现的大多数推理速度将急剧下降。因此，效率仍然是基于实时深度学习的分割的主要因素。与实时方法 ENet ， ShuffleSeg 和 ESPNetV2 相比，本文的方法比 mIoU 分别提高了 3.3、3.3 和 6.9 个百分点， FLOP 分别减少了 4.1 倍， 2.1 倍和 1.7 倍。本文的方法在准确性和效率上均优于 CGNet 。尽管 ERFNet（68.0％mIoU）， BiSeNet（68.4％mIoU）和 IcNet（69.5％mIoU）的准确度比本文的（65.7％mIoU）更好，但本文的方法所需的 FLOP 却比这三种减少了 6.9 倍， 1.8 倍和 7.3 倍。此外，本文的综合数据集可用于进一步改善这些方法的性能。本文在图 6 中显示了本文的方法与最新方法之间的定性比较。可以看出，本文的模型可以通过这两种高质量方法获得可比的性能。
文章插图
表 7：CITYSCAPES 测试集的比较
文章插图
图 6：NDNet45-FCN8-LF 与高质量方法之间的定性比较
5. 总结本文提出了一种基于深度方向可分离卷积的轻量级残差架构。本文使用拟议的轻量残差层提出了一个实时语义分割模型 NDNet45-FCN8-LF 。本文的细分模型在带有 8.4G FLOP 的 Cityscapes 验证集上实现了 64.6％mIoU 。为了提高对小物体的分割性能，本文提出了一种用于小物体扩增的剪切粘贴策略。本文将此策略应用于 Cityscapes 并生成了一个综合数据集。通过使用合成 Cityscapes 进行训练，本文模型的整体性能和小物体上的性能分别提高了 1.8％和 2.2％mIoU 。此外，本文的实验表明，合成数据集可用于提高诸如 PSPNet 和 DeepLabV3 之类的高质量语义分割方法的性能。最终，本文通过 8.4G FLOP 在 Cityscapes 测试仪上实现了 65.7％的 mIoU ，其准确性或效率均超过了现有的最新技术水平。