实时语义分割的城市场景小物体扩增( 四 )


实时语义分割的城市场景小物体扩增文章插图
图 5:本文的模型与 Camvid 上的 SegNet 之间的定性比较
实时语义分割的城市场景小物体扩增文章插图
表 4:CAMVID 和合成 CAMVID(SCA)数据集的实验
C. 关于合成 Cityscapes 数据集上的实验
为了验证本文的 SC 数据集的有效性 , 本文首先在 OC 上训练了 NDNet45-FCN8-LF , 然后在三个 SC 数据集上进行了训练:SC1 , SC2 和 SC3 。 结果列于表 5 。 最后两列显示整体性能和小物体的性能 。 以下列出了三个重要的观察结果:
1)通过将训练集从 OC 切换到本文的 SC1 , NDNet45-FCN8-LF 的整体分割精度(mIoU)从 64.6%提高到 66.4% , 小物体的性能从 50.4%提高到 52.6% 。 定性结果如图 7 所示 。 定性和定量结果均验证了本文 SC 的有效性 。
2)尽管通过将训练集从 OC 更改为 SC2 , 本文仍然在小物体上获得了较大的性能提升(2.5%) , 但总体性能提升很小(0.3%) 。 这主要是因为过度粘贴的小物体会降低其他物体(例如公共汽车和火车)的相对比例 。
3)在 SC3 上的培训在 SC1 上显示了相似的结果 , 再次证明了本文的数据扩增策略的有效性 。
结合本文在 NDNet45-FCN8-LF 上进行的实验 , 可以得出结论 , 通过使用较少的粘贴小物体 , 本文可以在小物体的性能和总体性能之间取得更好的平衡 。 该实验表明 , 本文的小物体增强不仅适用于实时分割方法 , 还适用于高质量的分割方法 。
实时语义分割的城市场景小物体扩增文章插图
表 5:NDNET45-FCN8-LF 在不同训练集上的性能
D. 效率分析
如表 6 所示 , 在所有比较方法中 , 本文的方法的 FLOP 最少 。 在高分辨率(1024×2048)图像上 , 本文的方法的 FLOP 分别是 ENet , ERFNet 和 IcNet 的 4.14、25.57 和 7.35 倍 。
实时语义分割的城市场景小物体扩增文章插图
表 6:本文的方法与最新方法之间的效率比较
E. 与最先进方法的比较
最后 , 本文在 Cityscapes 测试集中评估了本文的方法 , 以将其与高质量和实时方法进行比较 。 表 7 显示了比较结果 。 除以 640×360 分辨率报告 FLOP 的高质量方法外 , 所有 FLOP 的计算均以表第二栏中列出的分辨率为准 。
本文的方法在准确性和效率上都优于早期的基于 VGG 的分割方法 。 尽管最先进的方法可以实现 80%或更高的分割精度 , 但由于效率低 , 它们不适合实时应用 。 此外 , 最新方法的分割精度还受益于其他训练数据 。 由于实际应用通常基于计算资源有限的嵌入式系统 , 因此 , 当适应嵌入式系统时 , Titan X GPU 上当前实现的大多数推理速度将急剧下降 。 因此 , 效率仍然是基于实时深度学习的分割的主要因素 。 与实时方法 ENet , ShuffleSeg 和 ESPNetV2 相比 , 本文的方法比 mIoU 分别提高了 3.3、3.3 和 6.9 个百分点 , FLOP 分别减少了 4.1 倍 , 2.1 倍和 1.7 倍 。本文的方法在准确性和效率上均优于 CGNet 。尽管 ERFNet(68.0%mIoU) , BiSeNet(68.4%mIoU)和 IcNet(69.5%mIoU)的准确度比本文的(65.7%mIoU)更好 , 但本文的方法所需的 FLOP 却比这三种减少了 6.9 倍 , 1.8 倍和 7.3 倍 。 此外 , 本文的综合数据集可用于进一步改善这些方法的性能 。 本文在图 6 中显示了本文的方法与最新方法之间的定性比较 。 可以看出 , 本文的模型可以通过这两种高质量方法获得可比的性能 。
实时语义分割的城市场景小物体扩增文章插图
表 7:CITYSCAPES 测试集的比较
实时语义分割的城市场景小物体扩增文章插图
图 6:NDNet45-FCN8-LF 与高质量方法之间的定性比较
5. 总结本文提出了一种基于深度方向可分离卷积的轻量级残差架构 。 本文使用拟议的轻量残差层提出了一个实时语义分割模型 NDNet45-FCN8-LF 。 本文的细分模型在带有 8.4G FLOP 的 Cityscapes 验证集上实现了 64.6%mIoU 。 为了提高对小物体的分割性能 , 本文提出了一种用于小物体扩增的剪切粘贴策略 。 本文将此策略应用于 Cityscapes 并生成了一个综合数据集 。 通过使用合成 Cityscapes 进行训练 , 本文模型的整体性能和小物体上的性能分别提高了 1.8%和 2.2%mIoU 。 此外 , 本文的实验表明 , 合成数据集可用于提高诸如 PSPNet 和 DeepLabV3 之类的高质量语义分割方法的性能 。 最终 , 本文通过 8.4G FLOP 在 Cityscapes 测试仪上实现了 65.7%的 mIoU , 其准确性或效率均超过了现有的最新技术水平 。