计算机视觉工坊汇总|实时性语义分割算法（全）( 四 )

本文插图
使用stride 2卷积后的max-pooling来减少空间问题，这样就减少了超参数的数量和运行时。显然，这是为了分割精度的权衡，但对于检测、分类等其他任务则不是这样。考虑到该编码器是功能独立的，需要在解码器方面通过广泛学习语义特征来克服空间信息探索的差距。

本文插图
非瓶颈层的设计如下图所示。它同时包含1D和3D卷积核。一维核主要一次从一个方向提取信息，三维核主要从较大的接受区域收集特征。之后通过不同大小的多个kernel来寻找密集的信息，例如3×3, 5×5和1×1 。接下来，融合使用不同内核提取的特征。该方法有助于总结从不同接受区域收集到的语义特征。合成的特征再一次与输入特征融合到同一个非瓶颈层。在所提出的非瓶颈层中，多个跳转连接到特征融合块，这有助于处理高梯度流，因为在反向传播时，传入的梯度分布在所有路径中。

本文插图
我们知道解码器做得更宽，运行时间会大幅提高。因此，定期减少特征图的数量是负担不起的，也超出了模型的预算。
【22】DSNet:用于实时驾驶场景的语义分割
《DSNet: DSNet for Real-Time Driving Scene Semantic Segmentation》
链接：https://arxiv.org/pdf/1812.07049v1.pdf
DSNet是一种高效且强大的单元和非对称的编解码器架构。采用混合扩张卷积方案来克服网格化问题。
DSNet详细结构如下表：

本文插图
【计算机视觉工坊汇总|实时性语义分割算法（全）】
参考ShuffleNet V2总结了轻量框架指导准则如下：
准则1:等信道宽度最小化内存访问成本（MAC）
准则2:过多的组卷积增加MAC
准则3:网络碎片化降低并行度
准则4:Element-wise操作不可忽略
DSNet单元模块：

本文插图
采用ENet的初始单元，使用最大池和步长2的卷积对输入进行下采样。深度可分卷积替换为扩张型卷积，以扩大接收域，这对语义分割至关重要。
【23】Fast-SCNN：快速语义分割网络
《Fast-SCNN: Fast Semantic Segmentation Network》
链接：https://arxiv.org/pdf/1902.04502.pdf
我们知道在语义分割中较大的接受野对于学习目标类之间的复杂关联(即全局上下文)很重要，图像中的空间细节对于保持目标边界是必要的，需要特定的设计来平衡速度和准确性(而不是重新定位分类DCNNs) 。
模型框架：

本文插图
two-branch 网络，它在低分辨率位置使用一个较深的 branch 来捕捉环境信息，在高分辨率位置使用一个较浅的 branch 来学习细节信息。然后，将这二者融合起来，形成最终的语义分割结果。
本文的主要贡献：
1）提出了一个实时语义分割算法 Fast-SCNN ，在高清图像上准确率为68% ，速度为123.5帧每秒；
2）调整了 skip connection ，提出了一个浅层的 learning to downsample 模块，可以快速而高效地通过 multi-branch 来提取低层次特征；
3）设计了low capacity Fast-SCNN ，对于small capacity网络而言，多训练几个 epoch的效果和在ImageNet上进行预训练是一样的。