汇总|实时性语义分割算法(全)

作者:明泽Danny
来源:公众号|计算机视觉工坊(系投稿)
我们在上篇—汇总|实时性语义分割算法 中 , 已经总结了【1】~【12】 , 这里我们继续 。
【13】用于实时语义分割的双向分割网络
《BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation》
链接:
本文的出发点是因为以往的工作中的1.感受野太小 2.空间信息的损失
关于空间信息
空间信息(Spatial information)主要指的是图像的局部细节信息 , 尤其是对于边缘丰富的图像 。 由于卷积网络规模大 , 一般要求输入图像尺寸较小 , 需要对原始图像进行Crop或者Resize , 这个过程会损失细节的空间信息 。 通过设置只包含3个网络的Spacial Path , 可保留丰富的空间信息 , 进而将低纬度的空间细节信息与高纬度的信息整合 。
网络框架:
汇总|实时性语义分割算法(全)文章插图
右边为特征融合模块(FFM):
Spatial Path 捕获的空间信息编码了绝大多数的丰富细节信息 , Context Path 的输出特征主要编码语境信息 。 两路网络的特征并不相同 , 因此不能简单地加权两种特征 , 要用一个独特的特征融合模块以融合这些特征 。
实验结果:
汇总|实时性语义分割算法(全)文章插图
【14】用于实时语义分割的轻量级精细网
《Light-Weight RefineNet for Real-Time Semantic Segmentation》
链接:
论文提出了RefineNet 的轻量化版本Light-Weight RefineNet, 针对实时分割任务 , 将速度从20FPS提升到了55FPS(GPU , 512*512输入 , Mean IOU 81.1% , PASCAL VOC测试集) 。
网络结构:
汇总|实时性语义分割算法(全)文章插图
汇总|实时性语义分割算法(全)文章插图
汇总|实时性语义分割算法(全)文章插图
RefineNet 的总体网络结构 , 分为下采样的encoder部分和上采样的decoder部分 。 网络主要包含4个模块 , RCU , CRP , FUSION , CLF 。 为了轻量化该网络 , 分别使用RCU-LW , CRP-LW 。
FUSION-LW替换了原始网络的RCU , CRP , FUSION 。 通过后续的实验作者又发现RCU对于网络的精度提升效果微弱 , 因此将RCU模块也去掉了 。
为什么去掉RCU模块 , 网络精度影响很小?
因为:
(1)虽然RCU模块中的3*3卷积使得网络具有更大的感受野 , 但是通过shortcut结构 , 底层特征和高层特征也可以共享 。
(2)CRP模块也可以获得上下文的信息 。
可以从下图看出 , RCU模块对精度提升微弱 , 而CRP模块对精度提升明显 。
汇总|实时性语义分割算法(全)文章插图
模型参数比较:
汇总|实时性语义分割算法(全)文章插图
基于ResNet101的基础结构的RefineNet , 第一个为传统的RefineNet , 第二个为带RCU的RefineNet , 第三个为不带RCU的RefineNet 。 可见RefineNet-101-LW相比RefineNet-101将参数量和运算量都大大降低 。
【15】ShelfNet用于实时语义分割
《ShelfNet for Real-time Semantic Segmentation》
链接:

  1. 该文章提出了一种全新的架构——ShelfNet , 利用多个编码-解码结构对 来改善网络中的信息流动 。
  2. 同一个残差块的两个卷积层贡献权重 , 在不影响精度的条件下 , 减少参数量;
  3. 在多个Benckmark上得到验证
模型结构:
汇总|实时性语义分割算法(全)文章插图
ShelfNet可以看作是FCNs的集合 。 一些信息流路径的例子用不同的颜色标记 。 每个路径相当于一个FCN(除了在ResNet主干中有池化层) 。 与FCN集合的等价性使ShelfNet能够用一个小的神经网络来执行精确的分割 。
汇总|实时性语义分割算法(全)文章插图
【16】LadderNet:用于医学图像分割的基于U-NET的多路径网络
《LadderNet: MULTI-PATH NETWORKS BASED ON U-NET FOR MEDICAL IMAGE SEGMENTATION》
链接:
模型结构:
汇总|实时性语义分割算法(全)文章插图
1、3是编码器分支 , 2、4是解码器分支 , A-E是不同级的特征 。 整个模型没有使用池化层 , 用的是一个步长为2的卷积层代替 , 通道数在编码器部分逐级翻倍 。
可以看出这是两个U-Net相连 , 有两个U形(12, 34) , 而这两个U形之间的A-D级采用跳接连接起来 。 U-Net网络是 , 跳接用的是融合 , 也就是通道数相加 , 但是这里用的直接求和的模式(要求通道数必须一样) 。