计算机视觉工坊汇总|实时性语义分割算法（全）( 三 )

【19】ContextNet:实时为语义分割探索上下文和细节
《ContextNet: Exploring Context and Detail for Semantic Segmentation in Real-time》
链接：https://arxiv.org/pdf/1805.04554.pdf
模型结构：

本文插图
ContextNet利用更深层的网络，增加的层数有助于学习更复杂和抽象的特征，从而提高准确性，但也增加了运行时间。聚合来自多个分辨率的上下文信息是有益的，结合了多个级别的信息以提高性能。
Depth-wise Convolution to Improve Run-time：
深度可分离卷积将标准卷积(Conv2d)分解为深度上的卷积(DWConv) ，也称为空间或通道上的卷积，然后是1×1的点卷积层。因此，跨通道和空间相关性的计算是独立的，这大大减少了参数的数量，导致更少的浮点运算和快速的执行时间。
ContextNet利用了DWConv ，输入下采样的子网使用了DWConv的瓶颈残差块。
Capturing Global and Local Context：
ContextNet有两个分支，一个是全分辨率(h×w) ，另一个是低分辨率(如h/4 w/4) ，输入图像高度h ，宽度w 。每个分支都有不同的职责；后者捕捉图像的全局上下文，前者为更高分辨率的分割提供细节信息。

为了快速提取特征，语义丰富的特征只从最低可能的分辨率提取；
局部上下文的特征通过一个非常浅的分支从全分辨率输入中分离出来，然后与低分辨率的结果相结合。

【20】CGNet：一个轻量级的上下文引导的语义分割网络
《CGNet: A Light-weight Context Guided Network for Semantic Segmentation》
链接：https://arxiv.org/pdf/1811.08201.pdf
该文分析了语义分割的内在特性，提出了学习局部特征和周围上下文的联合特征，并进一步改进全局上下文的联合特征的CG块。有效的利用 local feature, surrounding context and global context 。其中的CG块，在各个阶段有效地捕获上下文信息。 CGNet的主干是专门为提高分割精度而定制的，以减少参数的数量和节省内存占用。在相同数量的参数下，提出的CGNet显著优于现有的分割网络(如ENet和ESPNet) 。
模型结构：

本文插图
在CG block引入残差学习，两种方式：local residual learning (LRL) 和global residual learning (GRL) ，如下图所示：

本文插图
由CG block定义CGNet：较少的卷积层和较少的通道数，从而减少参数量。

本文插图

本文插图
个人观点：
1）CGNet进一步拓展了non-local的概念，从local,surrounding和global三个层次获取空间特征间的关联。
2）在CGNet的stage2和stage3都使用GC block ，区别于non-local中只有resnet部分stage和部分blcok之间引入non-local机制。
【21】用于自动驾驶的实时语义分割解码器的设计
《Design of Real-time Semantic Segmentation Decoder for Automated Driving》
链接：https://arxiv.org/pdf/1901.06580.pdf
本文是采用编码解码结构，编码器是独立的10层VGG 。