计算机视觉工坊汇总|实时性语义分割算法(全)


_本文原题:汇总|实时性语义分割算法(全)
作者:Danny明泽来源:微信公众号|计算机视觉工坊(系投稿)
我们在上篇——汇总|实时性语义分割算法(上篇)中 , 已经总结了【1】~【12】 , 这里我们继续 。
【13】用于实时语义分割的双向分割网络
《BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation》
链接:https://arxiv.org/pdf/1808.00897.pdf
本文的出发点是因为以往的工作中的1.感受野太小 2.空间信息的损失
关于空间信息
空间信息(Spatial information)主要指的是图像的局部细节信息 , 尤其是对于边缘丰富的图像 。 由于卷积网络规模大 , 一般要求输入图像尺寸较小 , 需要对原始图像进行Crop或者Resize , 这个过程会损失细节的空间信息 。 通过设置只包含3个网络的Spacial Path , 可保留丰富的空间信息 , 进而将低纬度的空间细节信息与高纬度的信息整合 。
网络框架:
计算机视觉工坊汇总|实时性语义分割算法(全)
本文插图
右边为特征融合模块(FFM):
Spatial Path 捕获的空间信息编码了绝大多数的丰富细节信息 , Context Path 的输出特征主要编码语境信息 。 两路网络的特征并不相同 , 因此不能简单地加权两种特征 , 要用一个独特的特征融合模块以融合这些特征 。
实验结果:
计算机视觉工坊汇总|实时性语义分割算法(全)
本文插图
【14】用于实时语义分割的轻量级精细网
《Light-Weight RefineNet for Real-Time Semantic Segmentation》
链接:https://arxiv.org/pdf/1810.03272v1.pdf
论文提出了RefineNet 的轻量化版本Light-Weight RefineNet, 针对实时分割任务 , 将速度从20FPS提升到了55FPS(GPU , 512*512输入 , Mean IOU 81.1% , PASCAL VOC测试集) 。
网络结构:
计算机视觉工坊汇总|实时性语义分割算法(全)
本文插图

计算机视觉工坊汇总|实时性语义分割算法(全)
本文插图
计算机视觉工坊汇总|实时性语义分割算法(全)
本文插图
RefineNet 的总体网络结构 , 分为下采样的encoder部分和上采样的decoder部分 。 网络主要包含4个模块 , RCU , CRP , FUSION , CLF 。 为了轻量化该网络 , 分别使用RCU-LW , CRP-LW 。
FUSION-LW替换了原始网络的RCU , CRP , FUSION 。 通过后续的实验作者又发现RCU对于网络的精度提升效果微弱 , 因此将RCU模块也去掉了 。
为什么去掉RCU模块 , 网络精度影响很小?
因为:
(1)虽然RCU模块中的3*3卷积使得网络具有更大的感受野 , 但是通过shortcut结构 , 底层特征和高层特征也可以共享 。
(2)CRP模块也可以获得上下文的信息 。
可以从下图看出 , RCU模块对精度提升微弱 , 而CRP模块对精度提升明显 。
计算机视觉工坊汇总|实时性语义分割算法(全)
本文插图
模型参数比较:
计算机视觉工坊汇总|实时性语义分割算法(全)
本文插图
基于ResNet101的基础结构的RefineNet , 第一个为传统的RefineNet , 第二个为带RCU的RefineNet , 第三个为不带RCU的RefineNet 。 可见RefineNet-101-LW相比RefineNet-101将参数量和运算量都大大降低 。
【15】ShelfNet用于实时语义分割
《ShelfNet for Real-time Semantic Segmentation》