计算机视觉工坊汇总|实时性语义分割算法(全)( 二 )


链接:https://arxiv.org/pdf/1811.11254v1.pdf

  1. 该文章提出了一种全新的架构——ShelfNet , 利用多个编码-解码结构对 来改善网络中的信息流动 。
  2. 同一个残差块的两个卷积层贡献权重 , 在不影响精度的条件下 , 减少参数量;
  3. 在多个Benckmark上得到验证
模型结构:
计算机视觉工坊汇总|实时性语义分割算法(全)
本文插图
ShelfNet可以看作是FCNs的集合 。 一些信息流路径的例子用不同的颜色标记 。 每个路径相当于一个FCN(除了在ResNet主干中有池化层) 。 与FCN集合的等价性使ShelfNet能够用一个小的神经网络来执行精确的分割 。
计算机视觉工坊汇总|实时性语义分割算法(全)
本文插图
【16】LadderNet:用于医学图像分割的基于U-NET的多路径网络
《LadderNet: MULTI-PATH NETWORKS BASED ON U-NET FOR MEDICAL IMAGE SEGMENTATION》
链接:https://arxiv.org/pdf/1810.07810.pdf
模型结构:
计算机视觉工坊汇总|实时性语义分割算法(全)
本文插图
1、3是编码器分支 , 2、4是解码器分支 , A-E是不同级的特征 。 整个模型没有使用池化层 , 用的是一个步长为2的卷积层代替 , 通道数在编码器部分逐级翻倍 。
可以看出这是两个U-Net相连 , 有两个U形(12, 34) , 而这两个U形之间的A-D级采用跳接连接起来 。 U-Net网络是 , 跳接用的是融合 , 也就是通道数相加 , 但是这里用的直接求和的模式(要求通道数必须一样) 。
但增加更多的encoder-decoder分支会导致参数增加 , 训练变得困难 , 所以作者又采用了Shared-weights residual block(参数共享残差块) , 如下图所示 。
计算机视觉工坊汇总|实时性语义分割算法(全)
本文插图
【17】ShuffleSeg实时语义分割网络
《SHUFFLESEG: REAL-TIME SEMANTIC SEGMENTATION NETWORK》
链接:https://arxiv.org/pdf/1803.03816.pdf
嗯 。。。 这篇文章没深刻说的 哈哈
该架构将分成两个主要模块进行解释:负责提取特征的编码模块 , 负责在网络中进行上采样以计算最终类别的概率图的解码模块 。
计算机视觉工坊汇总|实时性语义分割算法(全)
本文插图
1)基于ShuffleNet (Shufflenet: An extremely efficient convolutional neural network for mobile devices) 提出的分割网络
2)编码器使用ShuffleNet 单元 , 解码器综合了 UNet、FCN8s 和 Dilation Frontend 的结构;速度快 , 没有什么创新 。。。。
【18】RTSeg:实时语义分割比较研究
《RTSeg: REAL-TIME SEMANTIC SEGMENTATION COMPARATIVE STUDY》
链接:https://arxiv.org/pdf/1803.02758.pdf
提供特征提取和解码方法 , 称为元架构;
给出了计算精度和计算效率之间的权衡;
Shufflenet比segment减少了143x gflops;
模型结构:
计算机视觉工坊汇总|实时性语义分割算法(全)
本文插图

计算机视觉工坊汇总|实时性语义分割算法(全)
本文插图
使用空洞卷积代替下采样的feature map , 空洞卷积确保网络维持足够的感受野而不需要通过pooling和stride conv来破坏像素结构;
Meta-Architectures
1)SkipNet meta-architecture;
2)U-Net meta-architecture;
3)Dilation Frontend meta-architecture;