计算机视觉工坊汇总|实时性语义分割算法(全)( 五 )


之前的PSPNet 中的金字塔池化模块和DeepLab中的 atrous 空间金字塔池化(ASPP)用于 encode 和利用全局信息 。 与目标检测类似 , 速度是语义分割系统设计中的一个重要因素 。 基于FCN , SegNet 引入了一个联合 encoder-decoder 模型 , 是最早的高效率分割模型之一 。 延续SegNet , ENet 也设计了 encoder-decoder, 层数较少 , 降低计算成本 。 然后 , two-branch 和 multi-branch 系统出现了 。 ICNet, ContextNet, BiSeNet, GUN 通过一个较深的 branch 在低分辨率输入上学习全局信息 , 通过一个较浅的 branch 在高分辨率图像上学习细节信息 。 但是 , SOTA 的语义分割仍具挑战 , 通常需要高性能GPU 。 受 two-branch 启发 , Fast-SCNN 加入了一个共享的浅层网络来编码细节信息 , 在低分辨率输入上高效地学习全局信息 。
计算机视觉工坊汇总|实时性语义分割算法(全)
本文插图
详细网络如下表:
计算机视觉工坊汇总|实时性语义分割算法(全)
本文插图
【24】ShuffleNet V2:语义分割的一个有效解决方案:具有可分卷积
《An efficient solution for semantic segmentation: ShuffleNet V2 with atrous separ:able convolutions》
链接:https://arxiv.org/pdf/1902.07476v1.pdf
本文设计的4个出发点:

  1. 当通道宽度不相等时 , 内存访问成本(MAC)就会增加 , 因此通道宽度应该保持相等 。
  2. 在提升MAC时 , 应该避免过度使用组卷积 。
  3. 为了保持较高的并行度 , 应该避免网络碎片化 。
  4. 诸如ReLU、Add、AddBias等元素明智操作是不可忽略的 , 应该减少 。
本文贡献:
在语义分割任务上使用ShuffleNetV2、DPC编码器以及一个全新的解码模块实现了SOT的计算效率 , 在Cityscapes测试数据集上达到了70.33%的mIoU;
所提出的模型和实现完全兼容TensorFlow Lite , 能够在Android和iOS移动手机平台实时运行;
TensorFlow的网络实现以及训练模型都是开源的 。
模型结构:
计算机视觉工坊汇总|实时性语义分割算法(全)
本文插图
如上图所示 , 使用了ShufflenetV2框架来提取特征 , 然后接入DeepLabV3编码器 , 最后使用双线性缩放作为新的解码器来生成分割掩模 。 网络的设计与修改都是在ImageNet数据集上验证后作出的选择 。
特征提取之后使用DPC编码器 。 文章提供了两种不同架构的DPC , 一个是DPC基础模块 , 另一个是基于MobileNetV2的DPC模块 , 细节如下图所示:
计算机视觉工坊汇总|实时性语义分割算法(全)
本文插图
编码器输出之后会经过1×1卷积层降维 , 然后紧接着Dropout层、双线性缩放和最后的分类ArgMax 。 其中解码部分采用的简单的双线性缩放操作将特征图缩放到原图尺寸 。
模型详细结构如下表所示:
计算机视觉工坊汇总|实时性语义分割算法(全)
本文插图
本文仅做学术分享 , 如有侵权 , 请联系删文 。
下载1
在「计算机视觉工坊」公众号后台回复:深度学习 , 即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍 。
下载2
在「计算机视觉工坊」公众号后台回复:计算机视觉 , 即可下载计算机视觉相关17本pdf书籍 , 包含计算机视觉算法、Python视觉实战、Opencv3.0学习等 。
下载3
在「计算机视觉工坊」公众号后台回复:SLAM , 即可下载独家SLAM相关视频课程 , 包含视觉SLAM、激光SLAM精品课程 。