类别|如何用PyTorch进行语义分割？一个教程教会你分割|数据集|归一化|语义|教程

木易发自凹非寺
来源量子位
很久没给大家带来教程资源啦。
正值PyTorch 1.7更新，那么我们这次便给大家带来一个PyTorch简单实用的教程资源：用PyTorch进行语义分割。

文章插图
△图源：stanford
该教程是基于2020年ECCV Vipriors Chalange Start Code实现了语义分割，并且添加了一些技巧。
友情提示：教程中的所有文件均可以在文末的开源地址获取。
预设置
在开始训练之前，得首先设置一下库、数据集等。
库准备
下载数据集
教程使用的是来自Cityscapes的数据集MiniCity Dataset。

文章插图
数据集的简单数据分析
将各基准类别进行输入：

文章插图
之后，便从0-18计数，对各类别进行像素标记：

文章插图
使用deeplab v3进行基线测试，结果发现次要类别的IoU特别低，这样会导致难以跟背景进行区分。
如下图中所示的墙、栅栏、公共汽车、火车等。

文章插图
分析结论：数据集存在严重的类别不平衡问题。
训练基准模型
使用来自torchvision的DeepLabV3进行训练。
硬件为4个RTX 2080 Ti GPU (11GB x 4)，如果只有1个GPU或较小的GPU内存，请使用较小的批处理大小（< = 8）。
损失函数
有3种损失函数可供选择，分别是：交叉熵损失函数（Cross-Entropy Loss）、类别加权交叉熵损失函数（Class-Weighted Cross Entropy Loss）和焦点损失函数（Focal Loss）。
交叉熵损失函数，常用在大多数语义分割场景，但它有一个明显的缺点，那就是对于只用分割前景和背景的时候，当前景像素的数量远远小于背景像素的数量时，模型严重偏向背景，导致效果不好。
类别加权交叉熵损失函数是在交叉熵损失函数的基础上为每一个类别添加了一个权重参数，使其在样本数量不均衡的情况下可以获得更好的效果。
焦点损失函数则更进一步，用来解决难易样本数量不平衡。
归一化层
有4种归一化方法：BN（Batch Normalization）、IN（Instance Normalization）、GN（Group Normalization）和EvoNorm（Evolving Normalization）。

文章插图
BN是在batch上，对N、H、W做归一化，而保留通道 C 的维度。BN对较小的batch size效果不好。
IN在图像像素上，对H、W做归一化，用在风格化迁移。
GN将通道分组，然后再做归一化。
EvoNorm则是4月份由谷歌和DeepMind 联合发布的一项新技术。实验证明，EvoNorms 在多个图像分类模型上效果显著，而且还能很好地迁移到 Mask R-CNN 模型和 BigGAN。
数据增强
2种数据增强技术：CutMix、Copy Blob。
CutMix
将一部分区域cut掉但不填充0像素，而是随机填充训练集中的其他数据的区域像素值，分类结果按一定的比例分配。

文章插图
而在这里，则是在原有CutMix的基础上，引入了语义分割。
Copy Blob
在 Blob 存储的基础上构建，并通过Copy的方式增强了性能。

文章插图
另外，如果要解决前面所提到的类别不平衡问题，则可以使用视觉归纳优先的CopyBlob进行增强。
推理
训练结束后，对训练完成的模型进行评估。
多尺度推断
使用[0.5，0.75，1.0，1.25，1.5，1.75，2.0，2.2]进行多尺度推理。另外，使用H-Flip，同时必须使用单一批次。
使用验证集计算度量
计算指标并将结果保存到results.txt中。
最终结果

文章插图
如果使用了更大的模型或者更大的网络结构，性能可能会有所提高。
另外，如果使用了各种集成模型，性能也会有所提高。
资源地址：
【 类别|如何用PyTorch进行语义分割？一个教程教会你】https://github.com/hoya012/semantic-segmentation-tutorial-pytorch