这5种计算机视觉技术,刷新你的世界观( 四 )


与其他计算机视觉任务一样,CNN在分割问题上取得了巨大成功 。其中一种流行的初始方法是通过滑动窗口进行补丁分类,其中每个像素使用其周围的图像分别分为类 。然而,这在计算上是非常低效的,因为我们不重用重叠补丁之间的共享特征 。
相反,解决方案是加州大学伯克利分校的全卷积网络(FCN),它推广了端到端的CNN架构,用于密集预测而无需任何全连接层 。这允许为任何大小的图像生成分割图,并且与补丁分类方法相比也快得多 。几乎所有后续的语义分割方法都采用了这种范式 。

这5种计算机视觉技术,刷新你的世界观

文章插图
然而,仍然存在一个问题:原始图像分辨率下的卷积将非常昂贵 。为了解决这个问题,FCN在网络内部使用下采样和上采样 。下采样层称为条纹卷积,而上采样层称为反卷积 。
尽管采用了上采样/下采样层,但由于在池化期间信息丢失,FCN会生成粗分割图 。SegNet 是一种比使用最大池化和编码 - 解码器框架的FCN更高效的内存架构 。在SegNet中,从更高分辨率的特征映射引入快捷/跳跃连接,以改善上采样/下采样的粗糙度 。
这5种计算机视觉技术,刷新你的世界观

文章插图
最近的语义分割研究在很大程度上依赖于全卷积网络,例如扩张卷积,DeepLab和RefineNet 。
5--实例分割
这5种计算机视觉技术,刷新你的世界观

文章插图
除了语义分割之外,实例分割将不同类的实例分段,例如用5种不同颜色标记5辆汽车 。在分类中,通常有一个图像,其中一个目标作为焦点,任务是说这个图像是什么 。但是为了分割实例,我们需要执行更复杂的任务 。我们看到复杂的景点有多个重叠的物体和不同的背景,我们不仅要对这些不同的物体进行分类,还要确定它们之间的界限,差异和关系!
这5种计算机视觉技术,刷新你的世界观

文章插图
到目前为止,我们已经看到了如何以许多有趣的方式使用CNN特征来有效地定位带有边界框的图像中的不同目标 。我们可以扩展这些技术来定位每个目标的精确像素而不仅仅是边界框吗?使用称为Mask R-CNN的架构在Facebook AI上探索该实例分割问题 。
就像Fast R-CNN和Faster R-CNN一样,Mask R-CNN的潜在原理很简单 。鉴于 Faster R-CNN在目标检测中运行得非常好,我们是否可以扩展它以进行像素级分割?
Mask R-CNN通过向 Faster R-CNN添加分支来完成此操作,该分支输出二进制掩码,该掩码表示给定像素是否是目标的一部分 。该分支是基于CNN的特征图之上的全卷积网络 。给定CNN特征图作为输入,网络在像素属于目标的用1s在所有位置输出矩阵,在其他地方输出0(这称为二进制掩码) 。
这5种计算机视觉技术,刷新你的世界观

文章插图
另外,当在原始Faster R-CNN架构上运行而没有修改时,由RoIPool(感兴趣区域池化)选择的特征图的区域与原始图像的区域略微不对准 。由于图像分割需要像素级特异性,与边界框不同,这自然会导致不准确 。Mask R-CNN通过使用称为RoIAlign(感兴趣区域对齐)的方法调整RoIPool以更精确地对齐来解决此问题 。从本质上讲,RoIAlign使用双线性插值来避免舍入误差,从而导致检测和分割不准确 。
一旦生成了这些掩模,Mask R-CNN将它们与来自Faster R-CNN的分类和边界框组合在一起,以生成如此精确的分割:
这5种计算机视觉技术,刷新你的世界观

文章插图
结论
【这5种计算机视觉技术,刷新你的世界观】这5种主要的计算机视觉技术可以帮助计算机从一个或一系列图像中提取,分析和理解有用的信息 。我还没有谈到许多其他先进技术,包括样式转移,着色,动作识别,3D对象,人体姿势估计等 。事实上,计算机视觉领域的成本太高而无法深入探讨,我鼓励您进一步探索,无论是通过在线课程,博客教程还是正式文档 。对于初学者,我强烈推荐CS231n课程,因为您将学习如何实现,训练和调试自己的神经网络 。作为奖励,您可以从我的GitHub存储库获取所有演讲幻灯片和作业指南 。我希望它能指导你改变对世界的看法!