人像抠图满足不了研究者了，这个研究专门给动物抠图，毛发分明

选自arXiv
作者：Jizhizi Li、Dacheng Tao等
机器之心编译编辑：魔王
相比于人像抠图，长相各异、浑身毛茸茸的动物似乎难度更大。 IEEE 会士 Jizhizi Li、陶大程等人开发了一个专门处理动物抠图的端到端抠图技术 GFM 。
在这个图像和视频逐渐成为主流媒介的时代，大家早已对「抠图」习以为常，说不定还看过几部通过「抠图」拍摄的电视剧呢。然而，相比于人像抠图，长相各异、浑身毛茸茸的动物似乎难度更大。
那么，是否有专用于动物的抠图技术呢？IEEE 会士 Jizhizi Li、陶大程等人就开发了一个专门处理动物抠图的端到端抠图技术。

本文插图
动物的外观和毛皮特征给现有的方法带来了挑战，这些方法通常要求额外的用户输入（如 trimap）。
为了解决这些问题，陶大程等人研究了语义和抠图细节，将任务分解为两个并行的子任务：高级语义分割和低级细节抠图。具体而言，该研究提出了新型方法——Glance and Focus Matting network (GFM) ，使用共享编码器和两个单独的解码器以协作的方式学习两项子任务，完成端到端动物图像抠图。
研究人员还创建了一个新型动物抠图数据集 AM-2k ，它包含 20 个类别的 2000 张高分辨率自然动物图像，并且具备手动标注的前景蒙版。
此外，该研究通过对前景和背景图像之间的不同差异进行综合分析，来研究合成图像和自然图像之间的领域差距（domain gap）问题。研究人员发现，其精心设计的合成流程 RSSN 能够降低差异，带来更好的、泛化能力更强的模型。在 AM-2k 数据集上的实验表明， GFM 超过当前最优方法，并且有效降低了泛化误差。
动物图像抠图方法 GFM
在给动物图像抠图时，人类首先会浏览一下图像，快速识别出大致的前景或背景区域，然后聚焦于过渡区域，将动物细节与背景区分开来。这可以大致形式化为分割阶段和抠图阶段。注意，这两个阶段可能会出现交叉，因为第二阶段的反馈信息可以纠正第一阶段错误的决策。
为了模仿人类经验，使抠图模型具备处理这两个阶段的能力，有必要将其合并进一个模型，并显式地建模二者之间的协作。因此，研究者提出了新型 GFM 网络，进行端到端的自然动物图像抠图，模型架构参见下图：

本文插图
【人像抠图满足不了研究者了，这个研究专门给动物抠图，毛发分明】
图 2：GFM 网络架构图示。它包含一个共享编码器和两个单独的解码器，解码器分别负责图像分割和细节抠图。
新型图像合成流程 RSSN
为自然图像标注前景蒙版费时费力且成本高昂，常见的操作是基于一些前景图像和成对前景蒙版生成大规模合成图像。
目前常见的蒙版合成流程是通过蒙版混合（alpha blending）将一个前景粘贴至不同的背景。但由于前景图像和背景图像通常采样自不同的分布，合成图像会出现大量合成伪影，从而导致合成图像和自然图像之间出现较大的领域差距。合成伪影可能会被模型误以为是 cheap feature ，从而导致在合成图像上过拟合，在自然图上出现较大的泛化误差。
该研究系统地分析了引起合成伪影的因素：分辨率差异、语义模糊、锐度差异和噪声差异，并提出了解决方案——一套新的合成流程 RSSN 和大规模高分辨率背景数据集 BG-20k 。
RSSN 的整体流程如下所示：

本文插图
下图对比了不同合成图像方法，其中 c 和 d 使用的背景图像来自 BG-20k 数据集：