科技小辛辛|这篇CVPR华人论文帮你搞定,手残党福音:一键抠图、隔空移物( 二 )


预测模块是一个类U-Net的密集监督式编码器-解码器网络 , 它学习预测出自输入图像的显著图;多尺度残差精炼模块通过学习显著图和真值之间的残差来优化预测模块得到的显著图 。
科技小辛辛|这篇CVPR华人论文帮你搞定,手残党福音:一键抠图、隔空移物
文章图片
BASNet整体架构 。
预测模块
受U-Net[57]和SegNet[2]的启发 , 研究者在设计中将显著目标预测模块作为编码器-解码器网络 , 因为这种架构能够同时捕获高级全局上下文和低级细节 。 为了减少过拟合 , 每个解码器阶段的最后一层都受到了HED[67]启发的真值的监督 。 编码器部分具有一个输入卷积层和六个由基本残差块组成的阶段 。 输入卷积层和前四个阶段均采用ResNet-34[16] 。
优化模块
优化模块(RM)[22,6]通常被设计成残差块 , 通过学习显著图和真值之间的残差S_residual来细化预测的粗略显著图S_coarse , 其中:
在提出优化模块之前 , 研究者定义了术语「粗略(coarse)」 。 在此 , 粗略包含两方面的意思:一种是模糊和有噪声的边界(如下图3(b)中one-dimension(1D)所示) 。 另一种情况是不均匀预测的区域概率(如图3(c)所示) 。
实际预测的粗略显著图通常包含两种情况(见图3(d)) 。 如下图4(a)所示 , 基于局部上下文的残差细化模块(RRMLC)最初是用于边界优化 。
科技小辛辛|这篇CVPR华人论文帮你搞定,手残党福音:一键抠图、隔空移物
文章图片
为了在粗略显著图中同时优化区域和边界 , 研究者提出了一种新的残差优化模块 , 它采用残差编码器-解码器架构RRM_Ours(如上图2和下图4(c)所示) 。
RRM_Ours的主要架构与预测模块相似 , 但更加简单 , 包含输入层、编码器、桥、解码器和输出层 。 与预测模块不同的是 , 它的编码器和解码器都有4个阶段 , 每个阶段都只有一个卷积层 。
科技小辛辛|这篇CVPR华人论文帮你搞定,手残党福音:一键抠图、隔空移物
文章图片
混合损失
训练损失被定义为所有输出的总和:
为了获得高质区域分割和清晰边界 , 研究者提出将?^(k)定义为一个混合损失:
科技小辛辛|这篇CVPR华人论文帮你搞定,手残党福音:一键抠图、隔空移物
文章图片
其中 , ?^(k)_bce表示BCE损失 , ?^(k)_ssim表示SSIM损失 , ?^(k)_iou表示IoU损失 , 这三种损失的影响如下图5所示:
科技小辛辛|这篇CVPR华人论文帮你搞定,手残党福音:一键抠图、隔空移物
文章图片
实验设置及结果
研究者在6个常用的基准数据集上对该方法展开评估 , 它们分别为SOD、ECSSD、DUT-OMRON、PASCAL-S、HKU-IS和DUTS 。
实验采用的评估指标有4种 , 分别为精确率-召回率(Rrecision-Recall,PR)曲线、F度量(F-measure)、平均绝对误差(MeanAbsoluteError,MAE)和relaxedF-measureofboundary(relaxF^b_β) 。
研究者首先验证了模型中每个关键组件的有效性 。 控制变量研究包含两部分内容:架构和损失 , 并且相关实验在ECSSD数据集上展开 。
下表1展示了控制变量研究的结果 。 可以看到 , BASNet架构在这些配置下实现了最佳性能:
科技小辛辛|这篇CVPR华人论文帮你搞定,手残党福音:一键抠图、隔空移物
文章图片
为了进一步阐释损失的定性效果 , 研究者在不同的损失设置下对BASNet进行训练 , 结果如下图7所示 。 很明显 , 本研究提出的混合损失取得了非常好的定性结果 。
科技小辛辛|这篇CVPR华人论文帮你搞定,手残党福音:一键抠图、隔空移物
文章图片
此外 , 为了评估分割显著性目标(salientobject)的质量 , 研究者在图6中展示了ECSSD、DUT-OMRON、PASCAL-S、HKU-IS和DUTS-TE等5个最大数据集的PR曲线和F-measure曲线 。