科技俱乐部菌 图像也能做情感迁移?罗切斯特大学团队提出计算机视觉新任务

机器之心报道
编辑:魔王
图像风格迁移?语音情感迁移?不 , 是图像情感迁移 。
计算机视觉领域中有很多任务 , 如目标检测、图像转换、风格迁移等 , 但你听说过「图像情感迁移」吗?
罗切斯特大学罗杰波教授团队提出了这项研究任务[1] 。 与其他计算机视觉任务相比 , 图像情感迁移更有挑战性 , 需要对图像中的每个物体进行不同的情感迁移 。 该研究提出一种灵活有效的物体级图像情感迁移框架和新模型SentiGAN , 实验证明该框架可以有效执行物体级图像情感迁移 。
什么是图像情感迁移?
图像情感迁移是一个待探索的新型研究任务 。 与图像转换、图像风格迁移和面部表情迁移任务相比 , 图像情感迁移关注更高级更抽象的对图像整体外观和感觉的修改 , 而不改变其场景内容 。 如图1a所示 , 将浑浊的海水变得清澈并给海鸟着色后 , 原本传递中性或消极情感的图像变得积极温暖 , 而图像中的内容并未被更改 。
与图像转换和图像风格迁移相比 , 该研究认为图像情感迁移更具挑战性 。 其中一个难点在于对不同类别的物体进行情感迁移时需要使用不同的规则 。 这有别于风格迁移 , 后者可以将一种绘画风格统一添加给图像中的所有物体 。 如图1所示 , 要让输入图像具备积极情感 , 应把海水迁移成清澈的蓝色 , 海鸟迁移成彩色的 。 这两种操作不是基于同一张参考图像 , 否则就会像图1b和1c那样不真实 。
科技俱乐部菌 图像也能做情感迁移?罗切斯特大学团队提出计算机视觉新任务
文章图片
解决方案
为了解决这一挑战 , 该研究提出了一种有效框架 , 可以在物体级别执行图像情感迁移 。 整个过程可分为两步:
1.给定一张输入图像 , 该框架利用图像描述生成模型和语义分割模型检测所有物体 , 找出其像素级掩码 。 结合使用两个模型的目的是 , 维护高质量的物体掩码 , 同时大幅扩大物体集的范围 。
2.对于输入图像中每一个检测出的物体 , 使用包含同样物体的参考图像进行情感迁移 。 该设计成功地解决了前述问题 , 并使框架保持强大的灵活性 , 例如用户可以给输入图像中的每一个物体赋予不同的情感 。 此外 , 它还可以使用户无需提供参考图像 , 直接输入想要赋予每一个检测出物体的情感词汇即可执行情感迁移(如对鸟输入「colorful」、对天空输入「sunny」、对山输入「magnificent」) 。 有了物体和情感词汇 , 系统就可以自动检索对应的参考图像 , 并执行情感迁移 。
该框架的整体性能由第二步决定 , 即目标级情感迁移 。 这里可以直接应用风格迁移模型 , 但是情感迁移任务需要迁移后的图像看起来自然 , 不需要局部模式(如纹理)的显式迁移 , 而这正是风格迁移模型的固有元素 。 因此 , 研究人员转而利用多模态图像转换模型 , 如MUNIT和DRIT 。 它们可以分离内容和风格信息 , 为输入图像保存更多基于内容的元素 。 只需要对这些双领域映射模型做简单的修改 , 就可以使其适用于情感迁移任务 , 而这并不会明显限制输入和迁移图像的域 。
但是 , 使用以上模型仍然存在缺陷 。 首先 , MUNIT和DRIT最初是为图像级变换任务设计的 , 它们在细粒度物体级迁移任务上表现不好 。 第二个问题与情感迁移的本质有关 。 相比于轮廓、纹理和绘画风格 , 图像情感更敏感 , 往往与基于颜色的元素有关 , 如对比度、饱和度、亮度和主色 。
理想情况下 , 我们希望模型能够将输入图像的这些元素完全迁移为参考图像 。 现有的多模态模型通常将视觉表示分解为内容码和风格码 。 迁移即通过自适应实例归一化(AdaIN) , 将参考图像/物体的风格码注入输入图像/物体的内容码 。 但是 , 如下图2所示 , 具备不同内容码的物体即使使用相同的风格码 , 得到的整体色彩分布仍然大不相同 。 这表明 , 现有模型无法充分将色彩信息和内容码分离开 , 因而导致不完全的颜色迁移 。