科技达人说|英伟达开源「Imaginaire」:九大图像及视频合成方法( 二 )


论文地址:https://arxiv.org/abs/1703.00848
UNIT(Unsupervisedimage-to-imagetranslation)旨在通过使用来自单个域中边缘分布的图像来学习不同域中图像的联合分布 。 由于要达到给定的边缘分布需要一个联合分布的无限集 , 因此如果没有其他假设 , 就无法从边缘分布推断联合分布 。 为了解决这个问题 , 研究者提出了一个共享潜在空间的假设 , 并提出了一个基于耦合GAN的无监督图像到图像转换框架 。
MUNIT
无监督图像到图像转换是计算机视觉领域一个重要而富有挑战的问题:给定源域(sourcedomain)中的一张图像 , 需要在没有任何配对图像数据的情况下 , 学习出目标域(targetdomain)中其对应图像的条件分布 。 虽然条件分布是多模态的 , 但此前方法都引入了过于简化的假设 , 而将其作为一个确定性的一对一映射 , 因此无法在特定的源域图像中生成富有多样性的输出结果 。
项目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/munit
科技达人说|英伟达开源「Imaginaire」:九大图像及视频合成方法
文章图片
论文地址:https://arxiv.org/abs/1804.04732
在这篇论文中 , 康奈尔大学和英伟达的研究者提出了多模态无监督图像到图像转换MUNT框架 。 研究者假设 , 图像表征可以分解为一个具有域不变性(domain-invariant)的内容码(contentcode)和一个能刻画域特有性质的风格码(stylecode) 。 为了将图像转化到另一个域中 , 研究者将:1.原图像的内容码 , 2.从目标域中随机抽取的某个风格码进行重组 , 并分析了MUNT框架 , 并建立了相应的理论结果 。 大量实验表明 , 将MUNT与其他SOTA方法相比具备优越性 。 最后 , 通过引入一个风格图像(styleimage)样例 , 使用者可以利用MUNT来控制转化的输出风格 。
FUNIT
项目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/funit
科技达人说|英伟达开源「Imaginaire」:九大图像及视频合成方法
文章图片
论文地址:https://arxiv.org/abs/1905.01723
虽然此前无监督图像到图像转换算法在很多方面都非常成功 , 尤其是跨图像类别的复杂外观转换 , 但根据先验知识从新一类少量样本中进行泛化的能力依然无法做到 。 具体来说 , 如果模型需要在某些类别上执行图像转换 , 那么这些算法需要所有类别的大量图像作为训练集 。 也就是说 , 它们不支持few-shot泛化 。 总体而言有以下两方面的限制:
其一 , 这些方法通常需要在训练时看到目标类的大量图像;
其二 , 用于一个转换任务的训练模型在测试时无法应用于另一个转换任务 。
在这篇论文中 , 英伟达的研究者提出一种Few-shot无监督图像到图像转换(FUNIT)框架 。 该框架旨在学习一种新颖的图像到图像转换模型 , 从而利用目标类的少量图像将源类图像映射到目标类图像 。 也就是说 , 该模型在训练阶段从未看过目标类图像 , 却被要求在测试时生成一些目标类图像 。
COCO-FUNIT
项目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/coco_funit
科技达人说|英伟达开源「Imaginaire」:九大图像及视频合成方法
文章图片
论文地址:https://nvlabs.github.io/COCO-FUNIT/paper.pdf
COCO-FUNIT之前的图像到图像变换模型在模拟不可见域的外观时很难保留输入图像的结构 , 这被称为内容丢失问题 。 当输入图像和示例图像中对象的姿势有较大差异时 , 这个问题尤其严重 。 为了解决这个问题 , 研究者提出了一种新的few-shot的图像变换模型 , 即COCO-FUNIT 。
vid2vid
2018年 , 英伟达联合MITCSAIL开发出了直接视频到视频的转换系统 。 该系统不仅能用语义分割掩码视频合成真实街景视频 , 分辨率达到2K , 能用草图视频合成真实人物视频 , 还能用姿态图合成真人舞蹈视频 。 此外 , 在语义分割掩码输入下 , 只需换个掩码颜色 , 该系统就能直接将街景中的树变成建筑 。