科技达人说|英伟达开源「Imaginaire」:九大图像及视频合成方法( 三 )


项目主页:https://tcwang0509.github.io/vid2vid/
科技达人说|英伟达开源「Imaginaire」:九大图像及视频合成方法
文章图片
论文地址:https://arxiv.org/abs/1808.06601
在这篇论文中 , 来自英伟达和MIT的研究者提出了一种新型的生成对抗网络框架下的视频到视频合成方法 。 通过精心设计生成器和判别器架构 , 结合空间-时间对抗目标函数 , 研究者在多种输入视频格式下生成了高分辨率、时间连贯的照片级视频 , 其中多种形式的输入包括分割掩码、草图和姿态图 。 在多个基准上的实验结果表明 , 相对于强基线 , 本文方法更具优越性 , 该模型可以合成长达30秒的2K分辨率街景视频 , 与当前最佳的视频合成方法相比具备显著的优势 。 研究者将该方法应用到未来视频预测中 , 表现均超越其他方法 。 该论文被NeurIPS2018接收 。
Few-shotvid2vid
「vid2vid」旨在将人体姿态或分割掩模等输入的语义视频 , 转换为逼真的输出视频 , 但它依然存在以下两种局限:其一 , 现有方法极其需要数据 。 训练过程中需要大量目标人物或场景的图像;其二 , 学习到的模型泛化能力不足 。 姿态到人体(pose-to-human)的vid2vid模型只能合成训练集中单个人的姿态 , 不能泛化到训练集中没有的其他人 。
2019年 , 英伟达又推出了新的「few-shotvid2vid」框架 , 仅借助少量目标示例图像就能合成之前未见过的目标或场景的视频 , 在跳舞、头部特写、街景等场景中都能得到逼真的结果 。
科技达人说|英伟达开源「Imaginaire」:九大图像及视频合成方法
文章图片
项目主页:https://nvlabs.github.io/few-shot-vid2vid/
科技达人说|英伟达开源「Imaginaire」:九大图像及视频合成方法
文章图片
?论文地址:https://arxiv.org/pdf/1910.12713.pdf
在这篇论文中 , 英伟达的研究者提出了一种few-shotvid2vid框架 , 该框架在测试时通过利用目标主体的少量示例图像 , 学习对以前未见主体或场景的视频进行合成 。
借助于一个利用注意力机制的新型网络权重生成模块 , few-shotvid2vid模型实现了在少样本情况下的泛化能力 。 研究者进行了大量的实验验证 , 并利用人体跳舞、头部特写和街景等大型视频数据集与强基准做了对比 。
实验结果表明 , 英伟达提出的few-shotvid2vid框架能够有效地解决现有方法存在的局限性 。 该论文被NeurIPS2019接收 。
WorldConsistentvid2vid
「WorldConsistentvid2vid」是英伟达在2020年7月推出的一种视频到视频合成方法 。 vid2vid视频编码方法能够实现短时间的时间一致性 , 但在长时间的情况下不能时间一致性 。 这是因为对3D世界渲染方式缺乏了解 , 并且只能根据过去的几帧来生成每一帧 。
项目主页:https://nvlabs.github.io/wc-vid2vid/
科技达人说|英伟达开源「Imaginaire」:九大图像及视频合成方法
文章图片
论文地址:https://arxiv.org/pdf/2007.08509.pdf
在这篇论文中 , 英伟达的研究者引入了一个新的视频渲染框架 , 该框架能够在渲染过程中有效利用过去生成的所有帧 , 来改善后续视频的合成效果 。 研究者利用「制导图像」 , 并进一步提出了一种新的神经网络结构以利用存储在制导图像中的信息 。 一系列实验结果表明 , 该方法具备良好表现 , 输出视频在3D世界渲染上是一致的 。