年轻的LeCun、吴恩达长啥样？升级版StyleGAN告诉你机器之心报道机器之心编辑部

机器之心报道
机器之心编辑部
来自以色列特拉维夫大学的研究者在生成图像方面又有了新的升级，所用方法在保留源图像身份的同时，在细节编辑上实现了更精细的效果。
英伟达提出的风格迁移模型StyleGAN系列，一直是人们用来进行各类脑洞画图实验的流行工具。从生成二次元「老婆」，照片修图，到人物的卡通化，最近几年基于这种技术的应用不一而足。
【年轻的LeCun、吴恩达长啥样？升级版StyleGAN告诉你】然而StyleGAN也一直有着自己的不足，近年来的各种改进也未能让其在反向生成、细节编辑上实现精细的效果。什么时候我们才能让AI随心所欲地修改真人照片呢？
今年6月，这样的研究终于出现了。
在以色列特拉维夫大学的论文《PivotalTuningforLatent-basedEditingofRealImages》中，研究人员通过添加一个简短的训练过程，让StyleGAN有了焕然一新的升级。
它的生成效果是这样的，生成更年轻和微笑的YannLeCun：

文章图片
还有更年轻和面部旋转后的吴恩达：

文章图片
下图中，输入小威廉姆斯、小罗伯特·唐尼以及小丑等人的照片，经过处理后，生成了微笑、换发型、老年、张嘴、去胡须、摆pose等多样化的形象：

文章图片
不得不说，效果看起来真不错！
研究介绍
最近，一波先进的面部编辑技术被提出，这些技术利用预训练StyleGAN的图像生成能力。要用这种方法成功地编辑图像，必须首先将图像投影到预先训练好的生成器域中。然而，事实证明， StyleGAN的潜在空间在失真和可编辑性之间产生了内在的折衷，即在保持原始外观和改变其某些属性之间需要折中。
实际上，这意味着将保留ID的面部潜在空间编辑应用于生成器域之外的面部仍然具有挑战性。在本文中，来自以色列特拉维夫大学的研究者提出了一种方法来弥补这一差距。该研究稍微改变了生成器，使得一个域外的图像如实的被映射到一个域内的潜码。该研究一个关键的调整，一个简短的训练过程，保留域内潜在区域的编辑质量，同时改变其描述的身份和外观。

文章图片
论文地址：https://arxiv.org/pdf/2106.05744.pdf
GitHub地址：https://github.com/danielroich/PTI
Colab地址：
https://colab.research.google.com/github/danielroich/PTI/blob/main/notebooks/inference_playground.ipynb
在研究者提出的PTI（PivotalTuningInversion）中，初始反向潜码充当枢轴（pivotal），你可以围绕它微调生成器。同时，正则化项保持附近的身份信息不变，保持局部信息影响。这种训练过程最终会改变身份的外观特征，而不会影响编辑能力。为了补充这一点，该研究进一步表明，枢轴调整（pivotaltuning）还可以调整生成器以适应多个人脸，同时在域的其余部分引入可忽略的失真。

文章图片
PTI方法的示意图。
该研究主要是使用StyleGAN为真实图像提供生成高质量的编辑。由于StyleGAN的特性，可以对其生成的外观进行细微的局部更改，而不会损害其强大的编辑功能。因此，给定一张图像，可能外观看起来不正常（例如一个人处在极端的照明条件下，或浓妆艳抹，或夸张的发型和头饰），该研究建议在生成器的域内找到最近的可编辑点。然后这些点可以被拉向目标，对周围的域影响微乎其微，对其他域的影响也微乎其微。
实验
实验采用StyleGAN2生成器，对于面部图像，研究者使用在FFHQ数据集上预训练的生成器进行处理，并使用CelebA-HQ数据集进行评估。此外，该研究还收集了一些其他名人的图像，以突出显示该研究保持身份的能力。
研究者采用以下指标：像素级距离MSE、感知相似度LPIPS、结构相似度MSSSIM、以及利用预训练的人脸识别网络实现身份相似度。结果如下表所示。可以得出在每个指标上，该研究都是最佳得分。

文章图片
如下图所示，即使不考虑可编辑性，该研究的方法对所有的例子都获得了较好的重建效果，特别是域外的例子，因为该方法是唯一可以成功的重建具有挑战性的细节，如脸部绘画或手等细节。