clip|打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E

文章插图

作者 | 莓酊、杏花

编辑 | 青暮

以前，当我们想拥有一副图像时，首先会做的就是找专业画师，将我们对图画的要求逐一描述，画师再根据需求醉墨淋漓一番。但这种方式需要耗费一定的时间和人力成本，且成果不一定尽如人意。
如今，基于自然语言生成逼真图像的工具使我们能够以一种全新的方式轻松创建大量的高质量图像。使用自然语言编辑图像的能力进一步允许迭代细化和细粒度控制，这两者对于现实世界的应用程序都至关重要。
目前，GANs（对抗生成网络）在大多数图像生成任务上拥有最先进的技术，这些技术是通过样本质量来衡量的，例如FID，Inception Score 和 Precision等指标。
然而，其中一些指标不能完全捕获生成图像的多样性，且与最先进的基于似然度的模型相比，GANs捕获的多样性较少。此外，如果没有精心选择的超参数和正则化器，GANs在训练中经常翻车。
针对这些问题，OpenAI的两位研究人员Prafulla Dhariwal和Alex Nichol便着眼于其他体系架构。2021年5月，这两名学者发表了名为《Diffusion Models Beat GANs on Image Synthesis》的论文，证明了扩散模型在图像合成上优于目前最先进的生成模型的图像质量。

clip|打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E

文章插图

论文地址：https://openreview.net/pdf?id=AAWuCvzaVt
半年多的时间，Alex Nichol 和Prafulla Dhariwal再度携手，带领团队于2021年12月20日发布了最新研究《GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models 》。

文章插图

论文地址：https://arxiv.org/pdf/2112.10741v1.pdf
以文本“萨尔瓦多·达勒（salvador dal??）的超现实主义梦幻油画，画的是一只猫在跳棋”为例，GLIDE模型生成如下具有阴影和反射的逼真图像，并以正确的方式组合多个概念，产生新颖概念的艺术效果图。

文章插图

文章一出即在推特上引起广泛关注，收获了无数业内人士的鲜花和掌声。
名为Kyle的网友表示，他觉得这项研究跨越了“渐进式增长GAN”到“StyleGAN”的界限。从满是笨拙的机器学习人工伪造物，到现在突然变得与它模仿的真实物体几乎无法分辨。

文章插图

连GLIDE的失败案例都透着满满的优秀感：它不会画有 8 条腿的猫......

文章插图

有网友提问：如果对它提出指令“没人见过的东西”会生成什么？

文章插图

Em......结果是没见过，但也不是完全没见过。

文章插图

生成能力超越DALL-E

实验证明，扩散模型（Diffusion Models）可以生成高质量的合成图像，尤其在与引导技术结合使用时，能够在保真度上权衡多样性。
作者们为文本条件下的图像合成问题的扩散模型，对比了两种不同的指导策略：CLIP guidance 和classifier-free guidance。而后发现，在写实度和主题相似度方面，后者更受人类评估参与者的青睐，并且经常获得逼真的样本。
使用classifier-free guidance的35亿参数文本条件扩散模型的样本收到的评价更高，令来自DALL-E的样本完全“黯然失色”。GLIDE模型微调后还可以修复图像，出色完成文本驱动的图像编辑任务。
已有的最新文本条件图像模型已经可以做到根据格式多样的文本中合成图像，甚至可以“理解”语义，按照合理的逻辑组合毫不相关的客体。但在捕捉相应文本并生成逼真图像方面，还略逊一筹。
毋庸置疑，扩散模型是前景大为可观的生成模型系列，在诸多图像生成任务上达到了最先进的样本质量基准。
为了在类条件设置中实现真实感，作者们利用分类器指导增强扩散模型，扩散模型以分类器的标签作为条件。分类器首先在有噪声的图像上进行训练，在扩散采样过程中，使用分类器提供的梯度引导样本朝向标签。Salimans等人曾通过使用无分类器的指导，未单独训练的分类器中获得了类似结果，这给研究者们带来了灵感，在有标签扩散模型和无标签扩散模型的预测之间进行插值。