文本秒生成图像，震惊业界！详解OpenAI两大AI模型智东西（公众号：zhidxcom）编译|子佩

文章插图
智东西（公众号：zhidxcom）
编译 | 子佩
编辑 | Panken
智东西1月7日消息， 2021开年，顶着地表最强语言模型GPT-3的光环， OpenAI在自然语言处理领域一路高歌猛进，于昨日推出两个跨越文本与图像次元的模型：DALL·E和CLIP ，前者可以基于文本生成图像，后者则可以基于文本对图片进行分类，两者都意在打破自然语言处理和计算机视觉两大门派“泾渭分明”的界限，实现多模态AI系统。
什么是多模态系统呢？
就像人类有视觉、嗅觉、听觉一样， AI也有自己“眼鼻嘴” ，而为了研究的针对性和深入，科学家们通常会将其分为“计算机视觉”、“自然语言处理”、“语音识别”等研究领域，分门别类地解决不同的实际问题。
每一个研究领域也可以被称为一种模态，通常来说，多模态学习（MultiModal Learning）就是在不同的模态间构建联系，让AI学会“通感” 。
一、GPT-3“继承者”：看文绘图的DALL·EDALL·E的名字取自艺术家Salvador Dali和皮克斯动画片机器人总动员（WALL-E），而与GPT-3一样，它也是一个具有120亿参数的Transformer语言模型，不同的是， GPT-3生成的是文本， DALL·E生成的是图像。
文章插图
Dali代表作《记忆的永恒》和机器人总动员海报。
在博客上， OpenAI也大秀了一把DALL·E的“超强想象力” ，随意输入一句话， DALL·E就能生成相应图片，这个图片可能是网络上已经存在的图片，也可能是根据自己的理解“画”出的。
文章插图
输入文本分别是：穿芭蕾舞裙遛狗的萝卜、牛油果形状的扶手椅、将上部的图片素描化
DALL·E是如何实现先理解文字，再创造图片的呢？
那首先要从理解token开始，语言学中对token的定义是词符，或者标记。对于英语来说，每个字母就是一个token ，每一个单词就是一个tokens 。
但在NLP中， tokens并不一定代表完整的单词，如re、ug等没有实际意义的字母组合也算一个tokens 。
【文本秒生成图像，震惊业界！详解OpenAI两大AI模型】在最早提出Transformer架构的论文《Attention is all you need》里，就提到了BPE（Byte-Pair Encoding）编码方法，简单来说， BPE就是通过分析训练集中每个单词的组成，创建一个基础词汇表，词汇表里涵盖了一定数量最常用的tokens 。
模型中tokens的数量是超参数，也就是训练模型中人为规定的。
DALL·E同时包含着BPE编码的文本和图像词汇表，分别涵盖了16384、8192个tokens 。
当需要生成图片时，它以单一数据流的形式，接收1280个文本和图像的tokens（文本256个tokens ，图像1024个tokens），建立回归模型。
与大多数Transformer模型一样， DALL·E也采用自注意力机制（Self-Attention），分析文本内部的联系。
在DALL·E的64层自注意层中，每层都有一个注意力mask ，就是为了使图像的每个tokens都能匹配文本tokens 。
OpenAI也表示，更具体的架构和详细训练过程会在之后的博客中公布。
二、普适的DALL·E：从改变物体关系到创造“不存在”比起长篇累牍地描述自己模型的优越性， OpenAI则是用大量实测案例证明了自己。
1、改变单个物体的某个属性
如动图所示，我们可以通过简单地改变按钮选项，将钟改为花盆，再将绿色改为黄色，再将三角形改为正方形。
文章插图