文本秒生成图像,震惊业界!详解OpenAI两大AI模型


文本秒生成图像,震惊业界!详解OpenAI两大AI模型文章插图
智东西(公众号:zhidxcom)
编译 | 子佩
编辑 | Panken
智东西1月7日消息 , 2021开年 , 顶着地表最强语言模型GPT-3的光环 , OpenAI在自然语言处理领域一路高歌猛进 , 于昨日推出两个跨越文本与图像次元的模型:DALL·E和CLIP , 前者可以基于文本生成图像 , 后者则可以基于文本对图片进行分类 , 两者都意在打破自然语言处理和计算机视觉两大门派“泾渭分明”的界限 , 实现多模态AI系统 。
什么是多模态系统呢?
就像人类有视觉、嗅觉、听觉一样 , AI也有自己“眼鼻嘴” , 而为了研究的针对性和深入 , 科学家们通常会将其分为“计算机视觉”、“自然语言处理”、“语音识别”等研究领域 , 分门别类地解决不同的实际问题 。
每一个研究领域也可以被称为一种模态 , 通常来说 , 多模态学习(MultiModal Learning)就是在不同的模态间构建联系 , 让AI学会“通感” 。
一、GPT-3“继承者”:看文绘图的DALL·EDALL·E的名字取自艺术家Salvador Dali和皮克斯动画片机器人总动员(WALL-E) , 而与GPT-3一样 , 它也是一个具有120亿参数的Transformer语言模型 , 不同的是 , GPT-3生成的是文本 , DALL·E生成的是图像 。
文本秒生成图像,震惊业界!详解OpenAI两大AI模型文章插图
Dali代表作《记忆的永恒》和机器人总动员海报 。
在博客上 , OpenAI也大秀了一把DALL·E的“超强想象力” , 随意输入一句话 , DALL·E就能生成相应图片 , 这个图片可能是网络上已经存在的图片 , 也可能是根据自己的理解“画”出的 。
文本秒生成图像,震惊业界!详解OpenAI两大AI模型文章插图
输入文本分别是:穿芭蕾舞裙遛狗的萝卜、牛油果形状的扶手椅、将上部的图片素描化
DALL·E是如何实现先理解文字 , 再创造图片的呢?
那首先要从理解token开始 , 语言学中对token的定义是词符 , 或者标记 。 对于英语来说 , 每个字母就是一个token , 每一个单词就是一个tokens 。
但在NLP中 , tokens并不一定代表完整的单词 , 如re、ug等没有实际意义的字母组合也算一个tokens 。
【文本秒生成图像,震惊业界!详解OpenAI两大AI模型】在最早提出Transformer架构的论文《Attention is all you need》里 , 就提到了BPE(Byte-Pair Encoding)编码方法 , 简单来说 , BPE就是通过分析训练集中每个单词的组成 , 创建一个基础词汇表 , 词汇表里涵盖了一定数量最常用的tokens 。
模型中tokens的数量是超参数 , 也就是训练模型中人为规定的 。
DALL·E同时包含着BPE编码的文本和图像词汇表 , 分别涵盖了16384、8192个tokens 。
当需要生成图片时 , 它以单一数据流的形式 , 接收1280个文本和图像的tokens(文本256个tokens , 图像1024个tokens) , 建立回归模型 。
与大多数Transformer模型一样 , DALL·E也采用自注意力机制(Self-Attention) , 分析文本内部的联系 。
在DALL·E的64层自注意层中 , 每层都有一个注意力mask , 就是为了使图像的每个tokens都能匹配文本tokens 。
OpenAI也表示 , 更具体的架构和详细训练过程会在之后的博客中公布 。
二、普适的DALL·E:从改变物体关系到创造“不存在”比起长篇累牍地描述自己模型的优越性 , OpenAI则是用大量实测案例证明了自己 。
1、改变单个物体的某个属性
如动图所示 , 我们可以通过简单地改变按钮选项 , 将钟改为花盆 , 再将绿色改为黄色 , 再将三角形改为正方形 。
文本秒生成图像,震惊业界!详解OpenAI两大AI模型文章插图