脑极体Vokenization:一种比GPT-3更有常识的视觉语言模型( 二 )


事实上 , GPT-3的训练方式决定了它并不是真正理解“语义” , 而是能够基于庞大的语料数据 , 进行海量搜索 , 匹配相应的答案 。 在这一过程中 , GPT-3只是通过纯粹统计学的方法“建立起联系” , 但是并没有真正理解语义 。 比如在一个帮助患者减轻焦虑情绪的问答中 , “患者”表示感觉很糟 , 想要自杀的时候 , GPT-3直接回复了“你可以” 。
GPT-3的问题就像是上世纪80年代John Searle提出的“中文屋实验”里的那个并不懂中文的翻译者 , GPT-3也只是手握着一本“无所不知”的百科全书 , 但是它并不清楚这个世界运行的真实逻辑 , 更无法解决具体场景下的具体情况 。
脑极体Vokenization:一种比GPT-3更有常识的视觉语言模型
本文插图
之前 , 纽约大学的两位教授就联名指出人们对GPT-3作用的高估 , 在《傲慢自大的 GPT-3:自己都不知道自己在说什么》里提到 , 它(GPT-3)本身并不具有 “革命性” 的变化 , 也不能真正理解语义 , 如果某项工作的 “结果” 非常重要 , 那么你不能完全信任人工智能 。
简单来说就是 , 人工智能如果想要突破文本的统计意义而理解语义 , 那就必须要将文本和现实世界建立起联系 。 显然 , 这一点GPT-3还不能做到 。
为了能够让语言文本和实际的世界建立起联系 , 研究人员决定将语言模型和机器视觉结合起来 , 研究者们需要用一个包含文本和图像的数据集从头开始训练一个新模型 , 这就是被称作“Vokenization”的视觉语言数据集模型 。
Vokenization:如何成为既好用又够用的数据集
我们首先如何来理解这两种模型的差异呢?如果你问一下GPT-3这样一个问题 , “绵羊是什么颜色?”它的回答中出现“黑色”的可能和“白色”一样多 , 因为它能在大量文本中看到“Black Sheep”(害群之马)这个词 。 而如果你问一个图像识别模型 , 它就不会从抽象的文本中学习 , 而是更直接从现实的图像中学习 , 指出“这是一只白色绵羊” , 而“这是一只黑色绵羊” 。
我们既需要一个知识特别丰富的机器人 , 也需要一个能够看懂现实状况的机器人 , 只有把二者结合起来 , 才是人工智能更接近和人类交流合作的样子 。
但这个过程并不那么容易实现 。 实际上 , 我们常用的图像描述是不适用的 。 比如下面这张图 , 通常的描述 , 只能识别出物体“猫” , 或者和猫常常一起出现的局部事物“水杯、毛线球、盒子和猫爪” , 并没有描述出这只猫的状态和相互关系 。
脑极体Vokenization:一种比GPT-3更有常识的视觉语言模型
本文插图
相比单纯的对象标注 , Vokenization视觉语言数据集就需要对图像进行一组带有描述性标题的编辑 。 例如 , 下图的标题会是“一只坐在正在打包的行李箱中的橙色的猫” , 这和典型的图像数据集不同 , 它不仅是用一个名词(例如:猫)来标记主要对象 , 而是给AI模型标注出了如何使用动词和介词的相互关联和作用 。
脑极体Vokenization:一种比GPT-3更有常识的视觉语言模型
本文插图
但是这类视觉语言数据集的缺陷在于其数量实在太少 , 数据的生成和管理过程太久 , 相比较维基百科这种纯文本包含近30亿个单词 , 这仅仅只占GPT-3数据集的0.6%的这样的规模相比 , 像微软的MS COCO(上下文通用对象)这样的可视化语言数据集才包含700万个数据 , 对于训练一个成熟的AI模型来说显然是不够的 。
“Vokenization”的出现就是要解决这个问题 。 像GPT-3是通过无监督学习来训练的 , 这不需要手动标记数据 , 才使它极易去扩展规模 。 Vokenization也采用了无监督的学习方法 , 将MS COCO中的小数据量增加到英文维基百科的级别 。
解决了数据源的数量差异问题 , Vokenination还要面临第二个挑战 , 就是解决视觉监督和自然语言文本之间的联接问题 。