脑极体Vokenization:一种比GPT-3更有常识的视觉语言模型( 三 )


Voken代替Token:让文本“看懂”世界
一般来看 , 自然语言中的词汇中很大一部分是没有视觉特征的 , 这为视觉监督提出了主要的挑战 。 我们知道 , 在AI训练语言模型中的单词被称之为Token(标记) , 而研究人员则把视觉语言模型中与每个Token相关的图像称之为Voken 。 而Vokenizer就代表为一个Token寻找一个Voken的算法 , Vokenization就代表整个算法模型实现的过程 。
脑极体Vokenization:一种比GPT-3更有常识的视觉语言模型
本文插图
Vokenization的过程 , 就不是从图像数据集开始为图像标注标题 , 而是从一个语言数据集开始 , 采用无监督学习的方式 , 将每个单词与图像进行匹配 , 实现一个高扩展性 , 这就是解决第一个挑战的具体思路 。 与此同时 , 研究者还要解决第二个挑战的单词和图像的关联性问题 。
GPT-3使用的是“单词嵌入”的方式 , 基于上下文来创建每个单词的数学表示 , 然后依赖这些嵌入把单词变成句子 , 把句子组合成段落 。 Vokenization采取了一种并行的嵌入技术用于扫描图像的视觉模式 。 研究者举的一个案例是 , 将猫出现在床上的频率和出现在树上的频率绘制成一个表格 , 并用这些信息创建一只“猫”的Voken 。
研究者就在MS COCO数据集上同时采用了两种嵌入技术 , 把图像转换成视觉嵌入 , 把字幕转换成文字嵌入 。 这样做的优势之处在于 , 这两种嵌入可以在一个三维空间中绘制出来 , 并看到文字嵌入和视觉嵌入在图形中的相互关联 , 一只“猫”的视觉嵌入应该会和文本中的“猫”的嵌入相重叠 。
这能够解决什么问题呢?这给文本Token提供了一种图像化的Voken匹配 , 使得它能够有更加情景化的表示 , 对于一个抽象的词来说 , 也可以根据不同的上下文情境 , 具有了完全不同的意思 。
比如 , “Contact”这个词 , 在下图左侧的Voken的匹配下 , 它就代表“联系信息”的意思 , 在下图右侧的Voken的匹配下 , 就代表了“抚摸一只猫”的意思 。
脑极体Vokenization:一种比GPT-3更有常识的视觉语言模型
本文插图
说到这里 , 我们大概就能理解Voken的作用 。 当GPT-3模型对于一些文本概念无法准确理解其语境和相应语义的时候 , 它就容易开始自我发挥 , 胡言乱语 , 而一旦通过给这个Token找到图像化的Voken实例 , 就可以真正理解这个词的实际涵义 。
现在 , 研究人员通过在MS COCO中创建的视觉和单词嵌入方法来训练Vokenizer算法 , 在英语维基百科中已经为40%的Token找到了Voken , 尽管不到一半 , 但至少是30亿单词的数据集中的40% 。
基于这一数据集 , 研究人员重新训练了谷歌开发的BERT模型 , 并且在6种不同的语言理解的测试中测试了这一新模型 , 结果显示改进后的BERT在几个测试方面都表现良好 。
脑极体Vokenization:一种比GPT-3更有常识的视觉语言模型
本文插图
Vokenization现在还只是处在研究阶段 , 我们也只能从其论文的结果中窥探这一模型的效果 , 至于这项新的视觉语言化技术的应用和展示 , 还有待后面我们进一步追踪观察 。
不敢怎样 , 在无监督学习帮助下的视觉语言模型 , 成为NLP领域刚刚闪现的一朵火花 , 为自然语言处理打开了新的思路 , 使得纯粹的文本训练开始和图像识别联系起来 。 这就像让一个博闻强记的机器人从“自顾自说话” , 变得可以听见和看见外界的真实状况 , 能够成为那个“睁开眼睛看世界”的人工智能 。
最后 , 让我们重温一个经典的场景 , 在海伦凯勒的自传中 , 她描述了自己如何学会“Water”这个单词的含义 。 又盲又聋的海伦总是搞混“杯子”和“水”的指代 , 直到她的老师沙利文女士带着她来到喷池边 , 一边感受着清凉的泉水 , 一边感受着沙利文在她手心写下的“Water” , 她这才终于明白了“水”的真实指代和含义 。