脑极体Vokenization：一种比GPT-3更有常识的视觉语言模型

学习人工智能，最好的办法就是先考上大学，学好计算机和数学，其次就是生个孩子。
这可不是一个段子。有了孩子之后，你会能更好理解人工智能到底是如何发生的。
看着一个牙牙学语的小婴儿开始对这个世界发生好奇，终于有一天开始指着一个毛茸茸的东西叫出“猫咪”的时候，你可能就会理解教会一个孩子说话并不比教会人工智能认出一只猫更容易。

本文插图
人工智能靠大量的算力和数据，而人类靠着五感，还有我们那个低功率的大脑。不过，很快你就会对小孩子的学习能力惊讶不已，他会指着各种他不认识的东西问你“这是什么” ，直到你不胜其烦。等到再长大一些，小孩子就不会满足于仅仅知道这些东西的名字，开始想你发问“为什么会这样” ，再次把你问到山穷水尽。
我们知道，现在人工智能领域，图像识别和自然语言处理（NLP）正处在如日中天的发展阶段。在众多单项上面，图像识别的能力要远远高于普通人，甚至比专家还好， NLP的翻译、听读、写作能力更是与专业人士不相上下，特别今年推出的GPT-3 ，更是以超大参数规模这种氪金方式来实现逆天的写作能力。
但这又怎样？尽管GPT-3可以编造出一大段看起来很真实的假新闻，但它仍然是靠着过去的文本经验来认知世界的，它会在很多常识性的问题上犯下低级错误，比如在回答“太阳有几只眼睛”的反常识问题上， GPT-3照样一本正经的给出“太阳有一只眼睛”的答案。
如果是一个人第一次碰到这种问题，它往往并不是从文本里找答案，而是真的会去看一眼太阳的。而这正是我们人类掌握语言、传递信息最常见的一种方式。

本文插图
受此启发，最近北卡罗来纳大学教堂山分校的研究人员设计了一种新的AI模型来改变GPT-3的这种缺陷，他们把这一技术称之为“Vokenization” ，可以赋予像GPT-3这样的语言模型以“看”的能力。
这个思路很好理解，我们从来不是靠一种方式来认识世界的，而把语言处理和机器视觉联系起来，才能更好地让人工智能来接近人的认识能力。那么这种“Voken”技术到底好不好用，正是本文要重点介绍的。
无所不能的GPT-3 ，却“不知道自己在说什么”
今年5月份正式出道的GPT-3 ，一度成为“无所不能”的代名词， OpenAI推出的这个第三代NLP语言模型，包含1750亿个参数，采用了英文维基百科、数字化图书、互联网网页等超大规模语料进行训练，是现有的规模最大、也最复杂的语言模型。

本文插图
从GPT-3对外API接口开放之后，研究者就从GPT03的强大文本生成能力中挖掘出层出不穷的应用，从答题、写小说、编新闻到写代码、做图表等等。
但GPT-3也印证了“出道即巅峰”这句话，也是从一开始就争议不断。人们对其实际的应用前景表示极大的怀疑。
我们复习下GPT-3的作用原理。 GPT-3采用的是少示例（Few-shot）学习的方式，对于一个特定的语言任务，只需要给定任务描述，并给出几个从输入到输出的映射示例，甚至只是给出一个开头的文本， GPT-3就可以根据前景预设自动生成相关下文，以此来完成对话、答题、翻译和简单的数学计算等任务。 GPT-3的优势就在于预训练模型不需要使用大量标记的训练数据进行微调，这种便利性为普通人进行相关语言任务的使用上消除了障碍。
尽管GPT-3在很多领域的表现都令人折服，文本的质量高到能骗过大多数人类（无法分辨到底是机器写的还是人类写的），但是GPT-3本身的缺陷仍然非常明显。