一种新方法或让AI模型拥有“联想”力,或能识别从未见过的事物

一种新的方法正在让人工智能模型获得人类的 “联想” 能力 , 甚至能让它识别此前从未见过的事物 。
来自加拿大滑铁卢大学的博士生伊利亚(Ilia Sucholutsky)和他的博士导师马赛厄斯?尚劳(Matthias Schonlau)教授 , 首次提出了 “少于一次” 样本学习的概念和方法 , 并由此为人工智能技术的演进提供了新的思路 。
相关研究论文于 2020 年 9 月发表在预印本网站 arXiv 上 , 名为 “'Less Than One'-Shot Learning: Learning N Classes From M < N Samples” 。
伊利亚告诉 DeepTech , 他们的研究显示 , 对于机器学习模型来说 , 理论上通过两个样本(example)即可训练模型学会识别任意数量类别(class) 。
没人知道 , 这种方法一旦实现大规模应用 , 人工智能会迸发出怎样的火花 。
高企的训练成本机器学习 , 尤其是深度学习往往需要大量的训练数据 。
著名的语言模型 GPT-3 使用了 45TB 的数据进行训练 , 这个过程耗资达到了惊人的 1200 万美元 , 即使有微软的鼎力相助 , 训练结束之后发现了一些小 Bug 也不舍得重新训练 。
目前 , GPT-3 是炼丹师们 “大力出奇迹” 的集大成者 , 但可以预见 , 不远的将来一定会有新的模型超越并取代它的位置 。
“更多更大更强” 的思路是没有尽头的 。 假如我们稍稍停下疲于奔命的脚步 , 回归到现实中的人类学习过程 , 就会发现一个触及灵魂的拷问 ——人工智能真的必须依托如此巨量的数据才能够实现吗?
相信很多人的答案并不笃定 。
举个例子 , 假如现在需要让人工智能模型 “认识” 马这种动物 。 常规的做法是挑选成百上千的马匹图像对其进行训练 。
之所以需要如此之多的样本 , 是因为同样一匹马 , 仅仅是转换一个拍摄角度 , 或微调一些肉眼无法观察的像素点 , 人工智能就会识别失败 , 所以需要大量的大小、颜色、体态、朝向、品种不一的样本填满人工智能的 “盲区” 。
即便如此 , 人工智能的识别成功概率也不能达到 100% , 我们离创造真正可以复现大脑理解能力的人工智能还非常遥远 。
但人类的儿童 , 却只需要一张看图识字的卡片 , 便能轻易分辨出唐僧所骑乘的是马 , 而不是其他外型类似的生物 。 并且 , 儿童一旦学会识别某种事物 , 这项技能终其一生都很难忘记 , 只会越来越熟练 。
更有甚者 , 儿童可以在没有任何真实示例的情况下 “认出” 一个新的物体 。 例如 , 展示给他们一匹马和一头犀牛的图片 , 并告诉他们独角兽结合了两者的特点 , 他们就可以在第一次看到独角兽时认出这个传说中的生物 。
一种新方法或让AI模型拥有“联想”力,或能识别从未见过的事物文章插图
图 | 犀牛 + 马 = 犀牛马?好吧 , 这张图并不像独角兽 , 但一定程度上体现了论文作者的意图 。
伊利亚和导师认为 , 人工智能模型也应该具备同样的能力 。 也就是说 , 人工智能模型应该可以从 M 个样本中学习到 N 个类别 , 其中 N 可以远远大于 M 。 这样 , 理论上模型就可以识别比训练示例更多的图像 , 而此前的科研人员可能并未充分挖掘训练数据的全部潜力 。
他们将这一过程称为 “少于一个” 样本学习(LO-Shot Learning) 。
考虑到居高不下的训练成本和日益庞大到接近极限的训练数据 , 这种让人工智能学会 “合理联想” 的方法或许会在未来产生颠覆性影响 。
如何实现 “少于一个” 样本学习?在此前的一篇论文中 , 现为麻省理工学院博士生的 Tongzhou Wang 和同事介绍了一种 “蒸馏” 方法 , 可以将大数据集 “提纯” 为小数据集 。
作为实践 , 他们将 MNIST(一个包含了 6 万张从 0 到 9 手写数字图片的业内常用测试数据集)提纯压缩成了一个仅由 10 张图像组成的训练数据集 。
这些图像不是直接从原始数据集中选取的 , 而是经由一系列的设计和优化后 , 赋予了这 10 张图像几乎与整个原始数据集相同的信息 。
因此 , 仅仅用这个超精简数据集对人工智能模型进行训练 , 就可以达到与用 MNIST 所有图像进行训练的模型几乎一致的识别精度 。
一种新方法或让AI模型拥有“联想”力,或能识别从未见过的事物文章插图
图 | MNIST 数据集样例
一种新方法或让AI模型拥有“联想”力,或能识别从未见过的事物文章插图
图 | “蒸馏” 后的 MNIST 精简数据集 。 以上 10 张图是从 MNIST 所含 6 万张图像中提纯出的 , 可以用于训练人工智能模型 , 并且它们在识别手写数字时拥有 94% 的准确性 。