Hinton发布最新论文,表达神经网络中部分-整体层次结构

【新智元导读】不同图像有不同的结构 , 而传统的神经网络无法把固定输入的图像转换为动态的层次结构(解析树) 。 Hinton的最新论文中 , 他提出GLOM , 通过提出island的概念来表示解析树的节点 , 可以显著提升transformer类模型的可解释性 。
2017年 , 深度学习三巨头之一的GeoffreyHinton , 发表了两篇论文解释「胶囊网络(CapsuleNetworks)」 。

Hinton发布最新论文,表达神经网络中部分-整体层次结构
文章图片
在当时 , 这是一种全新的神经网络 , 它基于一种新的结构——胶囊 , 在图像分类上取得了更优越的性能 , 解决了CNN的某些缺陷 , 例如无法理解图片和语义关系、没有空间分层和空间推理的能力等 。

Hinton发布最新论文,表达神经网络中部分-整体层次结构
文章图片
在CNN中 , 左右两幅图都可被网络识别为人脸
甚至 , Hinton自己也公开表示过 , 他要证明为何卷积神经网络完全是「垃圾」 , 应该以自己的胶囊网络代替 。
过去三年中 , 他每年都会推出一个新版本的胶囊网络 。
本月 , Hinton兴奋地说道 , 自己发表了一篇新论文 , 名为如何在神经网络中表示部分-整体层次结构?(Howtorepresentpart-wholehierarchiesinaneuralnetwork)

Hinton发布最新论文,表达神经网络中部分-整体层次结构
文章图片
Hinton发布最新论文,表达神经网络中部分-整体层次结构】本论文中 , 他提出了一个叫做GLOM的架构 , 可以在神经网络中使用胶囊来表示视觉的层次结构 , 即部分-整体的关系 。
署名只有Hinton一人 。

Hinton发布最新论文,表达神经网络中部分-整体层次结构
文章图片
GLOM通过提出island的概念来表示解析树的节点 。 GLOM可以显著提升transformer类的模型的可解释性 。 可以显著提升transformer类的模型的可解释性 。
提出island , GLOM表示解析树的节点
有强有力的心理学证据表明 , 人们将视觉场景解析成部分-整体的层次结构 , 并将部分和整体之间相对不变的视觉关系 , 建模为部分和整体之间的坐标变换 。

Hinton发布最新论文,表达神经网络中部分-整体层次结构
文章图片
如果做出能和人们一样理解图像的神经网络 , 我们就需要弄清楚 , 神经网络如何才能表示部分-整体的层次结构?
这是很困难的 , 不同图像有不同的结构 , 而传统的神经网络无法把固定输入的图像转换为动态的层次结构(解析树) 。
而这 , 也是「胶囊模型」被提出的动机 。
这些模型做出了这样的假设:一个胶囊就是一组神经元 , 每个胶囊对应表示图片特定位置的一个目标 。
然后可以通过激活这些预先存在的、特定类型的胶囊 , 并在他们之间建立适当连接来创建一棵解析树 。
本文介绍了一种非常不同的方式 , 即在神经网络中使用胶囊来表示部分-整体的层次结构 。
需要注意的是 , 论文没有描述一个工作系统 。
相反 , 它提出了一个关于表征的单一想法 , 将几个不同小组取得的进展合并到一个名为GLOM的假想系统中 。
尽管本文主要关注对单一静态图像的感知 , 但GLOM很容易被理解为一个处理帧序列的流水线 。 静态图像可以被认为是多个相同帧组成的序列 。
GLOM架构 , 显著提升transformer类的模型的可解释性
GLOM架构由大量的列组成 , 这些列都使用完全相同的权重 。
每一列都是一个空间局部自动编码器的堆栈 , 可以学习小图像补丁中发生的多层次的表示 。 每个自动编码器 , 使用多层自下而上的编码器和解码器 , 将一级的嵌入转化为相邻一级的嵌入 。 这些层次对应于部分-整体层次结构中的层次 。
例如 , 当显示一个人脸的图像时 , 一个列可能会聚集为一个向量 , 用来表示鼻孔、鼻子、脸和人 。
下图显示了不同层次的嵌入如何在单列中相互作用 。

Hinton发布最新论文,表达神经网络中部分-整体层次结构
文章图片
单列GLOM架构中相邻三层之间自下而上、自上而下、同层交互的情况
其中 , 蓝色箭头和红色箭头分别代表自下而上和自上而下的交互方式 , 由两个不同的神经网络实现的 , 并且网络中可以存在隐藏层 。
对于一张静态图片来说 , 绿色箭头可以简化为残差链接用来实现时序的平滑效果 。 对于视频这种包含多帧序列的情况 , 绿色箭头的连接转为一个神经网络用来学习时序过程中的胶囊状态的变化 。
不同列中同一层次的嵌入向量之间的交互作用 , 由一个非自适应的、注意力加权的局部平滑器来实现 , 这一点没有在图片中画出来 。 这比列内的交互要简单得多 , 因为它们不需要实现部分整体坐标变换 。 它们就像多头Transformer中代表不同单词片段的列之间的注意力加权交互 , 但它们更简单 , 因为query、key和value都与嵌入向量相同 。