Hinton发布最新论文,表达神经网络中部分-整体层次结构( 二 )
列间相互作用通过使某一层次的每个嵌入向量向附近位置的其他类似向量回归 , 在某一层次产生相同嵌入的岛 。 这就形成了多个局部的「回声室」 , 在这个「回声室」中 , 一个层次的嵌入物主要关注其他相似的嵌入物 。
在每一个离散的时间点和每个列中 , 一个层次的embedding更新为下列四方面的加权平均:
1由自下而上的神经网作用于下层的embedding在上一时间步产生的预测
2由自上而下的神经网在上一级的embedding上作用于上一时间步产生的预测
3前一个时间步长的embedding向量
4前一时间步相邻列中同层次的embedding的注意力加权平均值
对于一个静态图像来说 , 随着时间的推移 , 一个层面的嵌入应该会稳定下来 , 产生几乎相同的向量的独特岛 , 如下图所示:
文章图片
附近六列中某一特定时间的嵌入图片
所有显示的位置都属于同一个对象 , 场景层面还没有确定一个共享矢量 。 将每个位置的完整嵌入向量分为部分-整体层次结构中每个层次的独立部分 , 然后将一个层次的高维嵌入向量作为二维向量显示出来 。
这样就可以说明 , 不同位置的嵌入向量的排列情况 。 图中所示的各级相同向量的岛代表一棵分析树 。
GLOM没有分配神经硬件来表示解析树中的一个节点 , 也没有给节点指向其前面和后面的指针 , 而是分配一个合适的活动向量来表示该节点 , 并对属于该节点的所有位置使用相同的活动向量 。 访问节点的先后能力是由自下而上和自上而下的神经网络来实现的 , 而不是用RAM来做表查找 。
像BERT一样 , 整个系统可以在最后一个时间步进行训练 , 从有缺失区域的输入图像中重建图像 , 但目标函数还包括两个正则化器 , 鼓励在每个层次上有接近相同向量的岛 。
简单来说 , 正则器只是新的嵌入在一个层面上与自下而上和自上而下的预测之间的保持一致的一种方法 , 这有利于形成局部岛 。
一个非常简单的神经场的例子 , 使用单个像素作为位置 。 四个像素的强度都可以用同一个代码(a , b)来表示 , 即使它们的强度根据函数f(x)=ax+b而变化 。 解码器有一个额外的输入 , 它指定了位置 。
文章图片
GLOM架构的另一种可视化方法
这是GLOM架构所示架构的另一种可视化方式 , 显示了用另一种方式看待GLOM架构的各个自下而上和自上而下的神经网 。
文章图片
在这里 , 该架构与Transformer的关系更加明显 。 文中第一个图代表时间的水平维度变成了本图中代表层次的垂直维度 。
在每个位置 , 每个层现在都有部分-整体层次结构中所有层次的嵌入 。 这相当于在图1中垂直压缩了单个时间片内的层次描述 。 通过这个架构的一次正向传递就可以解释静态图像 。 这里将所有特定级别的自下而上和自上而下的神经网都显示为单个神经网 。
在正向传递过程中 , L层的嵌入向量通过多层自下而上的神经网接收来自上一层中L-1层嵌入向量的输入 。
文章图片
它还通过多层自上而下的神经网络接收来自上一层中L+1级嵌入的输入 。 在前向传递过程中 , 对前一层中L+1级的依赖性实现了自上而下的效果 。 层t+1中的L级嵌入也取决于层t中的L级嵌入和层t中其他附近位置的L级嵌入的注意力加权和 , 这些层内交互作用没有显示出来 。
最后 , 研究人员还对GLOM与其他神经网络模型(例如胶囊模型 , 变压器模型 , 卷积神经网络等)相比 , 存在的优势作出了分析 。
论文发表在https://arxiv.org/abs/2102.12627上 。
- 最新软装设计实用技巧,建议收藏
- 重磅消息在全球传开,联合国公布最新报告:中国第一,美国第二!
- 高端市场|发布至今下跌1000元,6400万四摄+8GB,从高端市场跌至中端市场
- 再见了,银行卡!央行发布最新通知,4月1日起,银行卡时代将终结
- 投资者提问:您好!截止二月底最新股东人数多少?谢谢!
- 疾控|速看!桂林疾控最新提示
- 华为P50将于4月17日发布,因台积电断供,手机又要抢购一年
- 济南少儿编程:济南市教育厅发布人工智能试点学校!看看你的学校在里面吗?
- 英超最新积分榜:莱斯特城逆转绝杀,曼联掉到第3名
- 家族旗舰SUV回归,竞争路虎揽胜?Jeep瓦格尼将发布