中科院自动化所余山对大脑的未知,并不阻碍借鉴大脑,成就智能( 三 )


中科院自动化所余山对大脑的未知,并不阻碍借鉴大脑,成就智能
本文插图
受此启发 , 余山等人提到了一种PFC-like的新网络架构 , 在输入输出之间加入了一个情境处理模块(CDP) 。 CDP模块的作用便是在输入输出之间 , 根据Context对结果进行旋转 , 从而能够依据上下文动态调整网络内部信息 。
它包括两个子模块:1、编码子模块 , 其负责将情境信息编码为适当的控制信号;2、“旋转”子模块 , 其利用编码模块的控制信号处理任务输入(由于其功能上相当于将特征向量在高维空间上进行了旋转 , 故称为“旋转”子模块) 。 结果喜人!
中科院自动化所余山对大脑的未知,并不阻碍借鉴大脑,成就智能
本文插图
图注:同一个分类器对于同样的输入 , 连续学习40种不同人脸属性的分类任务(蓝色数据点) , 正确率与用40个分类器的系统(橙色线)几乎一致 。
他们在CelebA数据集上进行测试 。 按照传统的模型 , 针对数据集上的40个类型 , 需要训练40个模型才能完成任务 , 而采用CDP模块后 , 一个模型能解决所有分类问题 , 且性能不降 。 若想进一步了解这个奇妙的思想 , 可参看文章:《国内首发Nature子刊 Machine Intelligence论文:思想精妙 , 或对DNN有重大改进!》
学习层面:连续学习和情境依赖
学习层面 , 神经网络面临的一个重要问题是灾难性遗忘 , 即神经网络在学习不同的任务时 , 如果不是把不同任务的训练样本混在一起去训练 , 往往在学习新的任务时候 , 网络就会把从旧任务中学到的知识忘掉 。

中科院自动化所余山对大脑的未知,并不阻碍借鉴大脑,成就智能
本文插图
以上图为例 , 先让神经网络识别「狗」 , 得到一个性能非常高的网络;继而再让网络去学习识别「猫」 , 这时网络的权重就会重新调整;学完之后再拿来去识别「狗」 , 神经网络的性能就会大幅下降 , 甚至不能使用 。
原因就在于 , 当学习「猫」的任务时 , 网络把针对「狗」的任务学到的知识给忘了 。 然而 , 人脑却没有这种所谓「灾难遗忘」的问题 。 人类先后顺序地学习不同的任务 , 最后识别能力还能不断提升 。 针对这一问题 , 余山研究员在上面提到的那篇文章中提出一种称为「正交权重修改 (Orthogonal Weights Modification , OWM) 」的算法 。
中科院自动化所余山对大脑的未知,并不阻碍借鉴大脑,成就智能
本文插图
图:OWM算法原理示意图 。 (a): 在权重更新时 , OWM算法只保留传统BP算法计算的权重增量中与历史任务输入空间正交的部分;(b): 在新任务中 , OWM算法将神经网络对解的搜索范围约束在旧任务的解空间中 。
OWM算法的核心思想很简单 , 即通过 P 映射之后 , 学习新任务的解仍然在旧任务的解空间当中 。 正如其名“正交权重修改” , 在学习新任务时 , 只在旧任务输入空间正交的方向上修改神经网络权重 。 如此 , 权重增量几乎不与以往任务的输入发生作用 , 从而保证了网络在新任务训练过程中搜索到的解 , 仍处在以往任务的解空间中 。 数学上 , OWM通过正交投影算子P与误差反传算法得到的权重增量△w作用来实现其目的 , 即最终的权重增量△w=kp△w , 这里k为系数 。 OWM算法实现了对网络中已有知识的有效保护 , 并可以与现有梯度反传算法完全兼容 。
中科院自动化所余山对大脑的未知,并不阻碍借鉴大脑,成就智能
本文插图
如上图所示 , 余山等人在ImageNet 上做了测试 , 选取 1000个类 , 特征提取器使用ResNet152 , 在训练分类器时:
1)当采用传统的SGD方法 , 任务混合训练时 , 准确率为78.31%;
2)在采用SGD , 但所有任务顺序训练时 , 准确率直降到4.27% , 这正是「灾难性遗忘」的结果;