量子位▲单一任务强化学习遇瓶颈?「灾难性遗忘」的锅!Bengio参与
鱼羊发自凹非寺量子位报道|公众号QbitAI
【量子位▲单一任务强化学习遇瓶颈?「灾难性遗忘」的锅!Bengio参与】雅达利游戏 , 又被推上了强化学习基础问题研究的舞台 。
来自谷歌大脑的最新研究提出 , 强化学习虽好 , 效率却很低下 , 这是为啥呢?
——因为AI遭遇了「灾难性遗忘」!
所谓灾难性遗忘 , 是机器学习中一种常见的现象 。 在深度神经网络学习不同任务的时候 , 相关权重的快速变化会损害先前任务的表现 。
而现在 , 这项图灵奖得主Bengio参与的研究证明 , 在街机学习环境(ALE)的单个任务中 , AI也遇到了灾难性遗忘的问题 。
研究人员还发现 , 在他们提出的Mementoobservation中 , 在原始智能体遭遇瓶颈的时候 , 换上一只相同架构的智能体接着训练 , 就能取得新的突破 。
单一游戏中的「灾难性干扰」在街机学习环境(ArcadeLearningEnvironment , ALE)中 , 多任务研究通常基于一个假设:一项任务对应一个游戏 , 多任务学习对应多个游戏或不同的游戏模式 。
研究人员对这一假设产生了质疑 。
单一游戏中 , 是否存在复合的学习目标?也就是说 , 是否存在这样一种干扰 , 让AI觉得它既要蹲着又要往前跑?
来自谷歌大脑的研究团队挑选了「蒙特祖玛的复仇」作为研究场景 。
「蒙特祖玛的复仇」被认为是雅达利游戏中最难的游戏之一 , 奖励稀疏 , 目标结构复杂 。
文章图片
研究人员观察到 , CTS模型计算的Rainbow智能体 , 会在6600分的时候到达瓶颈 。 更长时间的训练和更大的模型大小都不能有所突破 。
文章图片
不过 , 只需从这个位置开始 , 换上一只具有相同架构的新智能体 , 就能突破到8000分的水平 。
如此再重置一次 , AI的最高分就来到了14500分 。
文章图片
需要说明的是 , 在换上新智能体的时候 , 其权重设置与初始的智能体无关 , 学习进度和权重更新也不会影响到前一个智能体 。
研究人员给这种现象起了一个名字 , 叫Mementoobservation 。
文章图片
Mementoobservation表明 , 探索策略不是限制AI在这个游戏中得分的主要因素 。
原因是 , 智能体无法在不降低第一阶段游戏性能的情况下 , 集成新阶段游戏的信息 , 和在新区域中学习值函数 。
也就是说 , 在稀疏奖励信号环境中 , 通过新的奖励集成的知识 , 可能会干扰到过去掌握的策略 。
文章图片
上图是整个训练过程中 , 对游戏的前五个环境进行采样的频率 。
在训练早期(左列) , 因为尚未发现之后的环节 , 智能体总是在第一阶段进行独立训练 。 到了训练中期 , 智能体的训练开始结合上下文 , 这就可能会导致干扰 。 而到了后期 , 就只会在最后一个阶段对智能体进行训练 , 这就会导致灾难性遗忘 。
并且 , 这种现象广泛适用 。
文章图片
上面这张图中 , 每柱对应一个不同的游戏 , 其高度代表RainbowMemento智能体相对于Rainbow基线增长的百分比 。
在整个ALE中 , RainbowMemento智能体在75%的游戏中表现有所提升 , 其中性能提升的中位数是25% 。
- 可可酱75吋量子点电视让孩子健康成长,如何才能健康不伤眼的看电视?TCL
- 中国智能制造网量子通信布局起风了!,多国已未雨绸缪
- 「量子力学」爱因斯坦也束手无策,困扰人类上百年的难题,如今终于有了答案
- 与单观经欧盟瞄准“量子互联网”附相关概念股
- 钉科技网TB功能太单一,用户说智能冰箱设计得用点智慧,系统反应慢
- 「卫星」首飞任务圆满成功!中国迈入世界第一梯队,揭秘四大“黑科技”
- 快科技4 结果收到了10台,谷歌出错:买家花3500元下单一台Pixel
- cnBetaTB鼠标党也能快速切换桌面,用户提议为任务视图添加右键菜单
- 广东圆梦园孵化城【园区动态】广东省重点领域研发计划量子科学与工程重大专项专家组莅临园区考察指导
- [空间站]新一代载人飞船试验船成功返回,下阶段任务公布,空间站正式开建