新天域互联:谷歌与DeepMind合作释出Dreamer 可透过想像力学习行为


谷歌(Google)与DeepMind合作研发的Dreamer是一种增强学习代理 , 能够预测模型状态的序列 , 学习较长远行为(Long-sighted) , 且利用图像输入 , Dreamer还能解决连续控制任务 , 应付需要反应、远见、空间感知和场景理解的操作 。
人工智能(AI)的增强学习研究正蓬勃发展 , 增强学习无模型方法可以透过反复试错 , 学习预测成功的行动 , 使得AI能够在即时战略游戏中打赢人类 。 但据香港IDC新天域互联获悉 , 增强学习需要代理人与环境进行大量互动之后 , 才能达到良好成效 , 这同时也限制了将其应用在现实世界中的机会 , 因为在现实世界中出错 , 可能导致不可弥补的损失 。
新天域互联:谷歌与DeepMind合作释出Dreamer 可透过想像力学习行为
本文插图
比起无模型增强学习 , 基于模型的增强学习方法可以学习精简化的环境模型 , 使代理能够预测潜在行动序列的结果 , 并在各种假设情况下做出反应 , 进而减少为实现目标 , 所需要进行反复试错次数 。
现在谷歌与DeepMind的Dreamer是一种增强学习代理 , 透过经训练过的世界模型所提供的潜在想像力 , 帮助代理解决长时间任务 , 也就是说 , Dreamer会预测模型状态的序列 , 学习较长远的行为 。 Dreamer由3个典型程序构成 , 首先是学习世界模型 , 接着是透过世界模型 , 从预测中学习行为 , 第三个程序则是执行在环境中学习的行为 , 以收集新的经验 。
在学习世界模型的部分 , Dreamer利用Google之前开发的PlaNet世界模型 , 该模型根据输入的图像 , 计算出一系列压缩模型状态序列来预测结果 , 这些模型状态指的是 , 对预测未来结果有帮助的概念 , 像是物件的类型丶位置和物件与周围环境的相互作用 , Google称这个能计算未来的能力为想像力 。
另一个Dreamer重点在于高效率学习行为 , 利用反向传播(Backpropagation)演算法来解决代理短视近利的问题 , 使世界模型能有效地学习行为 。
【新天域互联:谷歌与DeepMind合作释出Dreamer 可透过想像力学习行为】整体来说 , Dreamer在20个连续控制任务基准测试中 , 在效能、数据效率和计算时间都突破过去水准 。 谷歌指出 , 他们利用世界模型的预测序列 , 就能让代理学习行为 , 不仅以图像输入解决视觉控制任务 , 且效能超越过去的无模型方法 。 在Atari游戏测试上 , Dreamer也能良好地掌握离散动作 , 和存在多个物件得3D环境的多样化场景 。