新天域互联：谷歌与DeepMind合作释出Dreamer 可透过想像力学习行为

谷歌（Google）与DeepMind合作研发的Dreamer是一种增强学习代理，能够预测模型状态的序列，学习较长远行为（Long-sighted），且利用图像输入， Dreamer还能解决连续控制任务，应付需要反应、远见、空间感知和场景理解的操作。
人工智能（AI）的增强学习研究正蓬勃发展，增强学习无模型方法可以透过反复试错，学习预测成功的行动，使得AI能够在即时战略游戏中打赢人类。但据香港IDC新天域互联获悉，增强学习需要代理人与环境进行大量互动之后，才能达到良好成效，这同时也限制了将其应用在现实世界中的机会，因为在现实世界中出错，可能导致不可弥补的损失。

本文插图
比起无模型增强学习，基于模型的增强学习方法可以学习精简化的环境模型，使代理能够预测潜在行动序列的结果，并在各种假设情况下做出反应，进而减少为实现目标，所需要进行反复试错次数。
现在谷歌与DeepMind的Dreamer是一种增强学习代理，透过经训练过的世界模型所提供的潜在想像力，帮助代理解决长时间任务，也就是说， Dreamer会预测模型状态的序列，学习较长远的行为。 Dreamer由3个典型程序构成，首先是学习世界模型，接着是透过世界模型，从预测中学习行为，第三个程序则是执行在环境中学习的行为，以收集新的经验。
在学习世界模型的部分， Dreamer利用Google之前开发的PlaNet世界模型，该模型根据输入的图像，计算出一系列压缩模型状态序列来预测结果，这些模型状态指的是，对预测未来结果有帮助的概念，像是物件的类型丶位置和物件与周围环境的相互作用， Google称这个能计算未来的能力为想像力。
另一个Dreamer重点在于高效率学习行为，利用反向传播（Backpropagation）演算法来解决代理短视近利的问题，使世界模型能有效地学习行为。
【新天域互联：谷歌与DeepMind合作释出Dreamer 可透过想像力学习行为】整体来说， Dreamer在20个连续控制任务基准测试中，在效能、数据效率和计算时间都突破过去水准。谷歌指出，他们利用世界模型的预测序列，就能让代理学习行为，不仅以图像输入解决视觉控制任务，且效能超越过去的无模型方法。在Atari游戏测试上， Dreamer也能良好地掌握离散动作，和存在多个物件得3D环境的多样化场景。