NeurIPS 2020 | 清华联合密歇根大学: 兼顾想象与现实的基于模型强化学习算法：NeurIPS2020|清华联合密歇根

原标题：NeurIPS2020|清华联合密歇根大学:兼顾想象与现实的基于模型强化学习算法
作者：清华大学交叉信息学院博士生朱广翔
第·15·期
本文将分享清华大学联合密歇根大学发表于NeurIPS2020的工作：《兼顾想象与现实的基于模型强化学习算法》。
为了提高样本利用效率，越来越多研究者们关注基于模型的强化学习，建立世界模型并基于虚拟轨迹进行策略优化，类似人类的“想象”和“规划” 。然而，世界模型的学习容易过拟合训练轨迹，基于世界模型的价值估计和策略搜索很容易陷入局部最优。
本文提出了一种全新的基于模型的强化学习算法，最大化了世界模型中生成的虚拟轨迹和真实世界的采样轨迹之间的互信息，使得在世界模型中的策略优化过程也会考虑到与真实世界的差异性及各种可能轨迹的置信度，因此从虚拟轨迹中学习到的策略提升可以很容易地推广到真实轨迹上。在以视觉图像为输入的机器人控制任务公开数据集上，该算法超越了当前最先进的基于模型强化学习算法。

文章图片
https://papers.nips.cc/paper/2020/file/661b1e76b95cc50a7a11a85619a67d95-Paper.pdf
一、研究背景
强化学习(Reinforcementlearning ， RL)作为一种针对人工智能问题的通用学习框架，在许多领域取得了巨大的进展。
无模型强化学习(Model-FreeReinforcementlearning)采用了一种不断在环境中试错的范式，直接学习从观测值映射到行为的策略函数。这就类似我们训练狗狗，如果做对了动作会给予奖励，错误给予惩罚，狗狗在不断的试错过程中逐渐学会看到了什么指令做什么动作。
无模型学习范式由于其简单性、通用性和几乎对环境没有特殊假设，它在视频游戏和连续控制任务中取得了大量的领先成果。然而，无模型方法的样本效率并不高，往往需数倍于人的训练样本，这限制了它在实际任务中的应用。
样本利用效率问题一直是深度强化学习的主要挑战之一。为了提高样本利用效率，近年来越来越多的研究者们开始关注基于模型的强化学习(Model-BasedReinforcementlearning) 。这一类基于模型的方法，旨在通过对外界环境建立世界模型(WorldModel) ，然后在世界模型中对策略进行探索，对状态的值函数进行估计，并进行策略优化来获得世界模型中的最优策略。这就类似于人类行为中的“想象”和“规划” ，可以不依赖真实世界的样本进行策略优化，在实际做出决策之前预估各种可能性结果并选择最优方案。
基于模型的强化学习可以大致分为以下四类：
第一类：Dyna式算法(Dyna-stylealgorithms) 。这一类算法主要由两个两部分构成：与环境的交互过程中构建世界模型，利用模型生成的虚拟数据扩充真实数据池来进行策略优化。这两部分交替进行，迭代优化。
第二类：模型预测控制及shooting算法(modelpredictivecontrolandshootingalgorithms) 。这一类算法主要交替进行模型拟合、策略规划和动作执行。策略规划即，基于模型生成大量的轨迹并预测收益，从其中选择最好的策略作为执行策略。
第三类：基于模型的值扩展算法(model-augmentedvalueexpansionalgorithms) 。这类算法根据贝尔曼方程的有模型展开式，来扩展无模型的TD更新目标或策略梯度。
第四类：解析梯度算法(analytic-gradientalgorithms) 。这类算法直接对世界模型生成的虚拟轨迹的收益值关于策略函数求梯度，并通过可微分的世界模型将该梯度直接传播到策略网络。相比于传统的策略规划，解析梯度算法不需要生成一群轨迹进行收益预测和选优，而是只根据梯度找到世界模型下最优的策略，相当于可微分规划(differentiableplanning) ，因此计算效率更高，尤其是在具有深层神经网络的场景中。
谷歌的最新算法Dreamer ，作为解析梯度算法的最新里程碑式工作，在机器人视觉控制任务上达到了最高的性能。但是Dreamer在策略优化的过程中，只考虑到了世界模型中的策略提升梯度，忽略了真实世界的采样。而世界模型的学习往往会过拟合训练轨迹，因此Dreamer基于世界模型的价值估计和策略搜索很容易陷入局部最优。
针对这个问题，本文提出了一种全新的基于模型的强化学习算法，称为BrIdgingRealityandDream(BIRD) 。它最大化了世界模型中生成的虚拟轨迹和真实世界的采样轨迹之间的互信息，使得在世界模型中的策略优化过程也会考虑到与真实世界的差异性及各种可能路径的置信度，因此从虚拟轨迹中学习到的策略提升可以很容易地推广到真实轨迹上。