如何提高强化学习效果?内在奖励和辅助任务( 四 )


如何提高强化学习效果?内在奖励和辅助任务
本文插图
图9:处理非固定任务实验结果
2.4.5 性能(performance)
设计实验与手动设置内部奖励方法进行比较 , 如图10所示 , 前三个子图代表静态任务 , 在三个子图中学习到的内在奖励函数获得最高的Episode Return 。 最后一个子图代表非静态任务 , 可以看到在任务发生改变时通过学习到的内在奖励函数智能体的表现可以最快的恢复到最佳状态 。
如何提高强化学习效果?内在奖励和辅助任务
本文插图
图10:Learned v.s. Handcrafted Intrinsic Rewards
如何提高强化学习效果?内在奖励和辅助任务
本文插图
图11:Comparison to policy transfer methods
图11中展示的是与策略转移(Policy Transfer)方法(比如:MAML、RL2)的实验比较结果 , 可以看出内部奖励方法的表现优于MAML , 最终达到同RL2一样的效果 。 这是因为内部奖励方法需要从部分Episode中学习策略 , 而RL2有一个好的初始化策略 。
2.4.6迁移到新智能体环境
因为有些情况下策略是不能转移的 , 所以通用转移内部奖励比策略转移更可行 。 图12中 , 采用新的动作空间(Action Space)来验证训练得到的内部奖励 , 因此策略无法进行转移 。 Permuted Actions是指左/右和上/下的语义相反 , Extended Actions是指添加4个对角移动的动作 。 从图中可以看到学习到的内在奖励可以很好的转移到新的动作空间中 , 对新环境是敏感的 。

如何提高强化学习效果?内在奖励和辅助任务
本文插图
图12:Generalisation to new agent-environment interfaces in Random ABC
2.4.7 Ablation Study
如图13所示 , 蓝色曲线代表将Lifetime的历史行为作为输入的LSTM内部奖励网络 , 橙色曲线代表将Episode历史行为作为输入的LSTM内部奖励网络 , 绿色带表去掉Lifetime历史行为 。 从图中可以看出绿色曲线表现最差 。 这表明智能体在探索过程中 , Lifetime History很重要 。 橙色曲线基本都比绿色曲线表现差 , 这也表明了long-term Lifetime History在智能体平衡Exploration和Exploitation过程中是必需的 。
如何提高强化学习效果?内在奖励和辅助任务
本文插图
图13:Evaluation of different intrinsic reward architectures and Objectives
2.4.8 总结
文章中证明通过Meta-Gradient方法可以学习到有用的内在奖励 。 学习内在奖励可以捕获到有用的规律应用于智能体的Exploration和Exploitation 。 同时捕获到的知识可以迁移到其他学习环境的智能体上 。 目前该方法仍然太简单 , 有很多限制 , Satinder Singh教授他们未来将研究在更加复杂环境下的内在奖励学习 。
3 辅助任务
第二项工作由Satinder Singh教授和他的DeepMind同事共同完成的 。 文章的题目是:《Discovery of Useful Questions as Auxiliary Tasks》[2] 。
3.1 预测问题
基本上所有的机器学习研究都是通过学习回答预先定义好的问题 。 为了能够实现更一般的人工智能 , 智能体需要能够自己发现问题并回答这些问题 。 在本文中 , 作者关注于将发现问题作为辅助任务来帮助构造智能体的表示 。
3.2 General Value Functions (GVFs)
General value Functions是指表示任意状态特征的价值函数 , 是强化学习中的价值函数的扩展 , 它可以由如下公式表示 。
如何提高强化学习效果?内在奖励和辅助任务