如何提高强化学习效果?内在奖励和辅助任务( 四 )
本文插图
图9:处理非固定任务实验结果
2.4.5 性能(performance)
设计实验与手动设置内部奖励方法进行比较 , 如图10所示 , 前三个子图代表静态任务 , 在三个子图中学习到的内在奖励函数获得最高的Episode Return 。 最后一个子图代表非静态任务 , 可以看到在任务发生改变时通过学习到的内在奖励函数智能体的表现可以最快的恢复到最佳状态 。
本文插图
图10:Learned v.s. Handcrafted Intrinsic Rewards
本文插图
图11:Comparison to policy transfer methods
图11中展示的是与策略转移(Policy Transfer)方法(比如:MAML、RL2)的实验比较结果 , 可以看出内部奖励方法的表现优于MAML , 最终达到同RL2一样的效果 。 这是因为内部奖励方法需要从部分Episode中学习策略 , 而RL2有一个好的初始化策略 。
2.4.6迁移到新智能体环境
因为有些情况下策略是不能转移的 , 所以通用转移内部奖励比策略转移更可行 。 图12中 , 采用新的动作空间(Action Space)来验证训练得到的内部奖励 , 因此策略无法进行转移 。 Permuted Actions是指左/右和上/下的语义相反 , Extended Actions是指添加4个对角移动的动作 。 从图中可以看到学习到的内在奖励可以很好的转移到新的动作空间中 , 对新环境是敏感的 。
本文插图
图12:Generalisation to new agent-environment interfaces in Random ABC
2.4.7 Ablation Study
如图13所示 , 蓝色曲线代表将Lifetime的历史行为作为输入的LSTM内部奖励网络 , 橙色曲线代表将Episode历史行为作为输入的LSTM内部奖励网络 , 绿色带表去掉Lifetime历史行为 。 从图中可以看出绿色曲线表现最差 。 这表明智能体在探索过程中 , Lifetime History很重要 。 橙色曲线基本都比绿色曲线表现差 , 这也表明了long-term Lifetime History在智能体平衡Exploration和Exploitation过程中是必需的 。
本文插图
图13:Evaluation of different intrinsic reward architectures and Objectives
2.4.8 总结
文章中证明通过Meta-Gradient方法可以学习到有用的内在奖励 。 学习内在奖励可以捕获到有用的规律应用于智能体的Exploration和Exploitation 。 同时捕获到的知识可以迁移到其他学习环境的智能体上 。 目前该方法仍然太简单 , 有很多限制 , Satinder Singh教授他们未来将研究在更加复杂环境下的内在奖励学习 。
3 辅助任务
第二项工作由Satinder Singh教授和他的DeepMind同事共同完成的 。 文章的题目是:《Discovery of Useful Questions as Auxiliary Tasks》[2] 。
3.1 预测问题
基本上所有的机器学习研究都是通过学习回答预先定义好的问题 。 为了能够实现更一般的人工智能 , 智能体需要能够自己发现问题并回答这些问题 。 在本文中 , 作者关注于将发现问题作为辅助任务来帮助构造智能体的表示 。
3.2 General Value Functions (GVFs)
General value Functions是指表示任意状态特征的价值函数 , 是强化学习中的价值函数的扩展 , 它可以由如下公式表示 。
- 搜狐新闻|准大学生数码三件套如何选?这些元气好物值得种草
- 想好好做医生的胖子|五十岁女性经常有周身无力和疼痛的困扰!该如何应对?医生告诉您
- 儿童饮食|秋冬季如何让宝宝爱上吃水果?稍微蒸一下美味翻倍,营养价值更高
- 队员|北极科考中“遭遇”北极熊,看科考队员如何与它们和谐相处
- 【】房租涨涨涨?新政拟规定不得单方面提高租金
- 【】五部门出台新规强化值班律师法律援助
- 中国历史发展过程|中国历史发展过程!中国游戏外挂发展史:“辅助工具”是如何成长为“苍
- 金色年华录|都是男扮女装谈恋爱,《少女大人》比《女世子》如何?
- 上海市嘉定区人民政府网站|每年消耗3350吨蔬菜150吨肉,嘉定这家中央厨房如何践行“光盘行动”?
- 上海嘉定|如何让《民法典》走进群众心里?嘉定这些街镇和单位这样做