如何提高强化学习效果?内在奖励和辅助任务( 三 )
本文插图
图4:Truncated Meta-Gradients with Bootstrapping
2.4 实验
Satinder Singh教授分享了他们是如何实验通过Meta-Gradients方法更新内部奖励函数参数的 。
2.4.1方法(Methodology)
1、设计特定领域的一系列具有特定规律的任务 。
2、训练跨多生命周期的内部奖励函数 。
3、评价分析学习到的内部奖励函数在新的生命周期的效果 。
2.4.2 探索不确定状态
实验设置如图5所示 , 引入四个环境房间 , 智能体(图中蓝色方块)在每个Episode中找到不可见的目标位置 。 这个目标位置在不同的生命周期不同 , 由随机采样得到 。 但是每个生命周期的目标位置是确定的 。 如果智能体到达目标位置 , 则当前Episode结束 。
本文插图
图5:探索不确定状态实验
这个实验中的最优表现应该是:在生命周期的第一个Episode,智能体可以高效的探索整个房间来找到目标位置 。 当找到目标位置 , 则第一个Episode结束 。 从第二个Episode开始 , 智能体能够记住目标位置在哪并直接到达目标位置 。
本文插图
图6:不同方法的智能体探索轨迹对比分析
图6中展示了生命周期内智能体的探索轨迹 , 图(a)中黄色的位置代表对于智能体不可见的目标位置 , (b)是智能体采用学习到的内在奖励函数方法 , (c)是智能体采用外部奖励方法 , (d)是智能体采用Count-Based Exploration 方法 。 可以看到 , (b)中有更多的黄色和绿色充满了四个房间 , 这表明采用学习到的内在奖励函数在探索过程中表现更好 。
2.4.3 探索不确定的目的
实验设置如图7所示 , 有三个目的(Object)A、B、C , 它们分别具有不同的奖励 , A表示不好也不坏 , B表示总是坏的 , C表示并没有那么好 。 这些Object在不同的生命周期内不同 , 通过随机采样产生 , 在特定的生命周期内是固定的 。 智能体收集到这三个目的中的任何一个 , 则该Episode结束 。
本文插图
图7:探索不确定目的实验
在这个实验中 , 我们希望学习到内在奖励函数可以捕获到的规律是:规避B , 因为它总是不好的 , 同时可以快速的指出A和C到底哪个更好 , 并在剩下的生命周期内总是做出最好的选择 。 为了学到这些规律 , 智能体需要跨多个Episode进行探索学习 。 图8展示了不同的Episode中探索到的Object , 图中每个方格代表每个轨迹中积累的内在奖励 , 蓝色代表正的奖励 , 红色代表负的奖励 。 可以看到在Episode 1中 , 推荐Object A,在Episode 2中推荐Object C,在Episode 3中推荐Object A , 整个过程中都没有推荐Object B , 它的颜色总是红的 。
本文插图
图8:每个轨迹的内部奖励可视化
2.4.4 处理非固定任务
在这个实验中 , 假设A和C的外部奖励在一定时间后会发生变化 , 智能体需要学习预测这个变化是在什么时候发生 , 以此来改变策略适应新的任务 。 图9展示了实验结果 , 左侧图中蓝色柱状条代表内部奖励 , 在开始时内部奖励一直是正的 , 大约在Episode 400接近500的时候 , 内在奖励开始变为负值(绿色框的部分) , 即智能体开始缓慢的调整策略 , 到达Episode 500时 , 策略调整为一个新的行为来应对新的任务 。
右侧图展示了整个过程策略的Entropy变化 , 可以看到在前400个Episodes中Entropy一直保持很小 , 当内部奖励为负值时 , 智能体不知道任务会如何改变 , 因此它的Entropy开始增加 。 紧接着 , 智能体可以快速学习到这些改变 , 做出策略调整 , 快速适应新的任务 。
- 搜狐新闻|准大学生数码三件套如何选?这些元气好物值得种草
- 想好好做医生的胖子|五十岁女性经常有周身无力和疼痛的困扰!该如何应对?医生告诉您
- 儿童饮食|秋冬季如何让宝宝爱上吃水果?稍微蒸一下美味翻倍,营养价值更高
- 队员|北极科考中“遭遇”北极熊,看科考队员如何与它们和谐相处
- 【】房租涨涨涨?新政拟规定不得单方面提高租金
- 【】五部门出台新规强化值班律师法律援助
- 中国历史发展过程|中国历史发展过程!中国游戏外挂发展史:“辅助工具”是如何成长为“苍
- 金色年华录|都是男扮女装谈恋爱,《少女大人》比《女世子》如何?
- 上海市嘉定区人民政府网站|每年消耗3350吨蔬菜150吨肉,嘉定这家中央厨房如何践行“光盘行动”?
- 上海嘉定|如何让《民法典》走进群众心里?嘉定这些街镇和单位这样做