如何提高强化学习效果?内在奖励和辅助任务( 六 )
Q2:你主要关注Meta-Gradient框架 , 请问您有什么理论能保证性能吗?比如:什么场景下效果会更好?
Singh:简单来说 , Meta-Gradient就是不断的进行梯度计算 。 我们采用类似local minimize optimization等方法保证Meta-Gradient性能 。 但是这些计算是受内存限制的 , 仍然存在很大的挑战 。 简短的回答就是:我们没有很强的理论保障 。 但是我认为这里有很多有趣的工作值得去做 。
参考文献
[1] Zheng Z, Oh J, Hessel M, et al. What Can Learned Intrinsic Rewards Capture?[J]. arXiv preprint arXiv:1912.05500, 2019.
[2] Veeriah V, Hessel M, Xu Z, et al. Discovery of useful questions as auxiliary tasks[C]//Advances in Neural Information Processing Systems. 2019: 9310-9321.
[博文视点赠书福利]
AI科技评论联合博文视点赠送周志华教授“森林树”十五本 , 在“周志华教授与他的森林书”一文留言区留言 , 谈一谈你和集成学习有关的学习、竞赛等经历 。
AI 科技评论将会在留言区选出15名读者 , 每人送出《集成学习:基础与算法》一本 。
活动规则:
1. 在“周志华教授与他的森林书”一文留言区留言 , 留言点赞最高的前 15 位读者将获得赠书 。 获得赠书的读者请联系 AI 科技评论客服(aitechreview) 。
2. 留言内容会有筛选 , 例如“选我上去”等内容将不会被筛选 , 亦不会中奖 。
3. 本活动时间为2020年8月23日 - 2020年8月30日(23:00) , 活动推送内仅允许中奖一次 。
- 搜狐新闻|准大学生数码三件套如何选?这些元气好物值得种草
- 想好好做医生的胖子|五十岁女性经常有周身无力和疼痛的困扰!该如何应对?医生告诉您
- 儿童饮食|秋冬季如何让宝宝爱上吃水果?稍微蒸一下美味翻倍,营养价值更高
- 队员|北极科考中“遭遇”北极熊,看科考队员如何与它们和谐相处
- 【】房租涨涨涨?新政拟规定不得单方面提高租金
- 【】五部门出台新规强化值班律师法律援助
- 中国历史发展过程|中国历史发展过程!中国游戏外挂发展史:“辅助工具”是如何成长为“苍
- 金色年华录|都是男扮女装谈恋爱,《少女大人》比《女世子》如何?
- 上海市嘉定区人民政府网站|每年消耗3350吨蔬菜150吨肉,嘉定这家中央厨房如何践行“光盘行动”?
- 上海嘉定|如何让《民法典》走进群众心里?嘉定这些街镇和单位这样做