如何提高强化学习效果？内在奖励和辅助任务( 六 )

Q2：你主要关注Meta-Gradient框架，请问您有什么理论能保证性能吗？比如：什么场景下效果会更好？
Singh：简单来说， Meta-Gradient就是不断的进行梯度计算。我们采用类似local minimize optimization等方法保证Meta-Gradient性能。但是这些计算是受内存限制的，仍然存在很大的挑战。简短的回答就是：我们没有很强的理论保障。但是我认为这里有很多有趣的工作值得去做。
参考文献
[1] Zheng Z, Oh J, Hessel M, et al. What Can Learned Intrinsic Rewards Capture?[J]. arXiv preprint arXiv:1912.05500, 2019.
[2] Veeriah V, Hessel M, Xu Z, et al. Discovery of useful questions as auxiliary tasks[C]//Advances in Neural Information Processing Systems. 2019: 9310-9321.
[博文视点赠书福利]
AI科技评论联合博文视点赠送周志华教授“森林树”十五本，在“周志华教授与他的森林书”一文留言区留言，谈一谈你和集成学习有关的学习、竞赛等经历。
AI 科技评论将会在留言区选出15名读者，每人送出《集成学习：基础与算法》一本。
活动规则：
1. 在“周志华教授与他的森林书”一文留言区留言，留言点赞最高的前 15 位读者将获得赠书。获得赠书的读者请联系 AI 科技评论客服（aitechreview）。
2. 留言内容会有筛选，例如“选我上去”等内容将不会被筛选，亦不会中奖。
3. 本活动时间为2020年8月23日 - 2020年8月30日（23:00），活动推送内仅允许中奖一次。