文本游戏中战略探索的多阶段偶发控制
【文本游戏中战略探索的多阶段偶发控制】文字冒险游戏由于其组合性的大行动空间和稀疏的奖励,对强化学习方法提出了独特的挑战 。这两个因素的相互作用要求特别高,因为大行动空间需要广泛的探索,而稀疏的奖励提供有限的反馈 。这项工作提出了一个多阶段的方法来解决探索与开发的两难问题,该方法在每个情节中明确地将这两种策略分开 。我们的算法,即eXploit-then-eXplore(XTX),在每一集开始使用模仿过去一组有希望的轨迹的剥削策略,然后切换到旨在发现导致未见过的状态空间的新行动的探索策略 。这种政策分解使我们能够将关于返回哪部分游戏空间的全局决定与基于好奇心的空间局部探索结合起来,其动机是人类如何接近这些游戏 。在Jericho基准(Hausknecht等人,2020年)的12个游戏中,我们的方法在确定性和随机性的设置中分别比先前的方法明显地优于27%和11%的平均正常化分数 。特别是在Zork1游戏中,XTX获得了103分,比以前的方法提高了2倍多,并且突破了困扰以前最先进方法的几个已知的游戏瓶颈 。
《Multi-Stage Episodic Control for Strategic Exploration in Text Games》
论文地址:网页链接
文章插图
文章插图
文章插图
文章插图
文章插图
文章插图
文章插图
文章插图
文章插图
文章插图
文章插图
文章插图
文章插图
文章插图
文章插图
文章插图
文章插图
文章插图
- 80后90后的时代眼泪,还有多少人记得,当年玩网游是要买安装光盘的?
- 英雄联盟手游 给你的上分建议,让你排位上分更轻松!
- 我最早接触的网络游戏是盛大陈天桥推出的传奇世界
- 【游戏迷】夏季游戏节2022回归 将有开幕式直播
- 【游戏迷】《伊苏8:达娜的安魂曲》将于秋季推出原生PS5版
- 全球最好的游戏小窗口魅族Flyme8游戏助手!
- 防止儿童沉溺于游戏的解决方案?不可否认
- 科技快讯 B站深绑索尼再造游戏印钞机外,需好好拜师Aniplex抛开哔
- 卡牌手游一直都是玩家们的最爱,想必其他游戏,卡牌类手游更加耐玩
- 现在的男同事,休息时间,就一群人约好打手游,难怪自己单身,大好时光,不去追女生