OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?(17)
不难发现,相比Atari的稀疏奖励,这里其实已经把问题简化了,除了1000的对通关时间的奖励,关于通关本身的奖励是稠密的:向前走就会有正向瞬时奖励,向后退就会有负向瞬时奖励。
这会显著的加速学习,但也带来一个致命缺陷,使得智能体的探索能力变得很弱,几乎没有回溯的能力,非常容易卡在一个需要回头走另一条路径的地方。针对这中情况,我们设计了一种非常巧妙的cache机制,使得智能体回退不产生负向奖赏,同时也避免了这种情况下智能体反复前进后退的trivial解。
self.episode_negbuf
=0
...reward = env.step
(action)
if
reward <0
or self.episode_negbuf
<0
: self.episode_negbuf
- 新技术带来新挑战 网络信息安全创新永远在路上
- 遂宁首届抖音挑战赛决赛现场,小伙的"特异功能"惊艳全
- 世界人工智能大赛·智能机器人创新挑战赛决出前三强
- 江津四面山生态五项国际挑战赛下月开赛 总奖金50万等你来拿
- 挑战贝克汉姆老婆的健身餐,澳洲妹子直接吃到崩溃了!
- 刘鹤十年前提出的“经济挑战”都出现了!
- 离石白马仙洞举办山地自行车挑战赛精彩现场(视频/图)
- 刘鹤十年前提出的“经济挑战”都出现了
- 哈弗H9、传祺GS8、比亚迪唐出战,挑战日系最强硬汉,战况惨烈!
- 美国海军正式重启第二舰队 叫嚣为应对中俄挑战