OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?(16)
,
"DOWN"
], ["DOWN"
], ["DOWN"
,"B"
], ["B"
], [], ["LEFT"
,"B"
], ["RIGHT"
,"B"
]]● 奖赏函数:原始环境的奖赏函数是直接正比于智能体所在的x坐标值,即
score ∝ x
,由于不同游戏通关所走的x的距离不等,所以这里做了一个归一化,使得所有游戏上,智能体达到终点会得到一个9000的分数。
同时,为了鼓励智能体以尽可能短的时间到达终点,在一个episode结束后,还会根据智能体通关的时间给予一个0-1000的奖励,即在比赛开始即通关(虽然是不可能的)会有1000的奖励,到比赛约定的4500步(对应的是5分钟的游戏时间)才通关则有0的奖励,中间的线性插值可以得到。
- 新技术带来新挑战 网络信息安全创新永远在路上
- 遂宁首届抖音挑战赛决赛现场,小伙的"特异功能"惊艳全
- 世界人工智能大赛·智能机器人创新挑战赛决出前三强
- 江津四面山生态五项国际挑战赛下月开赛 总奖金50万等你来拿
- 挑战贝克汉姆老婆的健身餐,澳洲妹子直接吃到崩溃了!
- 刘鹤十年前提出的“经济挑战”都出现了!
- 离石白马仙洞举办山地自行车挑战赛精彩现场(视频/图)
- 刘鹤十年前提出的“经济挑战”都出现了
- 哈弗H9、传祺GS8、比亚迪唐出战,挑战日系最强硬汉,战况惨烈!
- 美国海军正式重启第二舰队 叫嚣为应对中俄挑战