OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?(16)

,

"DOWN"

], [

"DOWN"

], [

"DOWN"

,

"B"

], [

"B"

], [], [

"LEFT"

,

"B"

], [

"RIGHT"

,

"B"

]]

● 奖赏函数:原始环境的奖赏函数是直接正比于智能体所在的x坐标值,即

score ∝ x

,由于不同游戏通关所走的x的距离不等,所以这里做了一个归一化,使得所有游戏上,智能体达到终点会得到一个9000的分数。



同时,为了鼓励智能体以尽可能短的时间到达终点,在一个episode结束后,还会根据智能体通关的时间给予一个0-1000的奖励,即在比赛开始即通关(虽然是不可能的)会有1000的奖励,到比赛约定的4500步(对应的是5分钟的游戏时间)才通关则有0的奖励,中间的线性插值可以得到。