OpenAI 挑战《索尼克》，阿里南大队如何一举夺魁？(16)

2018-07-13

,

"DOWN"

], [

"DOWN"

], [

"DOWN"

,

"B"

], [

"B"

], [], [

"LEFT"

,

"B"

], [

"RIGHT"

,

"B"

]]

● 奖赏函数：原始环境的奖赏函数是直接正比于智能体所在的x坐标值，即

score ∝ x

，由于不同游戏通关所走的x的距离不等，所以这里做了一个归一化，使得所有游戏上，智能体达到终点会得到一个9000的分数。

同时，为了鼓励智能体以尽可能短的时间到达终点，在一个episode结束后，还会根据智能体通关的时间给予一个0-1000的奖励，即在比赛开始即通关（虽然是不可能的）会有1000的奖励，到比赛约定的4500步（对应的是5分钟的游戏时间）才通关则有0的奖励，中间的线性插值可以得到。

上一篇：Android解放双手之Gradle自动化打包实战

下一篇：360都没它好使，赶紧安排上