OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?(18)

+= reward    reward =

0

工程优化



不同于OpenAI使用MPI实现了joint PPO,我们选择了更为方便的tensorflow的分布式并行方案:ps节点作为参数服务器,worker节点用作采样和梯度计算。具体而言,在每个worker中维护了一个retro游戏的环境,该worker通过和这个环境交互产生四元组(s,a,r,s′)

数据,并在这批数据上计算策略梯度,发送至参数服务器进行全局更新。



在一般的监督学习任务中,通常定义好图,feed进数据直接sess.run就可以了,为了尽可能的利用GPU的并行,一般来说feed的数据的batch数肯定要远大于1的。