OpenAI 挑战《索尼克》，阿里南大队如何一举夺魁？(20)

2018-07-13

π

(

s

)

都会使worker向ps发起同步请求。在我们的每次训练迭代中，会固定的采集8192步，则意味着每次迭代中至少需要从ps同步全局权重8192次。

在只有一个环境的前提下，

π

(

s

)

输入的数据的batch只有1（只有一个状态)），无法充分利用GPU并行。

对应的解决方案也很直接

将π对应的actor网络复制一份到本地，每次迭代之前先将全局的actor网络同步至本地的actor网络，再使用本地actor进行采样。

上一篇：Android解放双手之Gradle自动化打包实战

下一篇：360都没它好使，赶紧安排上