OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?(20)

π

(

s

)

都会使worker向ps发起同步请求。在我们的每次训练迭代中,会固定的采集8192步,则意味着每次迭代中至少需要从ps同步全局权重8192次。

  • 在只有一个环境的前提下,

    π

    (

    s

    )

    输入的数据的batch只有1(只有一个状态)),无法充分利用GPU并行。



  • 对应的解决方案也很直接



  • 将π对应的actor网络复制一份到本地,每次迭代之前先将全局的actor网络同步至本地的actor网络,再使用本地actor进行采样。