OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?(21)



  • 每个worker维护n份同一个环境的副本(在不同进程中,cpu上的并行),每次

    π

    (

    s

    )

    对n个状态同时进行决策,即这里s的batch数为n。值得指出的是,这里的n并不是越大越好,因为总帧数固定的话,n越大则意味着学习算法在环境上的迭代次数变少了,所以真正的训练中我们采用了

    n

    =

    10

    这个相对合理的数值。结合采样步数8192,所以对应的训练op的batch数是81920,这个是会撑爆显存的,所以实际上我们将这将近8万条样本拆成若干个小batch分批执行,最终使得一张p100卡可以同时运行3个这样的worker。



  • joint PPO训练