OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?(21)
每个worker维护n份同一个环境的副本(在不同进程中,cpu上的并行),每次
π
(
s
)
对n个状态同时进行决策,即这里s的batch数为n。值得指出的是,这里的n并不是越大越好,因为总帧数固定的话,n越大则意味着学习算法在环境上的迭代次数变少了,所以真正的训练中我们采用了
n
=
10
这个相对合理的数值。结合采样步数8192,所以对应的训练op的batch数是81920,这个是会撑爆显存的,所以实际上我们将这将近8万条样本拆成若干个小batch分批执行,最终使得一张p100卡可以同时运行3个这样的worker。
joint PPO训练
- 新技术带来新挑战 网络信息安全创新永远在路上
- 遂宁首届抖音挑战赛决赛现场,小伙的"特异功能"惊艳全
- 世界人工智能大赛·智能机器人创新挑战赛决出前三强
- 江津四面山生态五项国际挑战赛下月开赛 总奖金50万等你来拿
- 挑战贝克汉姆老婆的健身餐,澳洲妹子直接吃到崩溃了!
- 刘鹤十年前提出的“经济挑战”都出现了!
- 离石白马仙洞举办山地自行车挑战赛精彩现场(视频/图)
- 刘鹤十年前提出的“经济挑战”都出现了
- 哈弗H9、传祺GS8、比亚迪唐出战,挑战日系最强硬汉,战况惨烈!
- 美国海军正式重启第二舰队 叫嚣为应对中俄挑战