OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?(18)
+= reward reward =
0
工程优化
不同于OpenAI使用MPI实现了joint PPO,我们选择了更为方便的tensorflow的分布式并行方案:ps节点作为参数服务器,worker节点用作采样和梯度计算。具体而言,在每个worker中维护了一个retro游戏的环境,该worker通过和这个环境交互产生四元组(s,a,r,s′)
数据,并在这批数据上计算策略梯度,发送至参数服务器进行全局更新。
在一般的监督学习任务中,通常定义好图,feed进数据直接sess.run就可以了,为了尽可能的利用GPU的并行,一般来说feed的数据的batch数肯定要远大于1的。
- 新技术带来新挑战 网络信息安全创新永远在路上
- 遂宁首届抖音挑战赛决赛现场,小伙的"特异功能"惊艳全
- 世界人工智能大赛·智能机器人创新挑战赛决出前三强
- 江津四面山生态五项国际挑战赛下月开赛 总奖金50万等你来拿
- 挑战贝克汉姆老婆的健身餐,澳洲妹子直接吃到崩溃了!
- 刘鹤十年前提出的“经济挑战”都出现了!
- 离石白马仙洞举办山地自行车挑战赛精彩现场(视频/图)
- 刘鹤十年前提出的“经济挑战”都出现了
- 哈弗H9、传祺GS8、比亚迪唐出战,挑战日系最强硬汉,战况惨烈!
- 美国海军正式重启第二舰队 叫嚣为应对中俄挑战