秀秀科技智能体并行性加强，DeepMind最新力作：分布式强化学习框架Acme( 二 ) 选自DeepMind博客机器之心编译参与：蛋

研究者在controlsuite、Atari和bsuite等环境中对这些智能体进行了基准测试，下面动图Demo为利用Acme框架的智能体训练示例：

文章图片
如下图所示， DeepMind展示了单个智能体（D4PG）的性能比较，其中所采用的度量指标是连续控制任务的actorstep和时钟时间。可以看到，当对智能体收到的奖励与其环境交互次数进行比较时，性能大致相同。但是，随着智能体进一步并行化，智能体的学习速度加快。在相对较小的域内，观察结果被限制在小的特征空间中，这时即使并行化程度适度增加，则智能体学习最优策略的时间会降至不到一半。

文章图片
但对于更复杂的域，图像生成成本相对较高，我们可以看到更广泛的增益：

文章图片
对于雅达利游戏等数据收集成本更高且学习过程通常更长的域说，增益会更大。但需要注意的是，这些结果在分布式和非分布式设置下共享相同的动作和学习代码，因此对这些智能体和结果进行小规模实验完全可行。
【秀秀科技智能体并行性加强，DeepMind最新力作：分布式强化学习框架Acme】原文链接：https://deepmind.com/research/publications/Acme

秀秀科技 智能体并行性加强，DeepMind最新力作：分布式强化学习框架Acme( 二 )

秀秀科技智能体并行性加强，DeepMind最新力作：分布式强化学习框架Acme( 二 )