秀秀科技 智能体并行性加强,DeepMind最新力作:分布式强化学习框架Acme( 二 )
研究者在controlsuite、Atari和bsuite等环境中对这些智能体进行了基准测试 , 下面动图Demo为利用Acme框架的智能体训练示例:
文章图片
如下图所示 , DeepMind展示了单个智能体(D4PG)的性能比较 , 其中所采用的度量指标是连续控制任务的actorstep和时钟时间 。 可以看到 , 当对智能体收到的奖励与其环境交互次数进行比较时 , 性能大致相同 。 但是 , 随着智能体进一步并行化 , 智能体的学习速度加快 。 在相对较小的域内 , 观察结果被限制在小的特征空间中 , 这时即使并行化程度适度增加 , 则智能体学习最优策略的时间会降至不到一半 。
文章图片
但对于更复杂的域 , 图像生成成本相对较高 , 我们可以看到更广泛的增益:
文章图片
对于雅达利游戏等数据收集成本更高且学习过程通常更长的域说 , 增益会更大 。 但需要注意的是 , 这些结果在分布式和非分布式设置下共享相同的动作和学习代码 , 因此对这些智能体和结果进行小规模实验完全可行 。
【秀秀科技 智能体并行性加强,DeepMind最新力作:分布式强化学习框架Acme】原文链接:https://deepmind.com/research/publications/Acme
- 科技犬君上半年用户喜爱手机盘点;小米电视大师65英寸OLED vs 索尼A9G 谁强?
- 科技生活快报TB5000mAh大电池还有65W超级快充!这些手机让你摆脱充电焦虑
- 精选泛科技一加8续航遭质疑:上半年最全机型横评出炉,结果如何?
- 阿拉图图科技说三星新机口碑虽好,但中国市场销量翻车,用户几乎跑光!
- 华为Mate30美科技界:华为再强大也只是一家民企,我们究竟在怕什么?
- 行业|高增长+高回撤!请收好这份“补票”名单,11只核心资产股入围,百亿科技股已跌出“深坑”
- 阿拉图图科技说 给做了!,雷军服不服?苹果要把雷军敢说不敢做的事情
- 网罗说科技 5G和iQOO Z1谁更强,简直不敢相信,同样是5G中端机,真我X50
- 黑叔科技 4K全面屏+独创性屏下透镜技术,你粉了吗,索尼顶级5G概念机曝光
- 快科技|阿里辟谣:不会高薪聘请黑阿里网站的人 直接交给警方