人工智能@训练成本降低80%!谷歌开源SEED RL强化学习框架,降低AI创企压力


人工智能@训练成本降低80%!谷歌开源SEED RL强化学习框架,降低AI创企压力
本文插图
智东西(公众号:zhidxcom)编 | 韦世玮
智东西3月24日消息 , 美国当地时间3月23日 , 谷歌开源了一个名为SEED RL的强化学习(RL)框架 , 能够将人工智能(AI)模型训练扩展到数千台机器 , 有助于在一台机器上以每秒数百万帧的速度进行训练 , 并将训练成本降低多达80% 。
这一强化学习框架的开源 , 也将为那些AI创企和小型AI实验室创造一个低成本、公平的竞争环境 。
据了解 , 该研究论文已于2019年10月15日提交在预印本平台arXiv , 并在今年2月11日进行了最新修订 , 名为《SEED RL:具有加速的集中推理功能的可扩展且高效的Deep-RL(SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference)》 。
人工智能@训练成本降低80%!谷歌开源SEED RL强化学习框架,降低AI创企压力
本文插图
论文链接:https://arxiv.org/abs/1910.06591
一、为何要研发并开源RL框架? 实际上 , 就现阶段而言 , 在云端训练复杂的机器学习模型十分昂贵 。
据研究报告数据 , 华盛顿大学(University of Washington)的Grover专为生成和检测假新闻而设计 , 该模型在两周的在训练中共花费了2.5万美元;OpenAI训练其GPT-2语言模型 , 每小时需花费256美元;谷歌训练其BERT双向转换器模型 , 预估也花费了6912美元 。
而这些模型前期的训练成本 , 对一些大型AI实验室或科技巨头来说也许不足为提 , 但对于许多的AI创企和小型AI实验室而言 , 却带来了压力 。
二、SEED RL的特点与性能 基于谷歌的TensorFlow 2.0框架 , SEED RL的特点是能通过集中模型推理 , 来利用图形卡和TPU(张量处理单元) 。
【人工智能@训练成本降低80%!谷歌开源SEED RL强化学习框架,降低AI创企压力】为了避免数据传输瓶颈 , SEED RL还使用学习器组件来集中执行AI推理 , 而该组件也使用来自分布式推理的输入来训练模型 。
此外 , 目标模型的变量和状态信息将保持在本地 , 并将每个环境步骤的观察结果发送给学习器组件 。 同时 , 由于该模型使用了基于开放源代码通用RPC框架的网络库 , 因此它的延迟也将保持在最低水平 。
人工智能@训练成本降低80%!谷歌开源SEED RL强化学习框架,降低AI创企压力
本文插图
SEED RL的学习器组件能够扩展到成千上万个核心 , 例如在Cloud TPU上最多可扩展到2048个 , 而参与者的数量可扩展多达数千台机器 。
同时 , 一种名为V-trace的算法可从中采样动作的分布 , 而另一种名为R2D2的算法则根据该动作的预测未来值来选择动作 。
三、如何评估SEED RL性能? 为了评估SEED RL , 谷歌研究团队在常用的Arcade学习环境、几种DeepMind实验室环境和谷歌足球环境中 , 对SEED RL进行了基准测试 。
研究人员表示 , 他们利用SEED RL成功地解决了谷歌足球任务 , 并使用64个云TPU核实现了每秒240万帧的帧数 , 比以前最新的分布式代理提高了80倍 。
人工智能@训练成本降低80%!谷歌开源SEED RL强化学习框架,降低AI创企压力
本文插图
“这大大缩短了挂钟时间 , 实现了显著的加速效果 。 同时 , 由于加速器的每次操作成本比CPU低几个数量级 , 因此模型实验的成本也实现了大幅降低 。 ”在研究人员看来 , SEED RL和提交的测试结果表明 , 在利用加速器方面 , 强化学习再次超越了深度学习的其他领域 。
文章来源:VentureBeat
感谢阅读 。 点击关注上船 , 带你浪在科技前沿~