陈述根本|人工智能的单台计算机训练突破,陈根:需求导向的研究

文/陈根
人工智能技术的发展离不开大量的数据资源 , 其中 , 最需要数据的技术之一就是深度强化学习 , 即人工智能通过反复进行的数百万次模拟、试错进行学习 。 这也意味着 , 资金较为缺乏的学术界实验室很难赶上富有的科技公司 。
近日 , 来自南加州大学和英特尔实验室的一个团队创造了一种方法 , 可以在学术实验室常见的硬件上训练深度强化学习算法 。 在2020年国际机器学习大会(ICML)上 , 他们发表了一篇论文 , 描述了他们如何能够使用一个高端工作站来训练人工智能 。
陈述根本|人工智能的单台计算机训练突破,陈根:需求导向的研究
文章图片
有趣的是 , 该项目的灵感来源与研究人员的研究需求息息相关 。 该项目的主要作者 , 南加州大学的研究生AlekseiPetrenko在英特尔的暑期实习即将结束时 , 失去了进入该公司超级计算集群的机会 , 使尚未完成的深度强化学习项目陷入危险之中 。 所以他和同事们决定找到一种方法 , 继续研究其项目 。
深度强化学习的领先方法是将一个人工智能体置于一个模拟环境中 , 该环境为实现某些目标提供奖励 , 智能体以此作为反馈来制定最佳策略 。 这涉及到三个主要的计算工作:模拟环境和Agent;根据学习到的规则决定下一步做什么 , 称为策略;并使用这些操作的结果更新策略 。
Petrenko表示 , 训练总是受到最慢过程的限制 , 但在标准的深度强化学习方法中 , 这三项工作往往是交织在一起的 , 因此很难单独优化它们 。 研究人员的新方法 , 被称为样本工厂 , 将它们分开 , 这样资源就可以被专门用来使它们都以峰值速度运行 。
陈述根本|人工智能的单台计算机训练突破,陈根:需求导向的研究
文章图片
Petrenko解释说 , 进程之间的数据管道化是另一个主要瓶颈 , 因为这些数据通常会分散在多台机器上 。 而其团队利用了在一台机器上工作的优势 , 简单地将所有数据塞进共享内存 , 所有进程都可以同时访问这些数据 , 这极大加快了运行的速度 , 而后 , 在3D训练环境DeepMindLab中 , 他们的训练速度达到每秒4万帧 , 比第二名提高了15% 。
【陈述根本|人工智能的单台计算机训练突破,陈根:需求导向的研究】此外 , 法国里昂国家应用科学研究所从事深度强化学习研究的研究生 , EdwardBeeching表示 , 这种方法可能难以应对记忆密集型挑战 , 比如Facebook去年发布的真实感3D模拟器Habitat 。 但他补充说 , 这类有效的培训方法对于小型研究团队至关重要 。