陈述根本|人工智能的单台计算机训练突破，陈根：需求导向的研究文/陈根人工智能技术的发展离不开大量

文/陈根
人工智能技术的发展离不开大量的数据资源，其中，最需要数据的技术之一就是深度强化学习，即人工智能通过反复进行的数百万次模拟、试错进行学习。这也意味着，资金较为缺乏的学术界实验室很难赶上富有的科技公司。
近日，来自南加州大学和英特尔实验室的一个团队创造了一种方法，可以在学术实验室常见的硬件上训练深度强化学习算法。在2020年国际机器学习大会（ICML）上，他们发表了一篇论文，描述了他们如何能够使用一个高端工作站来训练人工智能。

文章图片
有趣的是，该项目的灵感来源与研究人员的研究需求息息相关。该项目的主要作者，南加州大学的研究生AlekseiPetrenko在英特尔的暑期实习即将结束时，失去了进入该公司超级计算集群的机会，使尚未完成的深度强化学习项目陷入危险之中。所以他和同事们决定找到一种方法，继续研究其项目。
深度强化学习的领先方法是将一个人工智能体置于一个模拟环境中，该环境为实现某些目标提供奖励，智能体以此作为反馈来制定最佳策略。这涉及到三个主要的计算工作:模拟环境和Agent；根据学习到的规则决定下一步做什么，称为策略；并使用这些操作的结果更新策略。
Petrenko表示，训练总是受到最慢过程的限制，但在标准的深度强化学习方法中，这三项工作往往是交织在一起的，因此很难单独优化它们。研究人员的新方法，被称为样本工厂，将它们分开，这样资源就可以被专门用来使它们都以峰值速度运行。

文章图片
Petrenko解释说，进程之间的数据管道化是另一个主要瓶颈，因为这些数据通常会分散在多台机器上。而其团队利用了在一台机器上工作的优势，简单地将所有数据塞进共享内存，所有进程都可以同时访问这些数据，这极大加快了运行的速度，而后，在3D训练环境DeepMindLab中，他们的训练速度达到每秒4万帧，比第二名提高了15% 。
【陈述根本|人工智能的单台计算机训练突破，陈根：需求导向的研究】此外，法国里昂国家应用科学研究所从事深度强化学习研究的研究生， EdwardBeeching表示，这种方法可能难以应对记忆密集型挑战，比如Facebook去年发布的真实感3D模拟器Habitat 。但他补充说，这类有效的培训方法对于小型研究团队至关重要。