机器人新增“一键重置”算法,将有助于它们更快地学习

机器人新增“一键重置”算法,将有助于它们更快地学习

年度订阅用户可加入科技英语学习社区,每周科技英语直播讲堂,详情查看“阅读原文”

深度增强学习的学习模式很像孩子:熟能生巧。对于机器人这样的智能体而言,进行任务切换时必须将其环境重置到原始状态,这种琐事有时候会耗费人类几个小时。

机器人新增“一键重置”算法,将有助于它们更快地学习

谷歌大脑、剑桥大学、马克斯·普朗克智能系统研究所及加州大学伯克利分校的研究人员在 arXiv 上联合发表了一篇论文,详细介绍了一种可以让智能体在下一次任务前重置环境的方法,同时还能阻止智能体执行不可逆转行动。

其创新点在于,让智能体在“前进”与“重置”两种策略下同时工作。在前进策略下执行学习任务时,重置策略可以迫使智能体有效地撤消任务,并且“不留痕迹”。机器人会尽可能快地中止被认为是不可逆转的行动。

研究人员希望赋予智能体一种“直觉”:将可逆转事物划分为安全行动类别,因为这样智能体就能回归到原始状态。通过反复实验,智能体发现了越来越多的可逆转性行动,以保证其安全运行。

深度增强学习通常是在模拟环境下进行的,在容错率更低的现实世界中更应如此,比如一辆在悬崖边行驶的汽车。即使是在安全环境下,等待手动重置也将成为数据收集的瓶颈。所以,团队的研究工作仅局限于虚拟环境。但最终,现实世界的测试是必不可少的,智能体也将变得更快、更安全。

正如 Jack Clark 在 Import AI 上所指出的,这篇论文与 Facebook 人工智能实验室(FAIR)上月发表的一篇论文的研究工作产生共鸣。FAIR 的智能体有两个独立的模式,分别是 Alice 和 Bob,他们一个尝试逆转任务进程,另一个则尽力完成行动。这种工作模式让 AI 能够提前规划行动,可以让我们避免未来的灾难性失误。

-End-

编辑:孙小彪   校审:郝锕铀

参考:http://www.technologyreview.com/the-download/609562/robots-get-an-undo-button-that-could-help-them-learn-faster/

机器人新增“一键重置”算法,将有助于它们更快地学习