机器人新增“一键重置”算法，将有助于它们更快地学习年度订阅用户可加入科技英语学习社区

年度订阅用户可加入科技英语学习社区，每周科技英语直播讲堂，详情查看“阅读原文”

深度增强学习的学习模式很像孩子：熟能生巧。对于机器人这样的智能体而言，进行任务切换时必须将其环境重置到原始状态，这种琐事有时候会耗费人类几个小时。

谷歌大脑、剑桥大学、马克斯·普朗克智能系统研究所及加州大学伯克利分校的研究人员在 arXiv 上联合发表了一篇论文，详细介绍了一种可以让智能体在下一次任务前重置环境的方法，同时还能阻止智能体执行不可逆转行动。

其创新点在于，让智能体在“前进”与“重置”两种策略下同时工作。在前进策略下执行学习任务时，重置策略可以迫使智能体有效地撤消任务，并且“不留痕迹”。机器人会尽可能快地中止被认为是不可逆转的行动。

研究人员希望赋予智能体一种“直觉”：将可逆转事物划分为安全行动类别，因为这样智能体就能回归到原始状态。通过反复实验，智能体发现了越来越多的可逆转性行动，以保证其安全运行。

深度增强学习通常是在模拟环境下进行的，在容错率更低的现实世界中更应如此，比如一辆在悬崖边行驶的汽车。即使是在安全环境下，等待手动重置也将成为数据收集的瓶颈。所以，团队的研究工作仅局限于虚拟环境。但最终，现实世界的测试是必不可少的，智能体也将变得更快、更安全。

正如 Jack Clark 在 Import AI 上所指出的，这篇论文与 Facebook 人工智能实验室（FAIR）上月发表的一篇论文的研究工作产生共鸣。FAIR 的智能体有两个独立的模式，分别是 Alice 和 Bob，他们一个尝试逆转任务进程，另一个则尽力完成行动。这种工作模式让 AI 能够提前规划行动，可以让我们避免未来的灾难性失误。

-End-

编辑：孙小彪校审：郝锕铀

参考：http://www.technologyreview.com/the-download/609562/robots-get-an-undo-button-that-could-help-them-learn-faster/