傻大方


首页 > 潮·科技 > >

rl|如何让人模仿猎豹走路?Stuart Russell提出基于最优传输的跨域模仿学习



按关键词阅读: 当当网 隐私 泄露 漏洞 账户

rl|如何让人模仿猎豹走路?Stuart Russell提出基于最优传输的跨域模仿学习
文章插图
Stuart Russell等人使用Gromov-Wasserstein距离来对齐和比较智能体不同空间之间的状态,从而使人模仿猎豹走路成为可能。
编译 | 杏花
编辑 | 青暮
跨域模仿学习研究的是如何利用一个智能体的专家演示来训练一个具有不同实施方式或形态的模仿智能体。比较专家智能体和模仿智能体之间的轨迹和平稳分布是具有挑战性的,因为它们生活在不同的系统中,甚至可能不具有相同的维数。
近日,来自加州大学伯克利分校人工智能实验室、伦敦大学学院和 Facebook AI 的研究人员在一篇论文 Cross-Domain Imitiation Learning via Optimal Transport 中提出了 Gromov-Wasserstein 模仿学习(GWIL),这是一种跨域模仿的方法,使用 Gromov-Wasserstein 距离来对齐和比较智能体不同空间之间的状态。
rl|如何让人模仿猎豹走路?Stuart Russell提出基于最优传输的跨域模仿学习
文章插图

论文地址:https://arxiv.org/pdf/2110.03684v1.pdf

1

研究背景
强化学习(RL)已经在许多领域取得了令人惊艳的成果。然而,当前RL的有效性与训练奖励的质量密切相关。但是,对于许多现实世界的任务来说,设计密集且信息丰富的奖励需要大量的工程工作。为了减轻这种工作量,模仿学习(IL)建议直接从专家演示中学习。
但是,当前大多数的 IL 方法仅可以应用于最简单的设置,在这种设置中,专家和智能体共享相同的实施和转换动态,它们生活在相同的状态和动作空间。尤其是这些方法需要来自智能体域的专家演示。
因此,论文的研究人员重新考虑了 IL 的效用,因为它似乎只是将问题从设计信息性奖励迁移到提供专家演示,而不是解决问题。然而,如果放宽当前 IL 方法的约束设置,那么真正减轻工程量的自然模仿场景就会出现。事实上,不需要相同的动力学就能使智能体模仿不同形态的人类和机器人,从而广泛扩大 IL 的适用性,并减轻对域内专家演示的需求。
这种专家演示来自另一个域的宽松设置已成为更具现实假设意义的新兴领域,被称为跨域模仿学习。这些工作的一个共同策略是学习专家域和智能体域之间的映射。为此,它们需要访问智能体任务,在这些任务中,专家和智能体都在各自的域中发挥最优作用。在一定的结构假设下,该映射能够在保持最优性的前提下,将专家域内的轨迹转化为智能体域内的轨迹。虽然这些方法确实放宽了 IL 的典型设置,但对代理任务的要求严重限制了跨域 IL 的适用性。例如,它排除了模仿以前从未见过的专家以及转移到新机器人的可能性。
rl|如何让人模仿猎豹走路?Stuart Russell提出基于最优传输的跨域模仿学习】本篇论文中,研究人员放宽了跨域 IL 的假设,提出了一个不需要访问智能体任务的基准和方法。为此,研究人员脱离了先前工作的观点,将跨域 IL 形式化为最优传输问题,提出了一种Gromov-Wasserstein模仿学习方法(GWIL),该方法使用 Gromov-Wasserstein 距离来求解基准。研究者们论文里正式描述了 GWIL 保持最优性的场景,揭示了其可能性和局限性。实验表明,在非平凡连续控制设置中,GWIL通过一个单一的演示从另一个域学习最优行为,而不需要任何智能体任务。

2

相关工作
模仿学习。IL 的早期研究方法是行为克隆,这相当于通过监督学习训练分类器或回归器来复制专家的演示。另一种关键方法是逆强化学习,它旨在学习一个奖励函数,在该奖励函数下观察到的演示是最优的,然后可以通过 RL 来训练智能体。
为了跳过学习专家奖励函数,Ho & Ermon 证明了 RL 是占用度量匹配问题的对偶,并提出了一个对抗性目标,该目标的优化近似恢复专家的状态-动作占用度量,以及使用生成式对抗网络的实用算法。虽然最近的一些工作旨在改进该算法相对于由极大极小优化引起的训练不稳定性,Primal Wasserstein模仿学习(PWIL)和 Sinkhorn 模仿学习(SIL)将 IL视为占用措施之间的最优传输问题,以完全消除极大极小目标,并在样本效率方面优于对抗性方法。


稿源:(雷锋网)

【傻大方】网址:/c/111cC1592021.html

标题:rl|如何让人模仿猎豹走路?Stuart Russell提出基于最优传输的跨域模仿学习


上一篇:TCL|挑战苹果?特斯拉手机再曝,这外观可以给满分了

下一篇:摇滚乐队|抖音与摩登天空达成版权合作