TensorFlow| PWIL:不依赖对抗性的新型模拟学习( 二 )


类人机器人Humanoid-v2/衡量真实模仿学习环境的相似度
与 ML 领域的众多挑战类似 , 许多 IL 方法都在合成任务上进行评估 , 其中通常有一种方法可以使用任务的底层奖励函数 , 并且可以根据性能(即预期的奖励总和)来衡量专家行为与智能体行为之间的相似度 。
PWIL 过程中会创建一个指标 , 该指标可以针对任何 IL 方法 。 这种方法能将专家行为与智能体行为进行比较 , 而无需获得真正的任务奖励 。 从这个意义上讲 , 我们可以在真正的 IL 环境中使用 Wasserstein 距离 , 而不仅限于合成任务 。
结论
在交互成本较高的环境(例如 , 真实的机器人或复杂的模拟器)中 , PWIL 可以作为首选方案 , 不仅因为它可以还原专家的行为 , 还因为它所定义的奖励函数易于调整 , 且无需与环境交互即可定义 。
这为未来的探索提供了许多机会 , 包括部署到实际系统、将 PWIL 扩展到只能使用演示状态(而不是状态和动作)的设置 , 以及最终将 PWIL 应用于基于视觉的观察 。
TensorFlow| PWIL:不依赖对抗性的新型模拟学习文章插图
【TensorFlow| PWIL:不依赖对抗性的新型模拟学习】转载自:谷歌开发者官方账号【TensotFlow】原创文章