TensorFlow| PWIL:不依赖对抗性的新型模拟学习( 二 )
类人机器人Humanoid-v2/
衡量真实模仿学习环境的相似度
与 ML 领域的众多挑战类似 , 许多 IL 方法都在合成任务上进行评估 , 其中通常有一种方法可以使用任务的底层奖励函数 , 并且可以根据性能(即预期的奖励总和)来衡量专家行为与智能体行为之间的相似度 。
PWIL 过程中会创建一个指标 , 该指标可以针对任何 IL 方法 。 这种方法能将专家行为与智能体行为进行比较 , 而无需获得真正的任务奖励 。 从这个意义上讲 , 我们可以在真正的 IL 环境中使用 Wasserstein 距离 , 而不仅限于合成任务 。
结论
在交互成本较高的环境(例如 , 真实的机器人或复杂的模拟器)中 , PWIL 可以作为首选方案 , 不仅因为它可以还原专家的行为 , 还因为它所定义的奖励函数易于调整 , 且无需与环境交互即可定义 。
这为未来的探索提供了许多机会 , 包括部署到实际系统、将 PWIL 扩展到只能使用演示状态(而不是状态和动作)的设置 , 以及最终将 PWIL 应用于基于视觉的观察 。
文章插图
【TensorFlow| PWIL:不依赖对抗性的新型模拟学习】转载自:谷歌开发者官方账号【TensotFlow】原创文章
- 印度这是在玩火?与日本联手合作5G技术,只为摆脱中国技术依赖
- 轻巧无依赖,Javascript简单的轮播插件——Siema
- Python|TensorFlow 、Caffe等9大主流人工智能框架优劣势分析
- 65亿元购下英特尔专利,苹果开始自研基带芯片,或不再依赖高通
- 国内已具备批量生产高端剃须刀用钢能力,酒钢再次打破依赖进口
- 为什么分布式应用程序需要依赖管理?
- 对比PyTorch和TensorFlow的自动差异和动态模型
- 5个简单的步骤掌握Tensorflow的Tensor
- 库克回应用户沉溺设备 称不会设计让人过分依赖的产品
- 使用tensorflow和Keras的初级教程