Quora:波士顿动动力的机器人用的是什么学习算法?谷歌工程师的

特别声明:《Quora:波士顿动动力的机器人用的是什么学习算法?谷歌工程师的回答》转载于网络,并不代表傻大方资讯网的立场。



新智元AI World 2017世界人工智能大会开场视频

中国人工智能资讯智库社交主平台新智元主办的 AI WORLD 2017 世界人工智能大会11月8日在北京国家会议中心举行,大会以“AI 新万象,中国智能+”为主题,上百位AI领袖作了覆盖技术、学术和产业最前沿的报告和讨论,2000多名业内人士参会。新智元创始人兼CEO杨静在会上发布全球首个AI专家互动资讯平台“新智元V享圈”。

全程回顾新智元AI World 2017世界人工智能大会盛况:

新华网图文回顾

http://www.xinhuanet.com/money/jrzb20171108/index.htm

爱奇艺

上午:http://www.iqiyi.com/v_19rrdp002w.html

下午:http://www.iqiyi.com/v_19rrdozo4c.html

阿里云云栖社区

http://yq.aliyun.com/webinar/play/316?spm=5176.8067841.wnnow.14.ZrBcrm

  新智元报道  

来源:quora

编辑:弗格森

【新智元导读】 波士顿动动力的机器人用的是什么学习算法?来自谷歌工程师和两位机器人博士的回答。

Quora:波士顿动动力的机器人用的是什么学习算法?谷歌工程师的

1、Eric Jang, Research Engineer at Google Brain

正如其他答案所提到的,BD在他们的机器人控制算法中并没有使用太多的机器学习。

波士顿动力学公司也没有公布他们使用什么技术,但是我去年现场听了马克·拉贝特(Marc Raibert)在NIPS的演讲,似乎他们的工作是基于“灵活机器人动态顺序组合”(由Burridge,Rizzi,和1999年的Koditscheck(论文:https://kodlab.seas.upenn.edu/up ...)。

它们都机器人策略使用基于模型的控制器,该控制器又被表示为在局部区域状态空间上操作的“成本漏斗”的顺序组成。

Quora:波士顿动动力的机器人用的是什么学习算法?谷歌工程师的

您可以将“系统”(即机器人及其环境)的当前状态视为这些漏斗之一的一个点。

最底部的漏斗的最小值代表系统的“期望状态”,漏斗的结构代表在局部小的局域空间中局部动态的一个合理模型。

这种方法不是建立与状态无关的全局动态模型,而是模拟状态依赖的局部动态,其中状态空间区域由知道如何将系统同轴转移到另一个漏斗(我们还有另一个精确的局部模型)的模型“处理”。

只要状态估计是好的,策略就可以动态稳定地从一个状态转换到另一个状态(理想状态是成本较低)。这就解释了为什么BD的以控制理论为中心的方法依赖于这种精确的驱动和传感器。

我们使用这种方法实现“泛化”的方式是通过人类为国家空间的区域设计手动工程漏斗,并设计出所有漏斗最终导致的吸收性“漏斗”。我怀疑这需要对每个任务进行仔细的设计(例如,一组独立的漏斗可以使机器人直线运动,一组单独的漏斗可以倒转,等等)。这样做的好处是,我们对模型的假设有了很好的理解(因为漏斗是人为处理特定的边缘情况而手工指定的),因此机器人具备稳定性。

缺点是这些控制理论方法需要对每个任务进行完整的模型规范(例如像房屋这样的动态环境的高阶或与滞后的材料或系统可识别性的相互作用)。从长远考虑,也不清楚这些漏斗如何构建,使机器人能够思考,记忆和学习环境。无论你想称之为“在线校准”,“适应”,还是“学习”,完全指定的模型都只能得到你的目标,并且对未知的系统动力学有一定程度的鲁棒性。

Emo Todorov在2017年的一次演讲中给出了一些有关他们策略的见解,迄今为止,这是我能找到的最好的公开描述 :