不用摄像头和激光雷达,四足机器人「凭感觉」越野( 二 )


先模拟 , 再实战
相比之下 , 对于有足机器人 , 我们对于波士顿动力旗下的产品更加了解一些 , 不过来自苏黎世理工的 ANYmal 其实一样能力强大 。 基于学习的运动控制器使四足 ANYmal 机器人能够穿越充满挑战的自然环境 。
与此前的一些无模型强化学习腿式运动方法一样 , 研究人员先在模拟环境中训练了控制器 , 随后将训练结果迁移到现实世界中 。 通常 , 首先需要在虚拟环境中对物理条件进行建模 , 进而参数随机化 。
苏黎世理工的研究人员发现 , 这种方法对于更加崎岖的地形效果不佳 , 因此研究人员引入了一些其他方法 。 首先在模型上 , 新方法没有使用在机器人当前状态的快照上运行的多层感知器(MLP) , 而是使用了序列模型 , 特别是感受状态的时间卷积网络(TCN) 。 新方法没有使用显式的接触和滑动预估模块 , 相反的 TCN 会根据需求从本体感受历史中隐式地推理出接触和滑动事件 。
?
不用摄像头和激光雷达,四足机器人「凭感觉」越野文章插图
实现优化结果的第二个关键在于特权学习(privileged learning) , 研究人员发现直接通过强化学习训练出的越野运动策略并不成功:控制信号稀疏 , 并且所输出的网络无法在合理的时间内学习出正确的运动 。 新的模型在训练中分为两个阶段 , 首先训练教师策略 , 该策略可访问特权信息——真实情况(ground-truth)及机器人接触的情况 , 随后教师指导纯本体感受的学生控制器学习 , 后者仅使用机器人本身可用的传感器信息 。
这种特权学习会在模拟环境中启用 , 但最终学习到的策略可以在模拟环境 , 以及真实的物理环境中部署 。
不用摄像头和激光雷达,四足机器人「凭感觉」越野文章插图
第三个概念对于实现其鲁棒性很重要 。 该教程根据控制器在训练过程不同阶段的表现 , 对不同地形进行自适应 。 本质上 , 控制器会经历各种合成地形的考验 , 同时变得更具鲁棒性 。 研究者评估了参数化地形的可通行性 , 并使用了粒子滤波来维持中等难度地形参数的分布 , 以适应神经网络的学习 。 训练环境的挑战性逐渐增加 , 促使了这种敏捷性与弹性兼具的全方位控制器的诞生 。
借助腿式运动控制器 , 机器人可以穿越一些现有方法无法到达的复杂地形 。 该控制器拥有在零样本环境中的泛化能力 , 即使遇见训练过程中未见过的条件 , 仍然具备鲁棒性 。
研究者在模拟训练中只使用了刚性地貌和一组由程序生成的地形剖面 , 比如山丘和台阶 。 然而 , 当控制器被部署在四足机器人上时 , 它能够成功应对可变化地形(比如泥土、苔藓、雪地)、动态立足点(比如在杂乱室内环境踩到滚动板、田野中的碎片)和地面障碍物(厚植被、碎石、涌出的水) 。
从研究结果来看 , 不需要进行艰苦的建模过程 , 以及危险且高成本的实地测试 , 物理世界的极度复杂性也可以被克服 。 这一方法或许会引领未来腿式机器人的发展 。
更适合复杂环境 , 更适用于真实世界
在四足机器人领域里 , 名头更响的波士顿动力 Spot 已在今年开卖了 , 目前全球已卖出约 300 台 , 不过人们在使用 Spot 的时候会遭遇一些「翻车」情况 。
?
不用摄像头和激光雷达,四足机器人「凭感觉」越野文章插图
?
对于面向工业场景的用户来说 , 稳定性至关重要 , 在这方面不知 ANYmal 的机器人是否更加强大 。 在今年 6 月 , 这家公司的机器人也已向用户交付了自家的四足机器人 Anymal C 。
ANYmal 机器人由 ANYbotics 公司打造 。 ANYbotics 成立于 2016 年 , 是瑞士苏黎世联邦理工学院的衍生公司 , 致力于开发工业应用的移动机器人技术 。 该公司表示 , 其自动腿式机器人的设计目的是解决客户在具有挑战性的环境中遇到的问题 。 该公司已经在多个应用中进行过 ANYmal 机器人的成功测试 , 如在北海上进行的首例离岸机器人测试 。
ANYbotics 的团队表示 , 他们从事腿式机器人的研究已经超过 10 年 , 如今又根据工业需求重新对 ANYmal 机器人进行了设计 。 他们的研究核心是设计出强大的扭矩可控制动器 , 使得机器人能够爬上陡峭的楼梯 , 可靠地承受各种环境变化带来的压力 。
在过去的十年中 , ANYmal 系列机器人也经历了一系列的更新换代和技术革新 , 从最初的 ANYmal Alph 到 ANYmal Beth、ANYmal B 再到如今的 ANYmal C 。 经过数次迭代 , ANYmal 变得越发强大 。