正面增强方式缩短机器人学习时间作者：DIGITIMES陈明阳约翰霍普

作者：DIGITIMES陈明阳
文章插图
约翰霍普金斯大学(Johns Hopkins University)的研究团队指出运用基于分数奖励的正面增强(positive reinforcement)方式，能显著缩短训练机器人学习新技能以正确执行操作的时间，目前虽仅训练机器人叠积木等相当基本的操作，但未来可望执行更复杂且有用的实际工作。
【正面增强方式缩短机器人学习时间】训练机器人学习的方式攸关解锁机器人产业的众多商机，因此研究人员殚精竭虑的尝试各种方法，以找出协助机器人加速学习的秘诀。正面增强的学习奖励方式常用于狗的训练，核心在于当狗的动作或反应正确时表达激励态度与提供实质奖励，但不要在发生错误时显露抑制的负面态度。
机器人学家致力于发展能让机器人从错误中提高学习效率的方法，约翰霍普金斯大学研究团队发表的新论文《Good Robot》探索运用正面增强激励方式训练机器人的潜力，并基于相关机制来开发机器人的学习算法，协助没有高度直觉头脑、凡事都需从头学习的机器人，从试误中学习以建立目标技能。
研究团队借由游戏化的得分系统激励机器人，每当自我学习改善技能而正确执行一项作业就可以得若干分，机器人为了追求高分会加快学习以获取最佳奖励。研究团队首先以学习算法训练仿真的机器人，然后才训练实验室的机器人Spot以提高学习效率，结果原本机器人需要1个月的练习才能在叠积木时达到100%正确的操作，目前已可大幅缩短到2天。
在任何情况下都能从错误中学习是机器人适应新环境所不可或缺的能力，正面增强的学习奖励方式让Spot快速自学叠积木与玩导航模拟游戏等新技能，研究团队认为未来可能也将有助于训练家庭机器人，执行洗衣与洗碗等在开放市场上有需求的家务工作，让银发族与身障者等自理能力不足者生活更独立。
研究团队希望最终正面增强的学习奖励方式能在强化自驾车算法，或是机器人学习与执行产品组装、银发族照护、手术等实际且复杂的工作时兼顾效率与安全，不过研究团队目前还不知道如何程序化这些复杂工作。