通常用于训练狗狗的正强化法可帮助科学家教机器人学习新技巧

据外媒报道 , 世界上可能没有一家机器人师范学院在积极开展机器人学习 。 毕竟 , 这个领域掌握着开启行业大量潜力的钥匙 。 让它如此引人注目的事情之一是 , 如此多的研究人员正在采取无数不同的方法来解开帮助机器人本质上从头学习的秘密 。 约翰斯·霍普金斯大学的一篇新论文以 "好机器人 "为题 , 探讨了通过正强化学习的潜力 。 这个标题来源于作者Andrew Hundt关于教他的狗不要追逐松鼠的轶事 。
通常用于训练狗狗的正强化法可帮助科学家教机器人学习新技巧文章插图
【通常用于训练狗狗的正强化法可帮助科学家教机器人学习新技巧】但这个想法的核心是 , 当机器人做对了事情时 , 要给它一些激励 , 而不是当它做错了事情时 , 要给它一些惩罚 。 对于机器人来说 , 激励措施以评分系统的形式出现--本质上是一种游戏化 , 根据正确执行任务的情况奖励若干积分 。
这位博士生表示 , 这种方法能够大大缩短任务的训练时间 。 “机器人希望得到更高的分数 , ”Hundt在与研究相关的新闻稿中说 。 “它很快就学会了正确的行为 , 以获得最好的奖励 。 事实上 , 过去机器人需要一个月的练习才能达到100%的准确性 。 我们能够在两天内完成 。 ”
这些任务仍然是相当初级的 , 包括堆积积木和在视频游戏中导航 , 但人们希望未来的机器人能够努力完成更复杂和有用的现实世界任务 。