DeepMind最新论文:强化学习“足以”达到通用人工智能( 四 )


它是一个代理人根据复杂的观察序列(如接收句子)产生复杂的行动序列(如说出句子) , 以影响环境中的其他代理人并积累更大的奖励的能力的一个实例 。 理解和产生语言的压力可以来自许多奖励增加的好处 。
研究人员还讨论了泛化、模仿以及一般智能的奖励驱动基础 , 将其描述为 “在单一、复杂的环境中使单一奖励最大化 " 。 在这项研究中 , 研究人员在自然智能和通用人工智能之间进行了类比:“动物的经验流足够丰富和多样的 , 它可能需要一种灵活的能力来实现各种各样的子目标(例如觅食、战斗或逃跑) , 以便成功地最大化其整体奖励(例如饥饿或繁殖) 。 类似地 , 如果一个人工智能代理的经验流足够丰富 , 那么许多目标(例如电池寿命或生存)可能隐含地需要实现同样广泛的子目标的能力 , 因此奖励的最大化应该足以产生一种通用的人工智能 。 ”

“奖励最大化” 的强化学习
按照人工智能之父 John McCarthy 的说法 , “智力是在世界范围内实现目标的能力的计算部分” , 而后来发展起来的强化学习将寻求目标的智能问题正式化 , 对应于不同智能形式的奖励信号 , 在不同的环境中如何实现最大化 。
强化学习是人工智能算法的一个特殊分支 , 由三个关键要素组成:环境(Environment)、代理(Agent)和奖励(Reward) 。 通过执行操作 , 代理会改变自己和环境的状态 。 根据这些动作对代理必须实现的目标的影响程度 , 对其进行奖励或惩罚 。 在许多强化学习问题中 , 智能体没有环境的初始知识 , 并从随机动作开始 。 根据收到的反馈 , 代理学习调整其行为并制定最大化其奖励的策略 。

DeepMind最新论文:强化学习“足以”达到通用人工智能
本文插图



在强化学习研究领域的一个著名的例子:敲锣训猴 。 驯兽师在训练猴子时 , 以敲锣为信号来训练猴子站立敬礼 , 每当猴子很好地完成站立敬礼的动作 , 就会获得一定的食物奖励;如果没有完成或者完成的不对 , 不仅不会得到食物奖励 , 甚至会得到一顿鞭子抽打 。 由于听到敲锣后站立敬礼是猴子在所处环境下能够获得的最大收益 , 所以时间长了猴子自然在听到驯兽师敲锣后 , 就会站立敬礼 。

强化学习就是训练对象如何在环境给予的奖励或惩罚的刺激下 , 逐步形成对刺激的预期 , 产生能获得最大利益的习惯性行为 。 在这篇论文中 , DeepMind 的研究人员建议将强化学习作为主要算法 , 它可以复制自然界中看到的奖励最大化 , 并最终导致通用人工智能 。

研究人员写道:“如果一个智能体可以不断调整其行为以提高其累积奖励 , 那么其环境反复要求的任何能力最终都必须在智能体的行为中产生 。 ” 并补充说 , 一个好的强化学习代理可以在学习过程中获得表现出感知、语言、社会智能等的行为 , 以便在一个环境(如人类世界)中实现奖励最大化 , 在这个环境中 , 这些能力具有持续的价值 。