DeepMind最新论文：强化学习“足以”达到通用人工智能( 四 )

它是一个代理人根据复杂的观察序列（如接收句子）产生复杂的行动序列（如说出句子），以影响环境中的其他代理人并积累更大的奖励的能力的一个实例。理解和产生语言的压力可以来自许多奖励增加的好处。
研究人员还讨论了泛化、模仿以及一般智能的奖励驱动基础，将其描述为 “在单一、复杂的环境中使单一奖励最大化 " 。在这项研究中，研究人员在自然智能和通用人工智能之间进行了类比：“动物的经验流足够丰富和多样的，它可能需要一种灵活的能力来实现各种各样的子目标（例如觅食、战斗或逃跑），以便成功地最大化其整体奖励（例如饥饿或繁殖）。类似地，如果一个人工智能代理的经验流足够丰富，那么许多目标（例如电池寿命或生存）可能隐含地需要实现同样广泛的子目标的能力，因此奖励的最大化应该足以产生一种通用的人工智能。 ”

“奖励最大化” 的强化学习
按照人工智能之父 John McCarthy 的说法， “智力是在世界范围内实现目标的能力的计算部分” ，而后来发展起来的强化学习将寻求目标的智能问题正式化，对应于不同智能形式的奖励信号，在不同的环境中如何实现最大化。
强化学习是人工智能算法的一个特殊分支，由三个关键要素组成：环境（Environment）、代理（Agent）和奖励（Reward）。通过执行操作，代理会改变自己和环境的状态。根据这些动作对代理必须实现的目标的影响程度，对其进行奖励或惩罚。在许多强化学习问题中，智能体没有环境的初始知识，并从随机动作开始。根据收到的反馈，代理学习调整其行为并制定最大化其奖励的策略。

本文插图

在强化学习研究领域的一个著名的例子：敲锣训猴。驯兽师在训练猴子时，以敲锣为信号来训练猴子站立敬礼，每当猴子很好地完成站立敬礼的动作，就会获得一定的食物奖励；如果没有完成或者完成的不对，不仅不会得到食物奖励，甚至会得到一顿鞭子抽打。由于听到敲锣后站立敬礼是猴子在所处环境下能够获得的最大收益，所以时间长了猴子自然在听到驯兽师敲锣后，就会站立敬礼。

强化学习就是训练对象如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。在这篇论文中， DeepMind 的研究人员建议将强化学习作为主要算法，它可以复制自然界中看到的奖励最大化，并最终导致通用人工智能。

研究人员写道：“如果一个智能体可以不断调整其行为以提高其累积奖励，那么其环境反复要求的任何能力最终都必须在智能体的行为中产生。 ” 并补充说，一个好的强化学习代理可以在学习过程中获得表现出感知、语言、社会智能等的行为，以便在一个环境（如人类世界）中实现奖励最大化，在这个环境中，这些能力具有持续的价值。