DeepMind最新论文:强化学习“足以”达到通用人工智能( 三 )



研究人员认为 , 在可能的奖励最大化方法中 , 最通用和可扩展的方法是智能体通过试错及与环境的交互来学习这样做 。

通过 “奖励最大化” 发展能力
在这篇论文中 , 研究人员列举了一些高级示例 , 来说明 “在为许多可能的奖励信号最大化服务中 , 智能和相关能力将如何隐含地出现 , 对应于自然或人工智能可能指向的许多实用的目标 。 ”
在知识和学习方面 , 研究人员将知识定义为代理人的内部信息 , 包含代理人选择行动、预测累积奖励或预测未来观察的特征 , 这些知识有先天具备的 , 也有后天学习而来的知识 。 奖励和环境也塑造了动物与生俱来的知识 。 例如 , 由狮子和猎豹等掠食性动物统治的敌对栖息地会奖励反刍动物 , 它们自出生以来就具有逃避威胁的先天知识 。 同时 , 动物也因其学习栖息地特定知识的能力而获得奖励 , 例如在哪里可以找到食物和住所 。
通过列举生物世界的学习 , 说明环境可能同时需要先天和后天的知识 , 奖励最大化的代理将在需要时 , 通过自然代理的进化和人工代理的设计包含前者 , 并通过学习获得后者 。 在更丰富和更长久的环境中 , 需求的平衡越来越向学习知识转移 。

DeepMind最新论文:强化学习“足以”达到通用人工智能
本文插图
【DeepMind最新论文:强化学习“足以”达到通用人工智能】


在感知方面 , 动物的感官技能服务于在复杂环境中生存的需要 。 对象识别使动物能够检测食物、猎物、朋友和威胁 , 或找到路径、庇护所和栖息地;图像分割使他们能够分辨不同对象之间的差异 , 并避免致命错误 , 例如跑下悬崖或从树枝上掉下来;听觉有助于发现动物在伪装时看不到或找不到猎物的威胁;触觉、味觉和嗅觉也给动物带来优势 , 使其对栖息地有更丰富的感官体验 , 在危险的环境中获得更大的生存机会 。

于是 , 研究人员假设感知可以被理解为服务于奖励的最大化 。 从奖励最大化而不是监督学习的角度考虑感知 , 最终可能会支持更大范围的感知行为 , 包括具有挑战性和现实形式的感知能力 。
在社会智能方面 , 研究人员假设社会智能可以被理解为在包含其他代理人的环境中 , 从一个代理人的角度最大化累积奖励来实施 , 并推断出如果一个环境需要社会智能 , 奖励最大化将产生社会智能 。

在语言理解方面 , 研究人员假设语言能力的全部丰富性 , 包括所有这些更广泛的能力 , 产生于对奖励的追求 , 而理解和产生语言的压力可以来自许多奖励增加的好处 。 例如 , 一个代理人能够理解 "危险" 警告 , 那么它就可以预测并避免负面的奖励;如果一个代理可以产生 "取" 的命令 , 可能会导致环境将一个物体移到代理的附近 。 这些奖励的好处可能最终会导致代理人具备各种复杂的语言技能 。