DeepMind最新论文:强化学习“足以”达到通用人工智能( 二 )



DeepMind最新论文:强化学习“足以”达到通用人工智能
本文插图



Deep Mind 的研究人员提出的另一种创建人工智能的方法:重新创建产生自然智能的简单而有效的规则 。 为什么自然界中的的动物和人类会表现出丰富多样的智能行为?Silver 等人指出 , 可能是由于每一种能力都源于对一个目标的追求 , 而这个目标是专门为激发这种能力而设计的 。 为此 , 该研究设计了一个替代假设:最大化奖励的一般目标足以驱动表现出自然和人工智能研究的大部分(尽管不是全部)能力的行为 。 ”
这种假设基本上是遵守达尔文的生物进化论 。 从科学的角度分析 , 在我们周围看到的复杂有机体中 , 并没有自上而下的智能设计 。 数十亿年的自然选择和随机变异过滤了生命形式 , 使其适合生存和繁殖 , 能够更好地应对环境中的挑战和情况的生物设法生存和繁殖 。 其余的都被淘汰了 。

这种简单而有效的机制导致了具有各种感知、导航、改变环境和相互交流的技能和能力的生物去进化 。

DeepMind最新论文:强化学习“足以”达到通用人工智能
本文插图


图 | “奖励就足够” 的假设 , 假定智力及其相关能力可以被理解为在其环境中行动的主体促进奖励的最大化
研究人员在论文中写道:“动物和人类面临的自然世界 , 以及人工代理未来面临的环境 , 本质上都是如此复杂 , 以至于它们需要复杂的能力才能在这些环境中生存下来 。 因此 , 以奖励最大化来衡量的成功需要各种与智力相关的能力 。 在这样的环境中 , 任何使奖励最大化的行为都必须表现出这些能力 。 从这个意义上说 , 奖励最大化的一般目标包含许多甚至可能的所有智能目标 。 ”
例如 , 考虑一只松鼠 , 它为了寻求减少饥饿的奖励 。 一方面 , 它的感官和运动技能帮助它在有食物时定位和收集坚果 。 但是 , 当食物变得稀缺时 , 一只只去寻找食物的松鼠必然会饿死 。 这就是为什么它也有计划技能和记忆来缓存坚果并在冬天恢复它们 。 松鼠具有社交技能和知识 , 可以确保其他动物不会偷吃它的坚果 。 如果你放大来看 , 饥饿最小化可能是 “活下去” 的一个子目标 , 这还需要一些技能 , 例如发现和躲避危险动物、保护自己免受环境威胁以及寻找季节性变化的更好栖息地 。

研究人员写道:“当与智力相关的能力作为奖励最大化的单一目标的解决方案出现时 , 这实际上可能提供了一个更深入的理解 , 因为它解释了为什么这种能力会出现 。 相反 , 当每一种能力被理解为其自身专门目标的解决方案时 , 为了关注该能力的作用 , 为什么的问题就被绕开了 。 ”