实现AGI,强化学习就够了?Sutton:奖励机制足够实现各种目标


机器之心报道
编辑:小舟、陈萍
通用人工智能 , 用强化学习的奖励机制就能实现吗?
几十年来 , 在人工智能领域 , 计算机科学家设计并开发了各种复杂的机制和技术 , 以复现视觉、语言、推理、运动技能等智能能力 。 尽管这些努力使人工智能系统在有限的环境中能够有效地解决特定的问题 , 但却尚未开发出与人类和动物一般的智能系统 。
人们把具备与人类同等智慧、或超越人类的人工智能称为通用人工智能(AGI) 。 这种系统被认为可以执行人类能够执行的任何智能任务 , 它是人工智能领域主要研究目标之一 。 关于通用人工智能的探索正在不断发展 。 近日强化学习大佬 David Silver、Richard Sutton 等人在一篇名为《Reward is enough》的论文中提出将智能及其相关能力理解为促进奖励最大化 。
实现AGI,强化学习就够了?Sutton:奖励机制足够实现各种目标
本文插图
论文地址:https://www.sciencedirect.com/science/article/pii/S0004370221000862
该研究认为奖励足以驱动自然和人工智能领域所研究的智能行为 , 包括知识、学习、感知、社交智能、语言、泛化能力和模仿能力 , 并且研究者认为借助奖励最大化和试错经验就足以开发出具备智能能力的行为 。 因此 , 他们得出结论:强化学习将促进通用人工智能的发展 。
实现AGI,强化学习就够了?Sutton:奖励机制足够实现各种目标
本文插图
AI 的两条路径
创建 AI 的一种常见方法是尝试在计算机中复制智能行为的元素 。 例如 , 我们对哺乳动物视觉系统的理解催生出各种人工智能系统 , 这些系统可以对图像进行分类、定位照片中的物体、定义物体的边界等 。 同样 , 我们对语言的理解也帮助开发了各种自然语言处理系统 , 比如问答、文本生成和机器翻译 。
但这些都是狭义人工智能的实例 , 只是被设计用来执行特定任务的系统 , 而不具有解决一般问题的能力 。 一些研究者认为 , 组装多个狭义人工智能模块将产生更强大的智能系统 , 以解决需要多种技能的复杂问题 。
而在该研究中 , 研究者认为创建通用人工智能的方法是重新创建一种简单但有效的规则 。 该研究首先提出假设:奖励最大化这一通用目标 , 足以驱动自然智能和人工智能中至少大部分的智能行为 。 」
这基本上就是大自然自身的运作方式 。 数十亿年的自然选择和随机变异让生物不断进化 。 能够应对环境挑战的生物才能得以生存和繁殖 , 其余的则被淘汰 。 这种简单而有效的机制促使生物进化出各种技能和能力来感知、生存、改变环境 , 以及相互交流 。
研究者说:「人工智能体未来所面临的环境和动物与人类面临的自然世界一样 , 本质上是如此复杂 , 以至于它们需要具备复杂的能力才能在这些环境中成功生存 。 」因此 , 以奖励最大化来衡量的成功 , 需要智能体表现出相关的智能能力 。 从这个意义上说 , 奖励最大化的一般目标包含了许多甚至可能是所有的智能目标 。 并且 , 研究者认为最大化奖励最普遍和可扩展的方式是借助与环境交互学习的智能体 。