DeepMind最新论文：强化学习“足以”达到通用人工智能

撰稿：XT 排版：王落尘
编审：寇建超
从 1956 年达特茅斯会议首次定义人工智能（AI）至今，人工智能已经经历了 60 多年的发展历程，计算机领域的科学家们取得了一次又一次的革命性进步，从机器学习、深度学习到强化学习，科学家们设计开发出了许多复杂的人工智能机制和技术，来复制人类视觉、语言、推理、运动技能和其他与智能生命相关的能力。
尽管这些努力使得人工智能系统能够在有限的环境中有效地解决一些特定的问题，但目前还没有开发出像人类和动物一样 “会思考的机器”， “通用人工智能（AGI）” 时代尚未到来，想要让机器完全模拟人类进行自主学习、模式识别、想象创造等活动看起来遥不可及。
尽管一些乐观主义者认为通用人工智能离我们不到十年，但一项针对机器学习专家的大型调查表明，如果存在通用人工智能，那我们可能要到 2040 年左右才能拥有它。
近日，来自 DeepMind 的科学家在提交给同行评议的期刊《人工智能》（Artificial Intelligence）上的一篇题为 “Reward is enough” 的论文中认为，人工智能及其相关能力不是通过制定和解决复杂问题而产生的，而是通过坚持一个简单而强大的原则：奖励最大化。

本文插图

（来源：ScienceDirect）
该研究由 DeepMind 首席研究科学家、伦敦大学学院教授 David Silver 领衔，研究灵感源于他们对自然智能的进化研究以及人工智能的最新成就，在撰写论文时仍处于预证明阶段。研究人员认为，奖励最大化和试错经验足以培养表现出与智力相关的能力行为。由此，他们得出结论，强化学习是基于奖励最大化的人工智能分支，可以推动通用人工智能的发展。

“奖励最大化” 的人工智能实现途径
创建人工智能的一种常见方法就是在计算机中尝试复制智能行为的元素。例如，我们对哺乳动物视觉系统的理解催生了各种人工智能系统，来实现对图像进行分类、定位照片中的对象、定义对象之间的边界等等。同样，我们对语言的理解有助于开发各种自然语言处理系统，例如回答问题、文本生成和机器翻译。
这些都是狭义人工智能的实例，这些系统旨在执行特定任务，而不是具有一般解决问题的能力。一些科学家认为，组装多个狭义的人工智能模块会产生更高的智能系统。例如，我们可以拥有一个软件系统，在单独的计算机视觉、语音处理、NLP 和电机控制模块之间进行协调，以解决需要多种技能的复杂问题。
相比之下，通用人工智能有时也被称为人类级别的人工智能，它更像是《星球大战》中的 C-3PO ，因为它可以理解上下文、潜台词和社会线索，甚至被认为可能完全超过人类。