「埃尔法哥哥」自我监督学习是AI的未来( 二 )

但是这些AI程序学习解决问题的方式与人类完全不同。基本上，强化学习代理从空白开始，仅提供在其环境中可以执行的一组基本操作。然后，让AI自己进行尝试，通过反复试验来学习如何产生最大的回报（例如，赢得更多的游戏）。
当问题空间很简单并且您具有足够的计算能力来运行尽可能多的反复试验会话时，该模型就可以使用。在大多数情况下，强化学习代理会花费大量的时间来掌握游戏。巨大的成本将强化学习研究限制在富裕的科技公司拥有或资助的研究实验室内。

本文插图
强化学习代理必须接受数百年课程的培训才能掌握游戏，这远远超出了人类一生所能玩的游戏（来源：Yann LeCun）。
强化学习系统在转移学习方面非常不利。如果要玩魔兽争霸3 ，则需要在超级大师级别玩星际争霸2的机器人从头开始接受培训。实际上，即使对星际争霸游戏环境进行很小的改动也会大大降低AI的性能。相反，人类非常擅长从一个游戏中提取抽象概念并将其转移到另一个游戏中。
强化学习在想学习解决无法准确模拟的现实问题时确实显示出其局限性。 “如果您想训练一辆自动驾驶汽车怎么办？LeCun说，并且很难准确地模拟这一点，并补充说，如果我们想在现实生活中做到这一点， “我们将不得不销毁许多汽车。 ” 与模拟环境不同，现实生活不允许您快速进行实验，而并行实验（如果可能）将导致更高的成本。
深度学习的三个挑战
LeCun将深度学习的挑战分为三个领域。
首先，我们需要开发可以通过更少的样本或更少的试验学习的AI系统。 LeCun说：“我的建议是使用无监督学习，或者我更喜欢将其称为自我监督学习，因为我们使用的算法确实类似于监督学习，而监督学习基本上是在填补空白。 ” “基本上，这是在学习任务之前学习代表世界的想法。婴儿和动物就是这样做的。我们在世界上奔跑，在学习任何任务之前先了解世界如何运转。一旦我们对世界有了良好的表现，学习一项任务就需要很少的试验和很少的样本。 ”
婴儿在出生后的前几个月会发展出引力，尺寸和物体持久性的概念。虽然关于将这些功能中的多少硬连接到大脑中以及从中学习了多少的争论不断，但可以肯定的是，我们只是通过观察周围的世界来开发许多功能。
第二个挑战是创建可以推理的深度学习系统。众所周知，当前的深度学习系统在推理和抽象上很差，这就是为什么它们需要大量数据来学习简单任务的原因。
“问题是，我们如何超越前馈计算和系统1？我们如何使推理与基于梯度的学习兼容？我们如何使推理具有差异性？这是底线， ”勒村说。
系统1是不需要主动思考的学习任务，例如导航已知区域或进行少量计算。系统2是一种较为活跃的思维方式，需要推理。事实证明，象征人工智能（AI的经典方法）在推理和抽象方面要好得多。
但是LeCun并不建议像其他科学家所建议的那样回到象征性AI或混合人工智能系统。他对AI未来的愿景与另一位深度学习先驱Yoshua Bengio的愿景更加一致，他在NeurIPS 2019上介绍了系统2深度学习的概念，并在AAAI 2020上进行了进一步讨论。但是LeCun确实承认“没有人有一个完全好的答案” ，这将使深度学习系统能够推理。
第三个挑战是创建深度学习系统，以学习和计划复杂的动作序列，并将任务分解为子任务。深度学习系统擅长为问题提供端到端解决方案，但很难将其分解为特定的可解释和可修改的步骤。在创建可以分解图像，语音和文本的基于学习的AI系统方面取得了进展。 Geoffry Hinton发明的胶囊网络解决了其中一些挑战。
但是学会推理复杂的任务已经超出了当今的人工智能。 LeCun承认：“我们不知道如何做到这一点。 ”