训练|Yann LeCun最新发声：自监督+世界模型，让 AI 像人类一样学习与推理( 三 ) 公序良俗|门店|经销商|新店|小

“感知-行动”情节

通过将分层 JEPA 训练为世界模型，一个智能体（机器人）就可以执行复杂动作的分层规划，将复杂任务分解为一系列不太复杂和不太抽象的子任务，一直到对效应器（effector）的低级动作。

训练|Yann LeCun最新发声：自监督+世界模型，让 AI 像人类一样学习与推理

文章插图

一个典型的感知-行动情节如上。该图说明了两级层次结构的情况。感知模块提取世界状态的分层表示（图中 s1[0]=Enc1(x) 和 s2[0]=Enc2(s[0])）。然后，在假设二级行动器提出的一系列抽象动作的情况下，多次应用二级预测器来预测未来状态。行动器优化二级动作序列以将总成本最小化（图中的C（s2 [4]））。
这个过程类似于最优控制中的模型预测控制。对第二级潜在变量的多个绘图重复该过程，这可能会产生不同的高级场景。由此产生的高级动作并不构成真正的动作，而只是定义了低级状态序列必须满足的约束（例如，食材是否正确混合？）。它们确实构成了子目标。整个过程在低层重复：运行低层预测器，优化低层动作序列以将上层的中间成本最小化，并对低层潜在变量的多个绘图重复该过程。一旦该过程完成，智能体将第一个低级动作输出到效应器，整个情节可以重复。
如果我们成功构建了一个这样的模型，那么所有的模块都是可微的，因此整个动作优化过程可以使用基于梯度的方法来执行。

使 AI 更接近人类水平的智能

LeCun 的愿景需要更深入的探索，而且前方还有许多艰巨的挑战。其中最有趣又最困难的一项挑战是为世界模型将架构和训练细节实例化。我们甚至可以说，训练世界模型是未来几十年人工智能可以真正取得进展的主要挑战。
但是架构的许多其他方面仍有待定义，包括如何精确地训练Critic（Critic网络的作用是衡量一个Actor在某状态下的优劣），如何构建和训练配置器，以及如何使用短期记忆来跟踪世界状态和存储世界状态与行动的历史，用内在成本来调整Critic。
LeCun 和其他 Meta AI 的研究人员期待在未来数月和数年内探索这些内容，并与该领域的其他人交流想法和学习。创造可以像人类一样有效地学习和理解的机器是一项长期的科学努力——而且不能保证成功。但我们相信，基础研究将继续加深对思想和机器的理解，并将带来更多造福人类的人工智能突破成果。

Yann LeCun：AI 不需要人类的监督

IEEE Spectrum：您曾说过，监督学习的局限性有时会被误认为是深度学习的内在局限，那哪些限制可以通过自监督学习来克服呢？
Yann LeCun：监督学习在一些结构稳定的领域中表现很出色。在这些领域中，你可以收集大量的标记数据，并且在部署过程中可以看到，这些输入类型与训练过程中使用的输入类型没有太大区别。要收集大量且相对没有偏差的标记数据是很难的。我所说的不一定是社会偏差，而是说系统不应该使用数据中的相关性。一个非常著名的例子是，当你在训练一个能够识别奶牛的系统时，若训练中用的都是草场上的奶牛，那么系统将把草作为奶牛的背景。如果再给它一头在海滩上的奶牛，它可能就很难识别出了。
自监督学习 (SSL) 允许我们训练系统以独立于任务的方式学习良好的输入表示。因为 SSL 训练使用未标记的数据，所以我们可以使用非常大的训练集，并让系统学习更稳健和更完整的输入表示。然后，它只需要少量的标记数据就能在监督任务上获得良好的性能。这大大减少了纯监督学习所特有的标记数据量，并使系统更加稳健，能够更好地处理与标记训练样本不同的输入。它有时还会降低系统对数据偏差的敏感性——关于这一改进，我们将在未来几周内分享更多关于研究的见解。
现在在实际的 AI 系统中正在发生的事情是，我们正在转向使用 SSL 对大量未标记数据进行预训练的更大架构。这些可用于各种任务。例如，Meta AI 现在拥有可以处理几百种语言的语言翻译系统。这是一个单一的神经网络！我们还有多语种语音识别系统。这些系统可以处理几乎没有数据的语言，更不用说带注释的数据了。
IEEE Spectrum：其他行业先驱说，人工智能的前进方向是通过更好的数据标记来改进监督学习。吴恩达最近和我谈到了以数据为中心的AI，英伟达的 Rev Lebaredian 和我谈到了带有所有标签的合成数据。该领域是否存在关于前进道路的分歧？