训练|Yann LeCun最新发声:自监督+世界模型,让 AI 像人类一样学习与推理

训练|Yann LeCun最新发声:自监督+世界模型,让 AI 像人类一样学习与推理
文章插图

作者 | 维克多、西西、王晔
编辑 | 陈彩娴
如何突破当代人工智能(AI)的瓶颈?不同学者存在不同观点。
总体来看可以概括为两类,其一监督学习者,提倡通过改善数据标签质量,从而完善监督学习。代表人物有发起“以数据为中心AI”革命的吴恩达,提倡设计“合成数据自带所有标签”的Rev Lebaredian。
其二,无监督学者,例如Yann LeCun,提倡下一代AI系统将不再依赖于精心标注的数据集。
训练|Yann LeCun最新发声:自监督+世界模型,让 AI 像人类一样学习与推理】近日,Yann LeCun在meta AI(原Facebook)官方博客上以及IEEE采访中,深度阐述了他的自监督学习思路,他认为AI想要突破现在的瓶颈,必须让机器学习世界模型,从而能够填补缺失的信息,预测将要发生的事情,并预测行动的影响。
训练|Yann LeCun最新发声:自监督+世界模型,让 AI 像人类一样学习与推理
文章插图

这虽然不是革命性的想法,但却是革命性的行动。正如LeCun在在多次演讲中提到:这场革命将是无监督的(THE REVOLUTION WILL NOT BE SUPERVISED)。具体而言这种革命性体现在对两个问题的思考:
第一,我们应该使用什么样的学习范式来训练世界模型?
第二,世界模型应该使用什么样的架构?
同时,他也提到:监督学习的局限性有时会被误以为是深度学习的局限性,这些限制可以通过自监督学习来克服。
以下是LeCun对自监督的思考与世界模型设计,内容来源于meta AI与IEEE,AI科技评论做了不改变原意的编译。

1

AI可以学习世界模型
LeCun提到,人类和动物能够通过观察,简单的交互,以及无监督的方式学习世界知识,因此可以假设,这里面蕴含的潜在能力构成了常识的基础。这种常识能够让人类在陌生的环境下完成任务,例如一位年轻的司机,从来没有在雪地里开过车,但是他却知道如果车开的太猛,轮胎会打滑。
早在几十年前,就有学者研究人类、动物甚至智能系统如何“借力”世界模型,自我学习。因此,当前AI也面临着重新设计学习范式和架构,使机器能够以自我监督的方式学习世界模型,然后使用这些模型进行预测、推理和规划。
世界模型需要融合不同的学科的观点,包括但不限于认知科学、系统神经科学、最优控制、强化学习以及 "传统 "人工智能。必须将它们与机器学习的新概念相结合,如自监督学习和联合嵌入架构(joint-embedding architectures)。
2

AI新架构:自主智能架构
在上述世界模型思想的基础上,LeCun 提出了自主智能机构,由六个独立模块组成,且假设每个都可微:可以容易地计算一些目标函数,以及相对应的梯度估计,并将梯度信息传播到上游模块。
训练|Yann LeCun最新发声:自监督+世界模型,让 AI 像人类一样学习与推理
文章插图
自主智能的系统架构:配置器(configurator)是核心,从其他模块获取输入。
  • 配置器的角色是控制。给定一个要执行的任务,它会通过调整参数预先配置感知模块、世界模型,以及计算成本和添加参与者(actor)。
  • 感知模块能够接收信息,估计现实世界。对于一个特定的任务,只有一小部分感知到的世界状态是相关和有用的。配置器为感知模块提供动力,从感知中提取与任务相关的信息。
  • 世界模型模块是最复杂的部分,具有双重作用。1.估计感知模块无法得到的缺失信息;2.合理预测世界的未来状态,其中包括世界的自然演变以及参与者行动的影响。世界模型是现实世界的模拟器,由于世界充满了不确定性,该模型必须能够处理多种可能的预测。直观的例子是:一个接近十字路口的司机可能会放慢汽车行驶的速度,防止另一辆接近十字路口的车没有按规矩停在停车标志上。
  • 成本模块用来计算预测智能体(agent)的不合适程度。由两部分组成:内在成本( intrinsic cost),特征是不可训练,但能实时计算“不适”:智能体损害、违反硬编码行为等;评价者(critic),它是一个可训练的模块,预测内在成本的未来值。
LeCun表示:成本模块是基本的行为驱动和内在动机的所在。因此,它将考虑到内在成本:不浪费能源,以及任务的具体消耗。成本模块是可分的,成本的梯度可以通过其他模块反向传播,用于规划、推理或学习。