人工智能Yoshua Bengio：注意力是“有意识”AI的核心要素( 二 ) |深度学习|机器学习|算法|

本文插图
认知角度来说，我们大脑中关于世界的知识认知可以分为两类：隐性知识和显性知识。能够语言化的其实是一种特殊的知识，我们应该试着去描述和刻画，这样才能把它放在模型的训练框架中。而且，这些知识是围绕着我们可以用语言命名的概念来组织的。因此，这些研究和建立更好的自然语言理解之间有很强的联系。

本文插图
将意识加工到深度学习需要先验知识。那么什么样的先验知识能够帮助扩展深度学习，并使其融入高级概念和「系统2」任务存在的那种结构？
第一个前提是有些高级别之间的联合分布的结构，也称为语义变量。联合分布可以用图形模型来描述，特别是因子图，因为它是稀疏的，每个知识涉及的很少。此外，这些变量往往与因果关系有关。还有一个假设，是关于高层次变量的，即思想和单词和句子之间有一种简单的关系，以便可以表达有意识的想法。
例如，在编程或逻辑思维中，有些知识是可以重用的，可以将它们视为跨多个实例应用的规则，当然也可以视为类似于函数的参数。
还有一个重要的问题，是考虑变量中的数据类型如何随时间变化，概率分布如何随时间变化。搞清楚这些非常重要，因为这些变量可能是因果关系的闪光符。这里面涉及的假设是：当分布发生变化时，其余的联合分布大多不会随着关系的变化而变化。
还需要注意的一点是，我们的观察、感官数据、低级动作和高级变量，当有干预时，唯一会改变的是高水平变量的某些性质，而不是它们与低水平知觉的关系。
最后一个假设是关于推理和计划，以及什么对这些变量进行分配（Credit Assignment），这里的假设是：在此进行的信用分配涉及较短的成本变化。
符合以上假设的先验知识能够帮助扩展深度学习。

本文插图
【人工智能Yoshua Bengio：注意力是“有意识”AI的核心要素】然后看一下「系统 2 」的任务涉及的有趣性质，也就是所谓的系统概括能力，专业的语言学已经对此做了非常多的研究，这些研究发现人类可以动态的重新组合现有的概念来形成一个新的概念。
这些概念可以是口头的，也可以是视觉的，如上图所示，不同类型的车辆组合在一起形成了一个新的概念，这种概念的重组能够解释我们从未见到过的观测结果，即使是在训练分布概率为零的条件下也可以。对于此种现象，到目前为止，我们在多篇论文中实验观察到的是，当分布发生这样的变化时，当前的深度学习系统表现不是很好，而且他们往往会发生过拟合。

本文插图
显然， AI并不能像人类做的那样好，经典的人工智能程序想要两全其美，就要避免经典的基于人工智能规则的符号操作的陷阱。
这就需要把通过深度学习取得的一些成果保留，如高效-大规模学习，语义基础、以及「系统1」中的知识表达、以及机器学习正确处理不确定性的能力。
但是，我们想要的是一些与「系统2」相关优势，即将知识分解之后，我们可以操纵变量、实例以及引用。

本文插图
接下来看一下注意力机制，在过去的几年里，在深度学习方面， soft attention此类的工具已经取得了进展，这可能是我们过渡到“未来深度学习”的关键，即获得从处理向量到能够“操纵”的功能。