深度学习后图灵奖得主Bengio研究核心是什么?因果表示学习( 二 )


数据的本质:观测、干预、(非)结构化
数据格式在推断关系类型中发挥重大作用 。 我们可以辨别数据模态的两轴:观测数据vs干预数据 , 手动工程数据vs原始(非结构化)感知输入 。
观测与干预数据:人们常常假设但很少严格得到的一种极端数据格式是观测独立同分布数据 , 其每个数据点均独立采样自相同的分布 。
手动工程数据与原始数据:在经典AI中 , 数据常被假设成可结构化为高级和语义有意义的变量 , 这可能部分对应于底层图的因果变量 。
因果模型与推理
这部分主要介绍统计建模与因果建模的区别 , 并用形式化语言介绍了干预与分布变化 。
独立同分布数据驱动的方法
对于独立同分布数据 , 强大的泛一致性(universalconsistency)可以确保学习算法收敛至最低风险 。 这类算法确实存在 , 例如最近邻分类器、支持向量机和神经网络 。 但是 , 目前的机器学习方法通常在面对不符合独立同分布假设的问题时性能较差 , 而这类问题对人类而言轻而易举 。
Reichenbach原则:从统计学到因果关系
Reichenbach[198]清晰地描述了因果与统计相关性之间的联系:

深度学习后图灵奖得主Bengio研究核心是什么?因果表示学习
文章图片
X与Y一致的情况属于特例 。 在没有额外假设的情况下 , 我们无法利用观测数据区分这些情况 。 此时 , 因果模型要比统计模型包含更多信息 。
如果只有两个观测值 , 则因果结构发现会很难 , 但当观测值数量增多后 , 事情反而容易多了 。 原因在于 , 这种情况下存在多个由因果结构传达的非平凡条件独立性 。 它们将Reichenbach原则泛化 , 并且可以用因果图或结构因果模型的语言进行描述 , 将概率图模型与干预概念融合在一起 。
结构因果模型(SCM)
SCM考虑与有向无环图(directedacyclicgraph,DAG)的顶点相关的一组观测值(或变量)X_1,...,X_n 。 该研究假设每个观测值根据以下公式得出:

深度学习后图灵奖得主Bengio研究核心是什么?因果表示学习
文章图片
从数学角度讲 , 观测值也是随机值 。 直观来看 , 我们可以把独立噪声理解为在图上扩散的「信息探头」(就像在社交网络上扩散的流言的独立元素) 。 这当然并不只是两个观测值 , 因为任何非平凡条件独立语句都要求至少三个变量 。
统计模型、因果图模型与SCM的区别
下图1展示了统计模型与因果模型之间的差异 。
统计模型可以通过图模型来定义 , 即带图的概率分布 。 如果图的边是因果性的 , 则该图模型为因果模型(这时 , 该图即为「因果图」) 。 结构因果模型由一组因果变量和一组结构方程构成 , 这些方程基于噪声变量U_i分布 。

深度学习后图灵奖得主Bengio研究核心是什么?因果表示学习
文章图片
独立因果机制
独立性概念包含两个方面:一个与影响有关 , 一个与信息相关 。 在因果研究历史中 , 不变、自主和独立的机制以多种面目出现 。 例如 , Haavelmo[99]的早期工作假设改变structuralassignment的其中一个 , 会使其他保持不变;Hoover[111]介绍了不变准则:真正的因果序是在恰当干预下的不变性;Aldrich[4]探讨了这些思想在经济学中的历史发展;Pearl[183]详细探讨了自主性(autonomy) , 认为当其他机制服从外部影响时 , 因果机制能够保持不变 。
该研究将任意现实世界分布视为因果机制的产物 。 此类分布的变化通常是由至少一个因果机制的变化导致 。 根据ICM原则 , 研究者得出了以下假设:

深度学习后图灵奖得主Bengio研究核心是什么?因果表示学习
文章图片
在ICM原则中 , 研究者表述了两个机制(形式化为条件分布)的独立性意味着这两个条件分布不应互相影响 。 后者可被理解为要求独立干预 。
因果发现与机器学习
根据SMS假设 , 很多因果结构被认为需要保持不变 。 所以 , 分布偏移(如在不同「环境或语境」中观察一个系统)能够为确定因果结构提供很大的帮助 。 这些语境可以来自干预、不稳定时间序列或者多视图 。 同样地 , 这些语境可以被解读为不同的任务 , 从而与元学习产生关联 。
传统的因果发现和推理假设单元(unit)是由因果图连接的随机变量 。 但是 , 真实世界的观测结果最初往往并未结构化为这些单元 , 例如图像中的物体 。 因此 , 因果表示学习的出现试图从数据中学习到这些变量 , 正如超越了符号AI的机器学习不要求算法操作的符号预先给定一样 。 基于此 , 研究者试图将随机变量S_1,…,S_n与观测值连接起来 , 公式如下: