『科技小辛辛』推动视频理解的因果逻辑推理，MIT、DeepMind发布CLEVRER数据集机器之心发布机器之心编辑部大多数视频

机器之心发布
机器之心编辑部
大多数视频推理数据集的侧重点是从复杂的视觉和语言输入中进行模式识别，而不是基于因果结构。在这篇ICLR2020论文中，麻省理工、DeepMind的研究者提出了一种针对时间和因果推理问题的数据集，包含20,000个关于碰撞物体的合成视频以及300,000多个问题和答案，从互补的角度研究了视频中的时间和因果推理问题。

文章图片
论文链接：https://arxiv.org/abs/1910.01442
项目链接：http://clevrer.csail.mit.edu/
从视频的物理事件中识别物体并推断其运动轨迹的能力是人类认知发展的核心。人类，即使是幼儿，也能够通过运动将图片区域划分为多个物体，并使用物体的永久性、实体性和连贯性的概念来解释发生了什么，推断将发生什么以及想象在反事实情况下会发生什么。
在静态图像和视频上提出的各种数据集的推动下，复杂视觉推理问题已经在人工智能和计算机视觉领域得到了广泛研究。然而，大多数视频推理数据集的侧重点是从复杂的视觉和语言输入中进行模式识别，而不是基于因果结构。尽管这些数据集涵盖了视觉的复杂性和多样性，但推理过程背后的基本逻辑、时间和因果结构却很少被探索。
在这篇论文中，麻省理工和DeepMind的研究者从互补的角度研究了视频中的时间和因果推理问题。受视觉推理数据集CLEVR的启发，他们简化了视觉识别问题，但增强了交互对象背后的时间和因果结构的复杂度。结合从发展心理学中汲取的灵感，他们提出了一种针对时间和因果推理问题的数据集。
CLEVRER
研究者将这个数据集称为基于碰撞事件的视频推理（CLEVRER）。 CLEVRER的设计遵循两个准则：首先，发布的任务应侧重于在时间和因果上的逻辑推理，同时，保持简单以及在视觉场景和语言上出现的偏差最小；其次，数据集应完全可控并正确标注，以承载复杂的视觉推理任务并为模型提供有效的评估。
CLEVRER包含20,000个关于碰撞物体的合成视频以及300,000多个问题和答案。问题的类型包括以下四种，如下图所示：
【『科技小辛辛』推动视频理解的因果逻辑推理，MIT、DeepMind发布CLEVRER数据集】描述性（「什么颜色」）
解释性（「什么原因」）
预测性（「将发生什么」）
反事实（「如果…会发生什么」）

文章图片
CLEVRER附带有视频中每个对象的真实运动轨迹和事件历史记录。每个问题都与代表其基本逻辑的程序匹配。如下表所示， CLEVRER在多个方面补充了现有的视觉推理数据集，并引入了一些新颖的任务。

文章图片
研究者对各种最新的视觉推理模型在CLEVRER上进行了评估，结果如下表所示。尽管这些模型在描述性问题上表现良好，但它们缺乏因果推理的能力，在解释性，预测性和反事实问题上表现不佳。

文章图片
他们认为视觉推理任务包含三个关键要素：视频中的物体和事件的识别；物体与事件之间动力学和因果关系的建模；理解问题背后的符号逻辑。作为对此原理的初步探索，他们提出了一种新的预测模型——结合神经网络和符号表征的动态推理（NS-DR），通过视频符号表征将这些要素明确地联结在一起。
NS-DR模型
NS-DR模型结合了用于模式识别和动力学预测的神经网络，以及用于因果推理的符号逻辑。如下图所示， NS-DR模型由视频解析器（Ⅰ）、动态预测器（Ⅱ）、问题解析器（Ⅲ）和程序执行器组成（Ⅳ）。