『科技小辛辛』推动视频理解的因果逻辑推理，MIT、DeepMind发布CLEVRER数据集( 二 ) 机器之心发布机器之心编辑部大多数视频

文章图片
视频解析器
研究者使用ResNet-50FPN作为主干网络，通过MaskR-CNN在每帧视频上执行物体检测和场景去渲染。对于输入的每帧视频，网络输出物体的固有属性（颜色、材料、形状）标签、物体的maskproposals以及proposal的置信度，由此获得以物体为中心的视频表征。
动态预测器
他们将PropNet应用到动态建模中，将物体的proposals作为输入，预测其运动轨迹和碰撞事件。
PropNet将动态系统表示为有向图G=?O,R? ，其中顶点O={o_i}表示物体，边R={r_k}表示关系。每个物体o_i和关系r_k可以进一步写成

文章图片
，

文章图片
，其中s_i表示物体的状态；

文章图片
表示物体的固有属性；u_k和v_k表示由边r_k连接的接收方和发送方顶点的索引；

文章图片
表示边的状态，即两个物体之间是否存在碰撞。 PropNet通过多步信息传递来处理物体之间的状态转移。
问题解析器
使用基于注意力机制的Seq2Seq模型将输入的问题解析为相应的程序，模型由双向LSTM编码器和注意力LSTM解码器组成。给定输入单词序列，编码器首先在每个步骤生成双向潜在编码

文章图片
然后，解码器使用注意力机制从潜在编码中生成一系列程序token：

文章图片
其中，编码器和解码器均使用两层隐藏层和300维度单词嵌入向量。
程序执行器
程序执行器在动态预测器提取的运动轨迹和碰撞事件上执行程序，并输出问题的答案。它包含多个通过Python实现的程序模块，其中共有三种类型：输入模块，过滤器模块和输出模块。输入模块是程序树的入口点；过滤器模块基于固有属性、运动状态、时间顺序或因果关系对输入物体/事件执行逻辑运算；输出模块返回答案标签。
NS-DR性能评估
研究者在CLEVRER上评估了NS-DR的性能，结果如下表所示。对于描述性问题，他们的模型可达到88.1％的准确率，显著优于其他基准方法。在解释性、预测性和反事实问题上，他们的模型获得了更大的提升。

文章图片
NS-DR将动态规划纳入视觉推理任务中，能够直接对未观察到的运动和事件进行预测，并能够对预测性和反事实性任务进行建模。这表明动态规划对基于语言的视觉推理任务具有很大的潜力， NS-DR朝着这个方向迈出了初步探索。此外，符号表征为视觉、语言、动力学和因果关系提供了强大的共同基础。通过设计，它使模型能够明确地捕获视频因果结构和问题逻辑。
总结
视频中时间和因果推理，这个深刻且具有挑战性的问题已深深植根于人工智能的基础之上，最近才开始使用「现代」人工智能方法进行研究。他们引入了一系列基准任务，以更好地促进这一领域的研究，新提出的CLEVRER数据集和NS-DR模型是朝着这个方向迈出的初步尝试。
研究者希望随着图网络、视觉预测模型和结合神经网络和符号表征算法的最新发展，深度学习领域可以在将来更加现实的设置中重新审视这一经典问题，从而获得超越模式识别的真正智能。