神经|温故而知新，6位顶级CV科学家聚首：计算机视觉中的深度学习方法vs传统方法

文章插图

作者 | Mr Bear

编辑 | 青暮
2021 年 10 月 13 日，来自麻省理工学院、加州大学伯克利分校、伊利诺伊大学香槟分校、华盛顿大学、帝国理工学院的六名顶级人工智能科学家、计算机视觉科学家在 ICCV 2021 大会期间进行了题为「A discussion about deep learning vs classical methods and their roles in computer vision」的学术讨论。
参与讨论的嘉宾包括 Aude Oliva（MIT-IBM Watson 人工智能实验室）、Svetlana Lazebnik（伊利诺伊大学香槟分校）、Jitendra Malik（加州大学伯克利分校）、Andrew Davison（帝国理工大学）、Richard Szeliski（华盛顿大学）、Alexei Efros（加州大学伯克利分校）。

深度学习 vs 传统方法

神经|温故而知新，6位顶级CV科学家聚首：计算机视觉中的深度学习方法vs传统方法

文章插图

Richard Szeliski 首先抛砖引玉，发表了题为「Deep vs Classical Methods」的简短演讲。Richard 提到，在设置人工智能专业课程时，一个广为讨论的话题是：我们是否应该讲授深度学习之前的传统方法？还是直接通过深度学习解决所有的问题？
为此，Richard 在过去的四年中持续更新他的计算机视觉教科书（https://szeliski.org/Book）。相较于早先的版本，该书加入了信号处理、优化技术等章节，这些知识经常被用于计算机视觉的各个领域。在「Deep Learning」和「Recognition」两个章节中，Richard 分别介绍了深度学习的基本原理（传统的网络架构），以及一些更加复杂的技术（例如，分割、目标检测、视觉和语言）。

文章插图

实际上，在华盛顿大学「计算机视觉」的课程安排中，老师们会首先介绍经典的信号处理算法，接着介绍神经网络和深度学习。在此基础上，老师们会进而讲解一些经典的技术和应用（例如，3D 计算摄影、神经渲染等）。

文章插图

密歇根大学的计算机视觉课程 EECS 442 将期中的很大一部分内容设置为深度学习相关的内容，但在此之前也会介绍经典的信号处理、特征提取技术。最后，教师会讲解 3D 视觉和经典计算机视觉的内容。此外，这门课的任课教师 Justin Johnson 还专门针对神经网络开设了一门课程，更为详细地介绍了循环神经网络、Transformer 等内容。

文章插图

尽管深度学习已经成为了计算机视觉领域的主流方法，但是仅仅依靠深度学习技术是否能解决所有的计算机视觉问题呢？在论文「What Do Single-view 3D Reconstruction Networks Learn?」中，在基于 ShapeNet 进行 3D 重建时，网络只是在识别对象的类别，然后细化形状，并没有很好地利用图像的底层信息。

文章插图

以视觉定位任务为例，一些基于深度学习的方法只是记住了图片出现的场景，在定位时进行猜测。如果查询并没有沿着路径，则回归的结果可能始终会被引导到出发点。该过程中并没有任何的 3D 推理，没有利用 3D 几何结构。

文章插图

另一方面，利用语义信息完成 3D 重建等任务也是一条很好的思路。论文「Joint 3D Scene Reconstruction and Class Segmentation」发表于 2013 年，那时是深度学习兴起的早期阶段。通过识别建筑和树的部位，该方法可以更好地进行 3D 重建，这说明有时引入语义信息是十分有效的。

文章插图

在单目深度估计任务中，我们往往在 KITTI 数据集或一些驾驶场景中进行训练和测试。大多数的神经网络模型只是识别物体在图像中的位置，然后为其赋予一个相应的深度。如果我们将一个网络没见过的物体（例如，冰箱或狗）放在路的中间，神经网络可能会完全忽略掉该物体。在驾驶场景下使用这种神经网络模型的安全性值得商榷。

文章插图

当我们可以用一个很大的数据集训练时，神经网络往往可以表现出很好的性能。然而，如果我们在某个数据集上训练网络，该网络在不被重新训练的情况下会在另外的数据集上表现出怎样的性能？