澄澈的眼|GAN/VAE地位难保？Flow在零样本识别任务上大显身手作者|秦杰、沈钰明编辑|陈大鑫计算机视

作者 | 秦杰、沈钰明
编辑 | 陈大鑫
计算机视觉三大会议之一的ECCV 2020刚刚落下帷幕，本文主要介绍阿联酋起源人工智能研究院（IIAI）的科学家们在该会议上发表的一篇论文：《Invertible Zero-Shot Recognition Flows》。
该工作首次提出了一种基于生成流（Generative Flow）模型的零样本学习方法，并在多个数据库上取得了目前最好的识别结果。
论文链接：
1 零样本学习简介
众所周知，在当今计算机视觉领域，深度学习可谓“一统天下” ，在诸多视觉任务中都取得了目前最好的（检测、识别、分割等）结果。而数据可谓是深度学习算法的“Buff” ，算法的好坏往往取决于是否有充足且多样性的标注好的训练数据。
举例而言，我们要识别下图中的三种动物，那么首先我们需要标注大量老虎、兔子和斑马的图片，然后基于这些有标签的图片训练深度学习模型，最后将未知类别的图片输入训练好的模型中，才能够准确识别出图片中包含的动物类别。
然而，在实际应用场景中，我们往往会遇到以下“尴尬”情况：当我们在训练深度学习模型时，能“看见”的是标注好的大量老虎和兔子的图片，然而我们需要识别的图片中包含的却是斑马。可以预见的是，不管我们使用多么先进的模型架构，将斑马输入训练好的模型后，所得到的预测结果很有可能就是老虎（为啥？很简单，因为老虎和斑马长得更像不是嘛）。
如下图所示，我们把斑马称作不可见类别（Unseen Class），而老虎和兔子就属于可见类别（Seen Class），而这个问题则被称为零样本识别（Zero-Shot Recognition）问题，用来解决这一类问题的方法则被称为零样本学习（Zero-Shot Learning ， ZSL）方法。
在现实生活中，类似情况是十分常见的，因为：
1、“斑马”可能是新型物种，我们使劲浑身解数也没法捕捉到它那“迷人”的一瞬间。 2、有人见过“斑马” ，但还是没法拍到它的照片，因为它可能是人体内的某个器官（每拍一次就会受一次辐射，这谁受得了）。换而言之，世界瞬息万变，新物种、新概念、新类型层出不穷，我们无法或很难获取某些类别的标注数据。
那么，我们怎么才能识别这令人摸不着头脑的“斑马”呢？
答案是——买装备！哦不对，是借助语义信息（Semantics）。
啥叫语义信息？很简单，就是我们在描述某类事物特征时用到的一些形容词，比如斑马是“条纹状的”、“黑白相间的”、“毛茸茸的”、“脸长长的”等等。同样的，我们也可以对老虎和兔子进行描述。
需要注意的是，这些描述类形容词在三种动物间是共享的，更一本正经的说：这些形容词共存于一个预先定义好的语义空间（Semantic Space）中，在这个空间中每种动物都有与之相对应的语义编码（Semantic Embedding）。这样一来，我们有了这些辅助信息，就可以自信地解决零样本问题了。
具体来说，目前主流的零样本学习方法主要遵循以下三种思路：
1、学习视觉空间到语义空间的映射关系使用这种方式，我们就可以学习到老虎和兔子身上的各种属性信息。当我们从未谋面的斑马进入我们的视野，我们就可以用学习到的映射关系来描述它。比如，我们可以自信的说，我们见到了一种动物，它身上是条纹状的、黑白相间的、毛茸茸的等等。从此，我们只要见到斑马的图片，就可以自然地把它们归为我们不知道名字的那一类动物。或者，我们也可以帮它取个名字叫“XX” ，那我们就可以把斑马图片归类为“XX”类动物。至此，我们就可以识别出未知的动物类别了。