澄澈的眼|GAN/VAE地位难保？Flow在零样本识别任务上大显身手( 二 ) 作者|秦杰、沈钰明编辑|陈大鑫计算机视

2、学习语义空间到视觉空间的映射关系这种思路反其道而行之，学习语义到视觉空间的映射，这样的话我们就可以基于斑马的语义编码生成斑马的视觉特征，当新来一幅包含斑马的图片时，我们就可以根据它在视觉空间中与之前生成的斑马特征进行相似度度量，从而识别出该图片的所属类别。
值得一提的是，学习从语义到视觉空间映射这一任务与目前比较热门的图像生成（Image Generation）任务十分类似。因此，一些生成模型（Generative Model），比如生成对抗网络（Generative Adversarial Network, GAN) 和变分自编码器（Variational Autoencoder ， VAE）都被广泛地扩展并应用于零样本识别任务，并且大多取得了目前最好（State-of-the-Art）的识别效果。
3、学习视觉和语义空间到一个共享的隐空间的映射关系
这个思路也很直观，除了已有的两个空间外，我们还可以自定义一个“更好”的隐空间，然后把视觉特征和语义编码都投影到该空间中，最后通过距离度量等方式来获得最终的识别结果。
2 零样本学习与生成模型
1、基本思路一般而言， ZSL需要借助额外的知识来将模型的感知能力推广到不可见类别与模式上。基于生成模型的ZSL框架也基本遵循这个思路，只不过在策略上和传统方法稍有不同。近年来我们可以看到大量的生成式ZSL的工作，该类方法的大致流程如下图所示：
1、先在可见（Seen）类别上训练一个可用于条件生成（Conditional Generation）的生成模型。
2、利用语义空间的连续性，以不可见（Unseen）样本类别的语义特征作为输入，通过先前训练好的生成模型生成一些近似的未知类别样本。
3、使用生成的不可见类别的样本作为训练数据，训练一个独立的分类器。
现阶段较为流行的深度生成模型大致可以被归纳为如下几类：

生成对抗网络（GAN）：ZSL中最常见的选择，早期的工作极大提高了ZSL的效能。但训练不够稳定，加入额外正则项的时候有可能会导致不可预测的训练结果。
变分自编码器（VAE）：ZSL中另一个常见的选择。训练较为稳定，但是变分推断所使用的下界模型（ELBO）有时对于样本空间的描述不够精准（尤其是Conditional VAE），再加之其训练过程对于隐空间的特性有要求（主要是Reparametrization Trick需要一个可导的采样策略），使得条件生成的效果往往不够好，进而影响后续分类器的识别能力。
自回归模型（Auto-Regressive Model）：自回归模型一般情况下不作为视觉问题的主要解决策略，这很大程度上（大概）是因为CNN不像RNN一样可以方便地进行自回归迭代（而且也不需要），生成过程的并行化能力不够强。在这里不做讨论。
生成流（Generative Flow）：我们的选择，它可以直接描述样本空间的概率特性，拥有较为简单而稳定的训练过程，也有不错的生成效果。

具体比较可见下表：

在以往的ZSL研究中，人们往往为了克服GAN的问题而去选择VAE ，亦或为了克服VAE的问题而去选择GAN 。那么，我们何不考虑开辟一条新的道路来同时解决更多问题呢？这个时候， Generative Flow进入了我们的视野……