深兰科技|对深度学习模型VAE的时序性解耦( 二 )

VAE (Variational Autoencoder)
变分编码器是自动编码器的升级版本 , 其结构跟自动编码器相似 , 也由编码器和解码器构成 。 在AE中 , 输入一个图片得到一个的编码(code) , 但这个编码是一个固定的编码 , 使得模型没有很好的泛化功能 。 所以VAE引入了一种新的方式有效解决了上述的问题 , 就是将编码问题变成一个分布问题 , 具体操作是在AE的基础上增加一个限制 , 迫使编码器得到的编码(code)能够粗略地遵循一个标准正态分布 , 这就是其与一般的自动编码器最大的不同 。
这样我们生成一张新图片就很简单了 , 我们只需要给它一个标准正态分布的随机隐含向量 , 这样通过解码器就能够生成我们想要的图片 , 而不需要给它一张原始图片先进行编码 。
深兰科技|对深度学习模型VAE的时序性解耦
本文插图
VAE的演变增加了模型的泛化性 , 以上图VAE的过程为例 , 当输入的图片是猫时 , 通过猫的特征来生成新的图片 , VAE的好处就在于当输入的图片不是完整的图片时(训练集外) , 它依旧可以还原成原来的样子 。
在深度学习中 , 不管是什么样的模型 , 数据都很重要 , 而VAE的好处就在于 :
它可以通过编码和解码的过程 , 通过抽样 , 生成新的数据 。 这样对于机器学习就有了更多的数据支撑从而得到更好的模型效果 。
VAE在中间层会得到一个编码(code) , 也就是一个语义层 , 我们可以通过对于这个语义的理解 , 从而达到图片的分类、变换的效果 。
如果我们类比光的解耦(将光分离成R、G、B三种颜色) , VAE(Variational Autoencoder)就可以理解成是深度学习框架的三棱镜 。
这是为什么呢?我们先给一个浅显的技术介绍 , 然后再回来聊颜色分离 。
VAE是一种深度学习框架 , 更具体来说 , 它是一种生成模型 。 生成模型的操作很简单:它可以读取数据(多为图片) , 抽取数据的特征 , 然后自动生成有这些特征的新数据 。 我们这里关心的是提取特征这个环节 。 大多生成模型的特征提取模式 , 便是经过所谓的“潜在变量”(latent variables)来编码提取到的特征 。
这里的一个明显的问题便是:我们怎么判断正式数据里的某一个特征对应的是哪个语义变量?我们可以回到类比成颜色分离和生成的过程 , 将一种颜色先编码(encoder)成R , G , B , 再通过解码(decoder)形成一种颜色 。
【深兰科技|对深度学习模型VAE的时序性解耦】 三、Disentangled Sequential VAE
随着对VAE的研究 , 越来越多的研究重点就放在了如何在VAE的基础上做到disentangled的过程 。 以下简单介绍一下深兰科技科学院对于该项目的研究内容:对于时序的数据解耦出其数据的动态信息和静态信息 , 并理解静态信息和动态信息的语义 , 后续团队的目标也是基于当前的项目 , 进行这个主流方向的基础研究 。