换天造物，秒变科幻大片！华人学者推出视频修复AI新玩法( 二 )

具体来说，该方法分为三个核心模块：

天空遮罩框架（Sky Matting Network）：用于检测视频帧中天空区域的视频框架。该框架是采用了基于深度学习的预测管道，能够产生更精确的检测结果和更具视觉效果的天空蒙版。
运动估计（Motion Estimation）：用于恢复天空运动的运动估计器。天空视频需要在真实摄像机的运动下进行渲染和同步。
图像融合（Image Blending）：用于将用户指定的天空模板混合到视频帧中的Skybox 。除此之外，还用于重置和着色，使混合结果在其颜色和动态范围内更具视觉逼真感。

完整框架如下图：

本文插图
天空遮罩框架：利用深卷积神经网络（CNN）的优势，在一个像素级回归框架下对天空冰雹进行预测，该框架可以产生粗尺度和细尺度的天空蒙版。天空遮罩框架由一个分段编码器（ Segmentation Encoder ）、一个掩模预测解码器（Mask Prediction Decoder）和一个软细化模块（Soft Refinement Module）组成。其中，编码器的目的是学习下采样输入图像的中间特征表示。解码器被用来训练和预测粗糙的天空。优化模块同时接收粗糙的天空蒙版和高分辨率输入，并生成一个高精度的天空蒙版。
运动估计：研究人员直接估计了目标在无穷远处的运动，并创建了一个用于图像混合的天空盒（Skybox），通过将360°天空盒模板图像混合到透视窗口来渲染虚拟天空背景。
假设天空模式的运动是由一个矩阵M2R33来模拟的。由于天空中的物体（如云、太阳或月亮）应该位于同一个位置，假设它们的透视变换参数是固定值，并且已经包含在天空盒背景图像中，然后使用迭代Lucas-Kanade和金字塔方法计算光学流，从而可以逐帧跟踪一组稀疏特征点。对于每对相邻帧，给定两组2D特征点，使用基于RANSAC的鲁棒模糊估计来计算具有四个自由度（仅限于平移、旋转和均匀缩放）的最佳2D变换。
图像融合：在预测天空蒙版时，输出像素值越高，表示像素属于天空背景的概率越高。在常规方法中，通常利用图像遮罩方程，将新合成的视频帧与背景进行线性组合，以作为它们的像素级组合权重。
但由于前景色和背景色可能具有不同的色调和强度，因此直接进行上述方法可能会导致不切实际的结果。因此，研究人员应用重新着色和重新照明技术将颜色和强度从背景转移到前景。
3 实验结果
研究人员采用了天空电视台上的一个数据集。该数据集基于AED20K数据集构建而成，包括多个子集，其中每个子集对应于使用不同方法创建真实的填空遮罩。
本次试验使用“ADE20K+DE+GF”子集进行了培训和评估，该训练集中有9187张图像，验证集中有885张图像。以下为基于该方法的视频天空增强效果：

本文插图
最左边是输入视频的起始帧，右边的图像序列是不同时间段下的输出效果
天气转换的效果，分别为晴到多云，晴到小雨，多云到晴天以及多云到多雨。

本文插图
需要强调的是，在合成雨天图像时，研究人员通过屏幕混合在结果的顶部添加动态雨层（视频源）和雾层。结果显示，只需对skybox模板和重新照明因子稍作修改，就可以实现视觉逼真的天气转换。
与CycleGAN的比较结果。 CycleGAN是一种基于条件生成对抗网络的非成对图像到图像转换方法。在定性方面，该方法表现出更高的保真度。