北大|AI生成肖像画，精细到毛发！北大校友最新研究收割2.8k星标，还登上了ICPR 2020( 二 ) 校友|毛发|肖像画|星标

接下来，我们说说它是如何做到的。
任何AI处理过程都分为三个阶段：输入目标——模型训练——输出结果。要想达到高质量的生成效果，除了考验模型精度外，当然输入源也很重要。这一点也是我们所能控制的。
对于U^2-Net而言，高质量的照片源可以获得更多细节，所以在上传照片时要注意以下几点：
如图，秦彬雪还亲自示范做了说明。

文章插图
接下来是最关键的目标检测模型（SOD）。
先来看一组与现有最先进SOD模型的比较。
其中红色星标代表U^∧2模型（176.3 MB），它在相对小的模型尺寸下，表现出了最高性能。（蓝色星标为4.7 MB的U^∧2）

文章插图
之所以达到如此性能，是因为U^∧2拥有两层嵌套式U型结构，其中的ReSidual U-Block（RSU）中混合了大小不同的接收域，能够从不同尺度捕获更多语境信息。另外，由于这些RSU块中使用了池化操作，因此可以深度捕获更多细节，同时不会显著增加计算成本。
最关键的是，这种结构体系能够让模型从头训练深层网络，而无需使用图像分类任务的架构。
现在大多数SOD 网络设计都存在这样一个问题：即专注于利用现有的基础网络提取深度特征，例如 Alexnet、VGG、ResNet、ResNeXt、DenseNet 等。但这些主干网络最初都是为图像分类任务设计的。
它们提取代表语义含义的特征，而不是代表局部性细节或全局对照信息，这对于显著性目标检测至关重要，并且这些网络通常需要在 ImageNet 数据上进行预训练，效率比较低。相比之下，U∧2-Net可以有效地避免上述问题。

文章插图
U^∧2-Net架构
接下来详细介绍其中的Block结构、网络监督策略以及训练损失。
在图像信息提取中，1×1或3×3的小型卷积滤波器是最常用的特征提取元件。因为它所需内存小且计算效率高。但该元件接收域太小，无法捕获全局信息，因此解决方法只能是采用扩张卷积（Dilated Convolution）的方法来扩大接收域。
然而在原始分辨率的特征图上进行多次扩张卷积（尤其是在初始阶段），会耗费大量的计算和内存资源。
为了降低计算成本，同时又能捕获全局信息，研究人员采用了金字塔池化模块（Pyramid Scene Parseing Network，PSPNet）。该模块在下采样特征映射上使用小核滤波器，而不是在原始尺寸的特征映射上使用扩张卷积的方法。
但通过直接上采样和级联将不同尺度的特征融合，可能会导致高分辨率特征的退化。因此，研究人员受到受U型网络结构的启发，提出了一种全新的ReSidual U-block：RSU，来捕获阶段内的多尺度特征。如图：

文章插图
从测试数据来看，RSU计算开销确实相对较小。与PLN（普通卷积块）、RES（剩余块）、DSE（密集块）、INC（初始化块）相比，所耗费的GFLOPS浮点数最低。（GFLOPS ，全称Giga Floating-point Operations Per Second，即每秒10亿次的浮点运算数，常作为GPU性能参数）。
在训练过程中，研究人员采用了类似于HED的深度监督。
其中，训练损失（Training Loss）定义为：

文章插图
每个项L使用标准二进制交叉熵来计算损失：

文章插图
在训练过程，等式（1）让总体损失最小化；在测试过程，选择融合输出的l_fuse作为最终的显著性图。
在论文中，研究人员将U2模型与其他20多种现有最先进的模型进行了比较。
其中，各模型采用训练数据集是DUTS-TR，它含10553张图像，是目前用于目标检测的最大和最常用的数据集；采用的基准数据集分别为DUT-OMRON、DUTS-TE、HKU-IS、ECSSD、PASCAL-S、SOD六种。
先来看下定性比较的结果：

文章插图
红色、绿色和蓝色分别表示最佳、第二和第三性能

文章插图
从表3、表4来看，U^∧2-Net在DUT-OMRON、HKU-IS以及ECSSD三个基准数据集上展现了极大先进性，五个评估指标都达到了最佳SOTA。
其中，在DUTS-TE上，U^∧2-Net总体性能仅次于PoolNet；在PASCAL-S上，U^∧2-Net性能仅略低于AFNet、CPD和PoolNet。此外，在边界质量评估指标（RelaxF