CN113379606B

CN113379606B - 一种基于预训练生成模型的人脸超分辨方法

Info

Publication number: CN113379606B
Application number: CN202110934749.3A
Authority: CN
Inventors: 孙立剑; 王军; 徐晓刚; 曹卫强; 朱岳江; 虞舒敏
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2021-12-07
Anticipated expiration: 2041-08-16
Also published as: CN113379606A

Abstract

本发明属于计算机视觉、图像处理领域，涉及一种基于预训练生成模型的人脸超分辨方法，包括：步骤一、采集并将低分辨率图像输入至特征提取模块

，提取特征信息；步骤二、将特征信息输入至编码器，得到通道数为输入尺寸8倍的隐式矩阵，隐式矩阵通过分离模块特征分解后获得隐式向量

，与人脸标签数据通过级联方式，分别输入至预训练生成模型中，得到生成特征；步骤三、将生成特征传递给解码器，并融合特征提取模块

提取的特征信息，经解码操作后输出目标高分辨率图像。本发明可以将低分辨率的人脸进行高倍率的放大，最高可以获得64倍的超分结果，并且超分辨结果保持较好的保真性，使放大的图像在保真度和纹理真实度方面有更好的改进。

Description

一种基于预训练生成模型的人脸超分辨方法

技术领域

本发明属于计算机视觉、图像处理领域，涉及一种基于预训练生成模型的人脸超分辨方法。

背景技术

图像分辨率的大小直接关系到图像的质量，更高的高分辨率意味着包含更多的细节信息，蕴含更大的应用潜能。然而在实际情况下很多图像面临着低分辨率的问题，影响着后续的高层次视觉处理。随着计算机视觉技术的不断发展，尤其是深度学习的发展，图像画质增强方法也越来越多，超分辨技术就是一项图像画质增强的有效手段，可以显著提升图像的分辨率。图像超分辨率技术通过算法手段将低分辨率的图像上采样到高分辨率的图像，在安防监控、医学检测、刑事侦查等多个领域都具有非常重要的应用价值。例如在安防监控场景中，由于摄像头和周围环境等因素，拍摄到的目标会存在模糊，导致无法识别目标，通过超分辨技术可以重构出较为清晰的画面，提高目标人脸的分辨率，从而对快速定位到目标人物提供帮助。因此，图像超分辨技术作为一种低层的图像处理方法，可以为后续的目标检测识别等高层的处理方法提供有效的支持。

目前有很多关于图像超分辨的网络，在处理各种各样的场景、物体方面都有了比较明显的提升，针对人脸超分辨方面的网络较少，很多方法都是通过构建相应的人脸数据，然后用已有的网络进行训练，虽然取得了一些进步，但是针对低分辨率的人脸，超分效果不是很好，生成对抗网络目前广泛应用于超分辨率任务中，其目的是丰富复原图像中的纹理细节。但是常见的生成对抗网络方法会限制逼近自然图像流形的能力，或者由于低维隐码和图像空间中的约束不足以指导恢复过程，因此这些方法经常产生伪像和不自然的纹理，人脸的保真度较低。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提供了一种基于预训练生成模型的人脸超分辨方法，通过引入大型预训练的人脸生成模型，用于提供丰富的人脸细节特征，通过将其嵌入到一个基于残差注意力的编解码模块中，可以基于编码模块提取的信息，引导预训练生成模型朝着输入人脸的特征进行增强，并通过解码器融合多种预训练生成模型和原始的输入特征，进一步提高人脸图像恢复的质量，具体技术方案如下：

一种基于预训练生成模型的人脸超分辨方法，包括以下步骤：

步骤一、采集并将低分辨率图像输入至特征提取模块

，提取特征信息；

步骤二、将特征信息输入至编码器，得到通道数为输入尺寸8倍的隐式矩阵，隐式矩阵通过分离模块特征分解后获得隐式向量

，与人脸标签数据通过级联方式，分别输入至预训练生成模型中，得到生成特征；

步骤三、将生成特征传递给解码器，并融合特征提取模块

提取的特征信息，经解码操作后输出目标高分辨率图像。

进一步的，所述特征提取模块

由2个3×3×64×1卷积层和6个串联的残差通道注意力单元组成，所述3×3×64×1卷积层，3×3表示卷积核尺寸，64表示卷积核个数，最后一位1表示卷积核的运动步幅；所述残差通道注意力单元包括残差单元和通道注意力单元，所述残差单元提取输入的低分辨率图像的特征，将该特征输入至通道注意力单元获取通道校准系数向量β，将通道校准系数向量β与通道注意力单元的输入特征进行重新校准后作为残差通道注意力单元的输出。

进一步的，所述通道注意力单元包括全局平均池化层、ReLU非线性变换层、两个卷积层和Sigmoid非线性变换层。

进一步的，所述步骤二，具体为：将特征信息输入编码器采用的3个卷积模块

，

，每个卷积模块包括一个步长1的卷积层、激活层和一个步长2的卷积层，前两个卷积模块包括一个3×3×64×2的卷积层、LReLU激活层和一个3×3×64×1的卷积层，最后一个卷积模块包括一个3×3×128×2的卷积层、LReLU激活层和三个（输入尺寸/8）×（输入尺寸/8）×128×1的卷积层，最后输出一个3×128的隐式矩阵，将该隐式矩阵经过特征分解后得到三个隐式向量

，

，与人脸标签数据通过级联方式，分别输入到预训练生成模型中的残差模块，得到对应的生成特征

，

。

进一步的，所述预训练生成模型采用的是预训练的BigGAN模型，该模型每一个残差模块中包含一个上采样卷积，都输出相应的生成特征

，

。

进一步的，所述步骤三，具体为：所述解码器包括解码模块

、解码模块

、解码模块

、解码模块

，特征提取模块

提取的特征信息输入到解码模块

中，

输出结果和

输入到解码模块

中，

输出结果和

输入到解码模块

中，

输出结果和

输入到解码模块

中，最后得到目标分辨率的人脸图。

进一步的，所述的解码器中的前三个解码模块

，

，包含一个3×3×64× 1卷积层、一个LReLU非线性变换层、两个残差单元、一个2倍上采样的亚像素卷积层，所述残差单元包括第一支路和第二支路，第一支路将输入依次通过一个3×3×64×1卷积，一个 LReLU非线性变换层和一个3×3×64×1卷积，第二支路将输入直接与第一支路的输出进行相加操作，最后一个解码模块

包含一个3×3×3×1的卷积层。

本发明通过基于残差结构和通道注意力卷积的编解码网络，并将预训练的生成模型嵌入到编解码结构中间，利用编码网络生成隐式向量，指导预训练的生成器生成丰富的人脸高频信息来提供纹理和细节生成的先验，从而将低分辨率的人脸进行高倍率的放大，通过预训练生成模型中的残差模块结构数量的设置和解码器上采样卷积数量的设置，最高获得64倍的超分结果，并且超分辨结果保持较好的保真性，使放大的图像在保真度和纹理真实度方面有更好的改进，多样化的损失函数和引入的LPIPS评价指标有助于增强视觉感知质量。

附图说明

图1是本发明一种基于预训练生成模型的高倍率人脸超分辨方法整体流程图；

图2是本发明的特征提取模块

结构图；

图3是本发明的残差通道注意力单元结构图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

本发明实施例以8倍图像超分辨率为例进行说明，如图1所示，一种基于预训练生成模型的人脸超分辨方法，包括以下步骤：

步骤一、输入图像分辨率为16×16的人脸图像，采用多个残差通道注意力单元组成的特征提取模块

提取特征信息，包括：轮廓特征和纹理特征；

如图2和图3所示，所述的特征提取模块

由2个3×3×64×1卷积层和6个串联的残差通道注意力单元组成，所涉及的卷积层Conv为3×3×64×1，3×3表示卷积核尺寸，64 表示卷积核个数，最后一位表示卷积核的运动步幅，每个残差通道注意力单元均包括残差单元和通道注意力单元，通过残差单元提取输入图像的特征，再将特征输入至通道注意力单元中获取通道校准系数向量β，将通道校准系数向量β与通道注意力单元的输入特征进行重新校准后作为残差通道注意力单元的输出，所述通道注意力单元包括全局平均池化层、 ReLU非线性变换层、两个卷积层和Sigmoid非线性变换层。

步骤二、将步骤一中提取的特征输入到一个编码器结构中，该编码器结构采用3个卷积模块

，

，每个卷积模块包括一个步长1的卷积层、激活层和一个步长2的卷积层，通过每个卷积模块

得到特征为

，最后得到一个通道数为输入尺寸8倍的隐式矩阵Z，隐式矩阵Z通过分离模块获得隐式向量

，与人脸标签数据通过级联方式，共同输入到预训练生成模型中，该模型使用预训练的高分辨率图像生成模型BigGAN，为高分辨率图像的生成提供丰富的纹理和细节先验知识，预训练生成模型需要的隐式向量

为生成模型提供高层次信息，人脸标签数据引导预训练的生成模型生成更多的高分辨率人脸纹理和细节特征；

所述的编码器结构采用的3个卷积模块，具体的，前两个卷积模块包括一个3×3× 64×2的卷积层、LReLU激活层和一个3×3×64×1的卷积层，最后一个卷积模块包括一个3 ×3×128×2的卷积层、LReLU激活层和三个（输入尺寸/8）×（输入尺寸/8）×128×1的卷积层，最后输出一个3×128的隐式矩阵，将该隐式矩阵经过特征分解后得到三个隐式向量

，分别输入到预训练生成模型中的残差模块，另外，由于该生成模块采用的是预训练的 BigGAN模型，为了使该模型朝着高分辨率的人脸方向发展，将人脸标签与隐式向量进行级联，共同输入到残差模块中；

所述的预训练生成模型中结构为BigGAN模型的结构，与BigGAN不同的是，本发明主要利用BigGAN的高分辨率细节生成能力，在每一个残差模块中包含一个上采样卷积，都输出相应的生成特征

，并将其输入到最后的解码器中，即解码模块。

步骤三、将预训练生成模块中的输出特征

传递给解码器中，并融合特征提取模块

提取的特征信息

，通过解码器操作后，最后输出目标高分辨率的图像；

对于所述的解码器，特征提取模块

提取的特征信息

输入到解码模块

中，

输出结果和

输入到解码模块

中，

输出结果和

输入到解码模块

中，

输出结果和

输入到解码模块

中，最后得到目标分辨率的人脸图，对于所述的解码器中的前三个解码模块

，

，包含一个3×3×64×1卷积层、一个LReLU非线性变换层、两个残差单元、一个2倍上采样的亚像素卷积层，所述残差单元包括两个分支，其中一路将输入依次通过一个3×3×64×1卷积，一个LReLU非线性变换层和一个3×3×64×1卷积，另一支路将输入不做任何变化，直接与第一个支路的输出进行相加操作，最后一个解码模块

包含一个3 ×3×3×1的卷积层。

其中，所述步骤一至步骤三所涉及的网络作为人脸图像超分辨网络，训练过程具体包括以下步骤：

损失函数由三部分构成：基于LPIPS的内容感知损失、像素损失即光滑

损失，使用反向传播策略更新网络，其中预训练生成模型和计算内容感知损失的网络参数固定，不参与训练过程。使用PSNR：Peak Signal to Noise Ratio，峰值信噪比，以及SSIM： structural similarity index，结构相似性，LPIPS作为图片质量的评价指标，选择高分辨率的人脸数据集CelebA然后对图像进行裁剪操作，只截取人脸部分，避免头发帽子衣服对人脸的影响，将截取的照片利用matlab中的imresize下采样到128×128作为高分辨率图像，下采样到16×16作为对应的低分辨率图像，将高低分辨率的人脸图像对作为训练集、验证集和测试集，整个训练过程分为两个阶段，第一个阶段采用像素损失进行训练，使用 RMSprop进行训练，学习率设置为0.0005；第二个阶段引入内容损失进行模型微调，学习率设置为0.0001，使用反向传播策略更新网络，如已收敛，则保存训练好的网络模型，并用作最终的推理。用该生成器网络用作最终的推理，另外选择100张低分辨率的图片作为测试集。另外，用同样的方法在Helen数据集上进行训练和测试，测试结果如表1所示：

表1. 本发明与其他方法在放大8倍时不同数据集下的性能比较(PSNR/SSIM/LPIPS)

表1中最后一行为本发明的结果，在Helen和CelebA都进行了测试，对比常用的超分辨方法，包括双三次上采样、ESRGAN、RCAN、RDN和FSRNet，进行了同样的数据集训练和测试，本发明得到的100张测试图片的平均PSNR和SSIM都取得了较高的结果，另外LPIPS最低，保持着最好的视觉感知质量，整体图片清晰度也最好。

Claims

1.一种基于预训练生成模型的人脸超分辨方法，其特征在于，包括以下步骤：

步骤一、采集并将低分辨率图像输入至特征提取模块

，提取特征信息；

，与人脸标签数据通过级联方式，分别输入至预训练生成模型中，得到生成特征；具体的，将特征信息输入编码器采用的3个卷积模块

，

，

，与人脸标签数据通过级联方式，分别输入到预训练的 BigGAN模型中的残差模块，该BigGAN模型每一个残差模块中包含一个上采样卷积，都输出得到相应的生成特征

，

；

步骤三、将生成特征传递给解码器，并融合特征提取模块

提取的特征信息，经解码操作后输出目标高分辨率图像；具体的，所述解码器包括解码模块

、解码模块

、解码模块

、解码模块

，特征提取模块

提取的特征信息输入到解码模块

中，

输出结果和

输入到解码模块

中，

输出结果和

输入到解码模块

中，

输出结果和

输入到解码模块

中，最后得到目标分辨率的人脸图；其中，所述的解码器中的前三个解码模块

，

，包含一个3×3×64×1卷积层、一个LReLU非线性变换层、两个残差单元、一个2倍上采样的亚像素卷积层，所述残差单元包括第一支路和第二支路，第一支路将输入依次通过一个3×3×64×1卷积，一个LReLU非线性变换层和一个3×3×64×1卷积，第二支路将输入直接与第一支路的输出进行相加操作，最后一个解码模块

包含一个3×3×3×1的卷积层。

2.如权利要求1所述的一种基于预训练生成模型的人脸超分辨方法，其特征在于，所述特征提取模块

由2个3×3×64×1卷积层和6个串联的残差通道注意力单元组成，所述3× 3×64×1卷积层，3×3表示卷积核尺寸，64表示卷积核个数，最后一位1表示卷积核的运动步幅；所述残差通道注意力单元包括残差单元和通道注意力单元，所述残差单元提取输入的低分辨率图像的特征，将该特征输入至通道注意力单元获取通道校准系数向量β，将通道校准系数向量β与通道注意力单元的输入特征进行重新校准后作为残差通道注意力单元的输出。

3.如权利要求2所述的一种基于预训练生成模型的人脸超分辨方法，其特征在于，所述通道注意力单元包括全局平均池化层、ReLU非线性变换层、两个卷积层和Sigmoid非线性变换层。