CN113888417A

CN113888417A - 基于语义解析生成指导的人脸图像修复方法

Info

Publication number: CN113888417A
Application number: CN202111095903.9A
Authority: CN
Inventors: 李月龙; 闫家良; 王鹏; 汪剑鸣
Original assignee: Tianjin Polytechnic University
Current assignee: Tianjin Polytechnic University; Tiangong University
Priority date: 2021-09-12
Filing date: 2021-09-12
Publication date: 2022-01-04

Abstract

本发明提出了一种基于语义解析生成指导的人脸图像修复方法。该方法包括人脸解析恢复网络和图像补全网络。本发明的创新之处在于，人脸解析在人脸恢复过程中起着重要的作用。人脸解析图像整洁而简洁，可以作为结构信息的有效指南。此外，本发明引入了语义补偿模块来增强语境信息的聚合，设计了语境注意模块来提高外观的合理性。本发明还在第二阶段引入上下文注意模块，进一步提高外观的合理性。我们进行了大量的实验来揭示所设计方法的有效性。同时与其他同类方法比较，生成的人脸图像更加合理和清晰，相关评价指标更高。

Description

基于语义解析生成指导的人脸图像修复方法

技术领域

本发明属于图像建模、计算机视觉、图像生成领域，涉及一种基于语义解析生成指导的人脸图像修复方法。

背景技术

众所周知，图像修复的主要目的是恢复受损区域的合理像素。与丰富多样的自然场景相比，面部图像更加纯净，为大家所熟悉。因此，在这类图像上很容易发现任何微小的瑕疵。因此，人脸图像修复一直是一项艰巨的任务。传统的图像修复技术通常通过扩散方法将低级特征从完整区域转移到受损区域。近年来，深度学习技术的发展极大地促进了图像修复的进步。

令人惊讶的是，由于每一个细节信息都非常重要，我们认为一个简单直接的网络框架可能不适合。因此，本文提出了一种基于两阶段的修复结构。这里首先重构面部语义解析图像，能够清晰地反映整个面部的结构。与直接的整体人脸修复相比，解析图像的修复要容易得多，因为它的结构明显更简单，包含的细节信息也少得多。前人的一些工作已经成功地将人脸解析图像应用于人脸生成任务。但与它们不同的是，本文将其用于人脸图像修复。基于这一主要思想，提出了一个生成式句法分析指导网络(GPG-Net)框架。该两级结构由人脸解析恢复子网和图像修复子网组成。具体来说，在人脸解析重构网络中加入了语义补偿模块结构，可以保证上下文信息的有效聚合。另一方面，在第二阶段引入上下文注意模块结构，该结构包含选择细粒度特征的自注意模块，以保证图像的一致性。在公开可用的CelebA-HQ数据集上进行了大量实验，以验证所提出方法的有效性。

发明内容

人脸修复是计算机视觉和图像处理领域中一项有趣而又富有挑战性的任务。本文提出了一种基于句法分析的人脸图像修复方法。显然，完整的面部图像可能包含大量的细节，因此当存在严重的损伤时，直接整体重建是非常困难的。为了解决这个问题，我们选择首先恢复由解析图像表示的整体图像结构，与详细的原始图像相比，解析图像相当简单。基于这一思想，提出了一种基于两阶段的人脸修复框架。

我们的方法架构：

1.人脸解析图像重建网络

为了准确地恢复原始未受损的人脸图像，首先建立了人脸解析图像重建子网，以发现完整的人脸整体结构。它由一代网络Gp和鉴别网络Dp组成。这里发电机Gp的灵感来自众所周知的U-Net结构。具体来说，它包括一个下采样编码器、八个包含扩展卷积的残差块和一个解码器。几个单片机单元被合并到解码器中，以实现更好的语义特征捕获。鉴频器采用70 ×70PatchGan的相同结构。我们还在鉴别器中引入了谱归一化来稳定训练。

2.面部修复网络

在获取人脸解析图像后，设计了一个人脸完成子网络来恢复所有丢失的图像细节。这个网络也是一个生成器和鉴别器的结构。这里，生成器由三个下采样编码块、七个残差块、上下文注意模块单元和上采样编码器组成。此外，在编码器和解码器之间增加了一个跳跃连接。在每个解码层之前添加1×1卷积运算作为通道，可以更好地学习上下文特征。鉴别器的结构与人脸解析重建网络的结构基本一致，它决定了结果是否是真实的人脸图像。此外，为了获得更多的上下文特征，在鉴别器中引入了一个注意力上下文模块。

3.语义补偿模块

网络深层和浅层的直接融合可能导致明显的语义鸿沟。针对这一问题，我们设计了一种语义补偿模块结构，通过并行捕获特征和加入层次组合来有效补偿语义鸿沟。这里，输入和输出通道的一致性可以通过通道均衡和模块级联来保证。信道均衡模块使不同分支的信道大小相等。具体来说，它由两个分支组成，即{3×1，1×3}的扩张卷积对，每个分支都有一个决定卷积区间跨度的扩张率，从而获得多尺度上下文。另一方面，为不同的分支设置不同的竞争值ri(即(1，2))。此外，来自浅层的特征信息在元素级与当前特征图相加。通过该模块，我们可以有效地获得鲁棒的多尺度特征，提高上下文的丰富度

4.注意力上下文模块

为了使网络学习到更丰富的上下文依赖信息，提高不同通道之间的上下文依赖程度，我们在自我注意模块的基础上，设计了一种新的上下文注意模块结构。该模块用于保证上下文信息的获取。这里使用译码器的特征进行矩阵运算来获得自注意，而编码器的特征进行上下文信息特征的获取。

5.实施细节

(1)实验在CelebA-HQ数据集上进行，该数据集被随机分成24183/2993/2824幅图像，分别用于训练、验证和测试；

(2)加载本模型第一阶段的生成器的参数，生成破损图像的语义解析图

(3)加载本模型第二阶段的生成器的参数，输入为第一阶段的语义解析图和破损的人脸图像，输出为经过指导修复的完整人脸图像。

本发明是一种基于语义解析生成指导的人脸图像修复方法，跟现有技术相比，本发明的主要优势在于：

(1)本方法提出了一个生成式句法分析指导网络(GPG-Net)框架。该两级结构由人脸解析恢复子网和图像修复子网组成。基于这一思想，提出了一种基于两阶段的人脸修复框架，其中第一阶段专门进行解析图像修复，随后的第二阶段恢复所有细节。

(2)本方法在人脸解析重构网络中加入了语义补偿模块结构，可以保证上下文信息的有效聚合。

(3)另一方面，在第二阶段引入上下文注意模块结构，该结构包含选择细粒度特征的自注意模块，以保证图像的一致性。

附图说明

图1为本发明方法网络结构框架图。

具体实施方式

本方法提出了一个生成式句法分析指导网络(GPG网)框架。该两级结构由人脸解析恢复子网和图像修复子网组成。下文将对本发明实施方法进行更为具体的介绍和描述：

训练阶段：

本发明的语义解析人脸图像修复模型需要在一定数量训练样本进行训练，实验在CelebA-HQ数据集上进行，该数据集被随机分成24183/2993/2824幅图像，分别用于训练、验证和测试。G_p-Net的人脸语义标签由CelebAMask-HQ提供，这是一个大规模的人脸分割数据集，由30，000个人工标注的数据组成，涉及19个类别。

我们用来训练的随机Mask来自英伟达Mask数据集。在我们的实验中，所有图像都具有 256×256的统一尺寸。模型使用Adam优化器进行优化，β1＝0，β2＝0.9，生成模型的学习速率为10^-4，而鉴别器的学习速率为10^-5。所提出的方法将以深度填充(CA)、深度填充2(GC)、多元图像填充(PIC)和移位网络(SHIFT-NET)作为对比进行试验。

实验展示了定性性能。我们的GPG-Net达到了最好的视觉修复效果。另一方面，我们的方法可以产生更自然的外观和视觉上引人注目的结果，即使是在大姿势和极端损坏的情况下。我们的结果按常用PSNR、SSIM和FID指标报告了量化性能。根据数据，我们的方法在所有三种测量中都优于其他方法，尤其是在FID方面。

网络应用阶段：

对待任意一幅输入的遮挡图像，本发明方法将依次采用下列处理分析步骤进行图像生成：

首先，输入待处理的遮挡图像，第一阶段生成预测的语义图，第二阶段输入预测的语义图和待遮挡的图像输出修复的图像。

Claims

1.基于语义解析生成指导的人脸图像修复方法，包括下列步骤：

方法训练阶段：

(1)实验在CelebA-HQ数据集上进行，该数据集被随机分成24183/2993/2824幅图像，分别用于训练、验证和测试。G_p-net的人脸语义标签由CelebAMask-HQ数据集提供，这是一个大规模的人脸分割数据集，由30,000个人工标注的数据组成，涉及19个类别；

(2)在我们的实验中，所有图像都具有256×256的统一尺寸。模型使用Adam优化器进行优化，β1＝0，β2＝0.9，生成模型的学习速率为10^-4，而鉴别器的学习速率为10^-5。

在线使用阶段：

(3)加载本模型第一阶段的生成器的参数，生成破损图像的语义解析图

(4)加载本模型第二阶段的生成器的参数，输入为第一阶段的语义解析图和破损的人脸图像，输出为经过指导修复的完整人脸图像。

2.根据权利要求1所述的语义解析生成指导的人脸图像修复方法，其特征在于，步骤(1)中，训练图像的大小均为256*256，所有图像主体均清晰可辨，训练样本集合中包含真实图像30000幅。类别标签为19类。

3.人脸解析图像重建网络：

为了准确地恢复原始未受损的人脸图像，设计了人脸解析图像重建子网络G_P-Net，以发现完整的人脸整体结构。为了准确地恢复原始未受损的人脸图像，首先设计了人脸解析图像重建子网络，以发现完整的人脸整体结构。它由一个生成网络G_p和一个判别网络D_p组成该网络包括一个下采样编码器，八个残余块包含一个扩张卷积和一个解码器。为了更好地实现语义特征捕获，将多个语义补偿模块合并到解码器中。该鉴别器采用相同的70×70PatchGan结构。我们还在鉴别器中引入了光谱归一化来稳定训练。详细的人脸解析图像重建子网络架构如表所示：

4.人脸补全子网络G_c-Net：

在获取人脸解析图像后，设计一个人脸补全子网络来恢复所有缺失的图像细节。该网络也是一个生成器和鉴别器的结构，如图1底部所示。这里，生成器由三个下采样编码块、七个剩余块、一个上下文注意模块单元和一个上采样编码器组成。此外，在编码器和解码器之间增加了一个跳跃连接。在每个解码层之前添加1×1卷积运算作为信道，可以更好地学习上下文特征。鉴别器的结构与人脸解析重建网络的结构基本一致，这决定了结果是否是真实的人脸图像。此外，在鉴别器中引入了上下文注意力模块，以获得更多的上下文特征。

详细的人脸修复网络架构如表所示：

5.语义补偿模块

网络深层和浅层的直接融合可能会导致明显的语义鸿沟。针对这一问题，我们设计了一种语义补偿模块结构，该结构通过并行捕获特征并引入层次组合来有效补偿语义差距。这里，通过通道均衡和模块级联，可以保证输入输出通道的一致性。信道均衡模块使不同分支的信道大小相等。具体来说，它由两个分支组成，即{3×1，1×3}的扩张卷积对，每个扩张速率为r_i，它决定了卷积区间的跨度，从而获得多尺度上下文。另一方面，不同的竞争值r_i为不同的分支设置。将浅层的特征信息与当前的特征图进行元素级求和。通过该模块，我们可以有效地获得鲁棒的多尺度特征，提高上下文的丰富度。

6.注意力上下文模块

为了使网络学习到更丰富的上下文依赖信息，提高不同通道之间的上下文依赖程度，我们设计了一种新的上下文自我注意模块结构。自我注意地图首先通过以下方法计算：

其中F_de为解码器中间层的特征，W×H为像素数，F_i和(F_i·F_j)是可学习参数矩阵。然后，输出y_de可以表示为：

式中，用标度参数λ_de是来平衡相对重量。为了结合编码器层的特征，我们有一个上下文信息特征，输出y_en可表示为：

其中缩放参数λ_en是用来结合注意特征和编码器特征F_en。最后，自注意和上下文信息特征被聚合并发送到另一个解码器层。