CN114511466B - 一种基于生成对抗网络先验的盲人脸图像复原方法 - Google Patents

一种基于生成对抗网络先验的盲人脸图像复原方法 Download PDF

Info

Publication number
CN114511466B
CN114511466B CN202210155385.3A CN202210155385A CN114511466B CN 114511466 B CN114511466 B CN 114511466B CN 202210155385 A CN202210155385 A CN 202210155385A CN 114511466 B CN114511466 B CN 114511466B
Authority
CN
China
Prior art keywords
degradation
module
image
generation
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210155385.3A
Other languages
English (en)
Other versions
CN114511466A (zh
Inventor
张健
王荫槐
胡妤婕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN202210155385.3A priority Critical patent/CN114511466B/zh
Publication of CN114511466A publication Critical patent/CN114511466A/zh
Application granted granted Critical
Publication of CN114511466B publication Critical patent/CN114511466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于生成对抗网络先验的盲人脸图像复原方法,包括生成对抗网络先验模块、图像特征提取模块、基于无监督学习退化表征策略的退化表征编码模块、退化感知特征插值模块。生成对抗网络先验模块,用于从初始特征图通过针对人脸预训练好的生成对抗网络生成不同尺度的中间特征图,从而合成更真实的人脸结构和细节;图像特征提取模块,用于从原始退化图像提取出不同尺度的特征图;退化表征编码模块,根据是否使用不同退化函数构造正负样本,从而实现在无监督情况下提取出图像在不同退化程度下的退化表征;退化感知特征插值模块,用于融合图像特征提取模块每一层提取到的特征图和生成对抗网络先验模块每一层得到的特征图。本发明可以自适应学习图像的不同退化程度,实现从不同程度的多种未知退化下的低质量人脸图像复原出身份一致,细节清晰的高质量人脸图像。

Description

一种基于生成对抗网络先验的盲人脸图像复原方法
技术领域:
本发明涉及图像复原技术领域,尤其涉及一种基于生成对抗网络先验的盲人脸图像复原方法,用于实现将未知退化的低质量人脸图像复原成高质量图像。
背景技术:
图像在形成、传播和保存过程中使图像质量下降的过程,称为图像退化。图像复原是针对退化的图像,使其最大限度恢复物体原貌的处理。人脸图像记录了个人长久珍贵的记忆和人类文明的历史时刻,具有很大的应用和研究价值,已经受到业界和学术界的广泛关注。专门针对人脸图像的盲人脸复原是指从低分辨率、存在噪声、模糊、压缩伪影等未知退化的低质量人脸中恢复出高质量的人脸,是其中一个重要的分支问题。它的重难点在于真实世界的图像涉及到的退化类型更复杂多样。
与一般图像的复原不同,人脸图像具有较强的结构性信息,在图像退化程度较低的时候,可以利用人脸图像的强先验知识来恢复人脸的细节。因此目前的方法大多会引入额外的人脸先验信息作为指导,比如人脸解析图(详见参考文献[1])、人脸关键点(详见参考文献[2])和参考图像(详见参考文献[3])等。然而,在处理严重退化的人脸图像时,这些信息提供的先验知识是有限的,无法重建出丰富的细节信息。随着生成对抗网络的不断发展,它生成的人脸图像已经达到了以假乱真的地步。越来越多的工作(详见参考文献[4]、[5]、[6]、[7])基于生成对抗网络这一显著优势,在人脸图像复原中引入预训练好的生成对抗网络,利用它生成的特征为人脸细节提供先验。但是,生成对抗网络也有不足之处,在于它需要很强的监督,特征层面细小的改变都会影响最后输出的结果,因此无法很好地保持身份信息的一致性。
除此之外,还有一个值得关注的问题:在面对不同的退化程度时,盲人脸复原方法应该具有较强的鲁棒性,可以在大多数情况下都能取得很好的视觉质量。
通过上述分析,现有技术存在的问题及缺陷在于:(1)无法处理复杂多样的退化类型;(2)无法恢复出丰富且清晰的细节信息;(3)无法保证复原后的身份一致性;(4)无法适应不同的退化程度。
解决以上问题及缺陷的难度在于:(1)关于退化过程,真实世界存在的退化类型是多种多样并且未知的,我们只能尽可能接近得去模拟退化,而无法保证人为退化与真实退化完全一致;(2)关于数据集,因为真实世界的退化图像是没有可参考的复原图像,因此我们只能通过人为合成的方式来制作数据集进行训练,那么训练数据集和真实世界数据集的分布之间是存在差异的,也就不可避免地在真实世界的退化图像上效果差强人意;(3)关于网络,为了恢复出丰富且清晰的细节信息,生成对抗网络是很好的选择,但同时由于缺少结构信息的监督,会导致生成前后身份不完全一致,因此需要调整网络结构,让结构信息和细节信息完美地融合;(4)关于鲁棒性,由于图像的退化程度有轻有重,为了更好的效果,一般做法是针对不同的退化程度单一地训练一个模型,这样会增加开销,因此需要调整模型设计,用一个模型解决多种退化程度。
解决以上问题及缺陷的意义在于:(1)提高盲人脸图像复原的质量,促进人脸图像的研究;(2)探究得到新的特征融合的方式,为其他图像处理工作提供灵感;(3)作为一种预处理或后处理的方式,与其他工作结合能够创造更大的价值。
发明内容:
本发明的目的在于提供一种基于生成对抗网络先验的盲人脸图像复原方法,在不同程度退化信息的指导下,将生成对抗网络提取到的特征和人脸图像自身提供的特征进行插值后生成高质量图像,不仅能保留人物的身份信息,也能恢复出逼真的细节。
本发明的技术方案如下:
一种基于生成对抗网络先验的盲人脸图像复原方法,包括以下步骤:
步骤S1、构造训练数据集:采用包含高斯模糊、下采样、高斯噪声和JPEG压缩的退化函数来尽可能拟合真实世界的退化,训练过程中随机选择不同的退化参数。训练数据集有多个数据对,每个数据对由高质量人脸图像和对应的退化图像组成。
步骤S2、基于无监督学习退化表征策略训练退化表征编码模块:不同的图像经过同一个退化函数得到的退化图像互为正样本,经过其他退化函数得到的退化图像均为负样本。同时采用对比损失训练退化表征编码模块,使得正样本之间的退化表征尽可能接近,负样本之间的退化表征尽可能区分开。
步骤S3、构造基于生成对抗网络先验的盲人脸图像复原模型:模型由生成对抗网络先验模块、图像特征提取模块、退化表征编码模块、退化感知特征插值模块组成,主要是将退化图像蕴含的结构信息和生成网络先验预测的细节信息自适应地进行融合,从而使得生成的高质量人脸图像不仅保持了身份信息,还能够具有更清晰的纹理细节。
步骤S4、训练基于生成对抗网络先验的盲人脸图像复原模型:在训练时,基于上述训练数据集,给定损失函数,使用反向传播和梯度下降算法不断优化模型中的参数,直至损失函数值稳定。
步骤S5、采用训练好的基于生成对抗网络先验的盲人脸图像复原模型进行图像复原:选取通用的数据集作为测试,用前面提到的退化函数进行相同处理后得到的低质量人脸作为模型的输入,输出复原后的高质量人脸图像。
优选地,基于生成对抗网络先验的盲人脸图像复原模型包括生成对抗网络先验模块、图像特征提取模块、退化表征编码模块、退化感知特征插值模块;生成对抗网络先验模块,用于从初始特征图通过针对人脸预训练好的生成对抗网络生成不同尺度的中间特征图,输入到退化感知特征插值模块;图像特征提取模块,用于从原始退化图像提取出不同尺度的特征图,作为退化感知特征插值模块的另一个输入;退化表征编码模块,用于从原始退化图像提取退化表征,不同程度的退化图像提取出不同的退化表征,作为退化感知特征插值模块的条件信息;退化感知特征插值模块,用于从退化表征编码模块得到的退化表征学习得到特征插值掩码,再融合图像特征提取模块每一层提取到的特征图和生成对抗网络先验模块每一层得到的特征图,得到最终需要输入到生成对抗网络先验模块中下一层的特征图。
优选地,步骤S2构造退化表征编码模块是基于无监督学习退化表征策略,主要包括如下步骤:
步骤S21、在训练集中每次随机选取两张不同的图像,应用相同的退化函数,得到退化图像对,它们彼此之间互为正样本。
步骤S22、初始化退化表征模块,创建自定义长度的由随机向量组成的负样本队列。
步骤S23、使用对比损失训练退化表征编码模块,计算图像对内部正样本的距离和图像对之间负样本的距离,使得退化表征尽可能接近正样本,同时与负样本区分开。
步骤S24、这两张图像进入队列,作为之后其他图像经过不同的退化函数得到的退化图像对的负样本。即队列中会保留每次生成的退化图像对,达到设定的队列长度后用新生成的退化图像对替换最早的图像对,作为一次更新。
本发明具有如下有益效果:
1、本发明以成熟的人脸生成模型为先验,可以从具有不同程度的未知退化的低质量人脸中恢复出高质量的人脸图像;
2、相对于现有的盲人脸复原算法,所提出方法融合了图像本身的结构信息,使得复原后的图像不仅有丰富的细节信息,还能保持复原前后的身份一致性;
3、相对于现有的盲人脸复原算法,所提出方法从不同退化的低质量图像中提取出代表不同类型和程度的退化表征,不仅能在未知退化下复原出高质量的人脸图像,还能在不同程度的退化下始终取得较高的性能,具有更好的复原鲁棒性。
附图说明:
图1是本发明的基于生成对抗网络先验的盲人脸图像复原方法的流程图。
图2是本发明的无监督学习退化表征策略的流程图。
图3是本发明的基于生成对抗网络先验的盲人脸图像复原模型的结构图。
图4是本发明的基于生成对抗网络先验的盲人脸图像复原模型中的退化感知特征插值模块的结构图。
图5是本发明的基于生成对抗网络先验的盲人脸图像复原方法与其他算法在不同程度的多种退化下的复原效果对比图。
图6是本发明的基于生成对抗网络先验的盲人脸图像复原方法与其他算法在固定高下采样比例下的复原效果对比图。
具体实施方式:
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明的基于生成对抗网络先验的盲人脸图像复原方法的实施流程图,包括如下步骤:
步骤S1、构造训练数据集
为了尽可能拟合真实世界的退化,本发明采用包含高斯模糊、下采样、高斯噪声和JPEG压缩的退化函数,表达式如下:
其中,高质量人脸图像y首先与高斯模糊核kσ进行卷积,然后进行带有比例因子r的降采样操作,再将加性高斯白噪声nδ添加到图像中,最后用质量因子q的JPEG进行压缩,得到退化后的低质量人脸图像x。
低质量人脸图像作为基于生成对抗网络先验的盲人脸图像复原模型的输入,高质量人脸图像/>作为复原目标图像,因此{x,y}组成了一对训练数据,很多对这样的训练数据就构成了模型的训练数据集集合。本发明实施例中,把包含70000张分辨率为1024×1024的高质量人脸图像的FFHQ数据集作为训练集。
步骤S2、基于无监督学习退化表征策略训练退化表征编码模块
图2是本发明的无监督学习退化表征策略。本发明实施例中,以目前被广泛认可的基于对比学习的MoCo方法为基础,主要考虑的是如何构造正负样本。首先在训练集中随机选取两张不同的图像,应用相同的退化函数,得到退化图像对。退化图像对内部内容不同退化相同,退化图像对之间内容不同退化也不同。同时会初始化退化表征模块,创建自定义大小的由随机向量组成的负样本队列。计算图像对内部正样本的距离和图像对之间负样本的距离,通过InfoNCE损失使得学到的退化表征尽可能接近正样本,同时与负样本区分开。最后将这两张图像保存在队列中,作为之后其他图像经过不同的退化函数得到退化图像的负样本。也就是说,队列中会保留每次生成的退化图像对,在达到设定的队列长度后会用新生成的退化图像对替换最早的图像对,作为一次更新。
假设数据集一共2N张图像。每次随机选取2张不同的图像,采用同一个退化函数,得到N个图像对其中/>与/>内容不同退化相同,/>内容不同退化也不同。
假设一个批次共有B个图像对。初始化退化表征编码模块,创建B个自定义大小的由随机向量组成的负样本队列其中queuei表示第i个负样本队列。以第i个图像对/>为例,将第i个图像对输入到退化表征编码模块,可以得到对应的退化表征/>本发明希望qi尽可能接近正样本/>同时与/>区分开,所以采用对比损失作为目标优化函数,即InfoNCE损失:
在一次批处理中,本发明需要计算这B个图像对的总对比损失,从而反向传播更新退化表征编码模块的参数。因此最终的损失函数如下所示:
其中,τ是一个超参数。
步骤S3、构造基于生成对抗网络先验的盲人脸图像复原模型
如图3所示,基于生成对抗网络先验的盲人脸图像复原模型,包括生成对抗网络先验模块、图像特征提取模块、退化表征编码模块、退化感知特征插值模块。
生成对抗网络先验模块用来生成不同尺度的中间特征图。本发明实施例中,生成对抗网络先验模块采用预训练好的目前人脸生成效果最好的StyleGAN2模型。StyleGAN2先将一个符合均匀分布或者高斯分布的随机向量用一个映射网络变换成一个中间隐变量来拟合实际非均匀分布的情况,再让隐变量通过仿射变换产生不同尺度下的风格编码,最后通过自适应实例归一化控制不同尺度生成网络层输出的特征图。本发明实施例中,本发明认为图像特征提取模块提取的特征足够高维,能够作为生成对抗网络先验模块的隐变量,因此保留了StyleGAN2模型的生成网络层和判别器,去除了映射网络。
进一步地,生成对抗网络先验模块由九个网络层组成,第i层用表示,分别生成42、82、162、322、642、1282、2562、5122、10242大小的特征图。
图像特征提取模块用于从图像特征提取模块提取出图像不同尺度的特征图。本发明实施例中,图像特征提取模块由六个子模块组成,提取过程可以表示为:
其中,表示第i个子模块。进一步地,/>由一个残差稠密模块、一个基于卷积的注意力机制模块和四个卷积模块依次连接而成,/>表示第一个子模块输出的特征图,尺寸大小为642;/>均只包含一个卷积层和一个激活层,/>的尺寸大小分别为322、162、82、42;/>由一个卷积层、一个激活层和一个全连接层,/>为生成对抗网络先验模块需要的隐变量。
为了避免图像特征提取模块提取到的特征和退化感知特征插值模块融合特征发生耦合,造成两个模块训练的不稳定,在每一个提取到的特征图后增加了一个额外的卷积层来进一步提取特征:
其中,表示第i个子模块后连接的卷积层。
进一步地,残差稠密模块包含卷积层和激活层,结合了多层的残差网络和密集连接;基于卷积的注意力机制模块包含两个分别独立的通道注意力模块和空间注意力模块,用于分别进行通道与空间上的注意力计算;一个卷积模块都由一个卷积层和一个激活层组成,最后一个卷积模块除了一个卷积层和一个激活层,还包含一个全连接层,用于得到生成对抗网络先验模块需要的固定大小的隐变量。
退化表征编码模块由六个卷积模块组成,其中前五个卷积模块由一个卷积层,一个批归一化层和一个激活层组成,最后一个卷积模块在这三个网络层的后面还连接了一个平均池化层。输入一张退化图像x,/>能够输出一个一维向量vDR作为这张图的退化表征。用数学公式可以将这一过程定义为:
退化感知特征插值模块用于从退化表征编码模块得到的退化表征学习到一个特征插值掩码,再融合图像特征提取模块每一层提取到的特征图和生成对抗网络先验模块每一层得到的特征图。如图4所示,本发明实施例中,退化感知特征插值模块共有五个,分别在42、82、162、322、642尺寸大小的特征图上执行一次插值,即将图像特征提取模块中得到的特征图融合到生成对抗网络先验模块中得到的前五层中间特征图:
其中,表示生成对抗网络先验模块中第i层输出的特征图,/>表示图像特征提取模块中第(6-i)层输出的特征图,/>表示第i个退化感知特征插值模块融合得到的特征图。
进一步地,第i个退化感知特征插值模块由一个多层感知机和一个激活函数softmax(·)组成,每一个退化感知特征插值模块中的多层感知机参数独立。输入退化表征vDR,输出通道维度的插值掩码maski
退化感知特征插值模块得到每一层融合的特征图后,需要将其输入到生成对抗网络先验模块下一层中,利用预训练好的生成对抗网络先验模块强大的生成能力输出最终的结果,因此生成对抗网络先验模块中第二层到第六层的输入不再是前一层输出的特征图,而是融合后的特征图。整个生成过程如下所示:
其中,为初始的常数特征图,/>为最终生成的复原人脸图像。
步骤S4、训练基于生成对抗网络先验的盲人脸图像复原模型
在训练基于生成对抗网络先验的盲人脸图像复原模型过程中,S2得到的采用无监督学习退化表征策略预训练好的退化表征编码模块固定,S3中提到的生成对抗网络先验模块虽然也是预训练好的模型,但是在训练整个模型时会进行微调,使之更加适应人脸复原任务。其他模块的参数都是可学习的。
本发明实施例中,基于生成对抗网络先验的盲人脸图像复原模型损失函数采用的是L1范数损失,基于VGG网络的感知损失和朴素生成对抗损失。
其中,表示基于生成对抗网络先验的盲人脸图像复原模型,/>表示VGG16网络,/>表示前面提到的预训练好的StyleGAN2模型中的判别器。
因此基于生成对抗网络先验的盲人脸图像复原模型和判别器完整的损失函数如下:
其中,训练过程中不断迭代地最小化和最大化/>λ,α,β是对应损失函数的权重,本发明实施例中,设置为λ=1,α=10-2,β=10-2,使用Adam优化器,设定初始学习率为10-4,部署在4张V100 GPU上,批大小为8,迭代次数为600K。
步骤S5、采用训练好的基于生成对抗网络先验的盲人脸图像复原模型进行图像复原
为了验证本发明的有效性,本发明在CelebAHQ数据集中随机选取1000张高质量人脸图像作为目标复原图像,然后使用前面提到的退化函数对这些图像进行处理得到低质量人脸图像作为输入。将本发明提出的基于生成对抗网络先验的盲人脸图像复原模型与最新的基于生成对抗网络先验的人脸复原模型进行了比较,包括官方预训练的GFP-GAN(详见参考文献[5])和GPEN(详见参考文献[4])。为了客观评价不同方法的复原效果,本发明使用PSNR、FID和LPIPS作为定量比较的指标,其中FID是用来度量真实图像和生成图像在特征空间的距离,LPIPS是用来度量两张图像在感知特征上的差异性,更符合人类的感知情况。
为了证明本发明实时技术方案的先进性,在多个项目中进行了实际的效果测试,和手工编写进行了实际的效率对比。
表1:不同方法在CelebAHQ数据集上不同程度的多种退化下的复原结果比较
方法 PSNR↑ FID↓ LPIPS↓
GFP-GAN 17.22 34.61 0.4150
GPEN 17.91 32.03 0.4355
Panini-Net 18.01 24.66 0.4470
如上表所示,“↑”表示越高越好,“↓”表示越低越好。本发明的基于生成对抗网络先验的盲人脸图像复原模型(Panini-Net)达到了最高的PSNR和具有竞争力的LPIPS,在FID中也获得了显著的增益。这反映了本发明的方法对图像真实感的改善。
图5展示了不同方法在不同程度的多种退化下的主观复原结果图。可以看出Panini-Net在退化严重时具有明显优势,能够恢复出具有真实感的细节信息,在视觉质量上仍可与目标复原图像相媲美。
除了在多种退化下的复原效果,本发明还考虑了另一个典型的针对特定类型退化的复原任务:人脸超分辨率。这里本发明使用16倍双线性插值作为下采样操作来生成低分辨率图像,同时简化了基于生成对抗网络先验的盲人脸图像复原模型的结构,按照前面说的训练策略重新训练了一个输入为64×64,输出为1024×1024的网络。具体来说,去除了基于生成对抗网络先验的盲人脸图像复原模型中的退化表征编码模块,用一个可学习的常数向量表示退化表征;调整了一些相关的卷积设置以适应新的输入图像的大小。本发明选用目前最优的基于生成对抗网络先验的超分方法pSp(详见参考文献[6])和GLEAN(详见参考文献[7])作为比较对象,客观评价指标不变。
表2:不同方法在CelebAHQ数据集上16倍超分下的复原结果比较
方法 PSNR↑ FID↓ LPIPS↓
pSp 12.90 47.65 0.6529
GLEAN 21.66 19.76 0.4013
Panini-Net 21.19 16.77 0.3886
如上表所示,本发明的基于生成对抗网络先验的盲人脸图像复原模型(Panini-Net)FID和LPIPS中优于其他方法,并实现了具有竞争力的PSNR。
图6展示了不同方法在16倍超分下的主观复原结果图。可以看到,本发明方法明显优于其他方法。pSp方法无法很好地保持人的身份信息,以及无法复原出一些配饰,如眼镜,项链等。GLEAN方法已经取得了不错的效果,但是放大后能发现它整体过于平滑,呈现出来较为模糊。本发明的方法很好地复原出了清晰的细节信息,主观质量有时甚至优于目标复原图像,但PSNR这一指标不能很好地反映这一点。因为超分辨率是一个病态逆问题,可能有很多个合理的解决方案,而PSNR只计算与目标复原图像的像素一致性,即只认为目标复原图像是最优结果,忽略了其他的可能结果。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
参考文献:
[1].Chen C,Li X,Yang L,et al.Progressive Semantic-Aware StyleTransformation for Blind Face Restoration[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2021:11896-11905.
[2].Chen Y,Tai Y,Liu X,et al.FSRNet:End-to-End Learning Face Super-Resolution with Facial Priors[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition.2018:2492-2501.
[3].Li X,Li W,Ren D,et al.Enhanced Blind Face Restoration With Multi-Exemplar Images and Adaptive Spatial Feature Fusion[C]//Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:2706-2715.
[4].Yang T,Ren P,Xie X,et al.GAN Prior Embedded Network for BlindFace Restoration in the Wild[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition.2021:672-681.
[5].Wang X,Li Y,Zhang H,et al.Towards Real-World Blind FaceRestoration with Generative Facial Prior[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2021:9168-9178.
[6].Richardson E,Alaluf Y,Patashnik O,et al.Encoding in Style:AStyleGAN Encoder for Image-to-Image Translation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2021:2287-2296.
[7].Chan K C K,Wang X,Xu X,et al.GLEAN:Generative Latent Bank forLarge-Factor Image Super-Resolution[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2021:14245-14254.

Claims (5)

1.一种基于生成对抗网络先验的盲人脸图像复原方法,其特征在于,包括以下步骤:
步骤S1、构造训练数据集:采用包含高斯模糊、下采样、高斯噪声和JPEG压缩的退化函数来尽可能拟合真实世界的退化,训练过程中随机选择不同的退化参数;训练数据集有多个数据对,每个数据对由高质量人脸图像和对应的退化图像组成;
步骤S2、基于无监督学习退化表征策略训练退化表征编码模块:不同的图像经过同一个退化函数得到的退化图像互为正样本,经过其他退化函数得到的退化图像均为负样本;同时采用对比损失训练退化表征编码模块,使得正样本之间的退化表征尽可能接近,负样本之间的退化表征尽可能区分开;
步骤S3、构造基于生成对抗网络先验的盲人脸图像复原模型:模型由生成对抗网络先验模块、图像特征提取模块、退化表征编码模块、退化感知特征插值模块组成,主要是将退化图像蕴含的结构信息和生成网络先验预测的细节信息自适应地进行融合,从而使得生成的高质量人脸图像不仅保持了身份信息,还能够具有更清晰的纹理细节;
步骤S4、训练基于生成对抗网络先验的盲人脸图像复原模型:在训练时,基于上述训练数据集,给定损失函数,使用反向传播和梯度下降算法不断优化模型中的参数,直至损失函数值稳定;
步骤S5、采用训练好的基于生成对抗网络先验的盲人脸图像复原模型进行图像复原:选取通用的数据集作为测试,用前面提到的退化函数进行相同处理后得到的低质量人脸作为模型的输入,输出复原后的高质量人脸图像。
2.根据权利要求1所述的基于生成对抗网络先验的盲人脸图像复原方法,其特征在于步骤S2构造退化表征编码模块是基于无监督学习退化表征策略,主要包括如下步骤:
步骤S21、在训练集中每次随机选取两张不同的图像,应用相同的退化函数,得到退化图像对,它们彼此之间互为正样本;
步骤S22、初始化退化表征模块,创建自定义长度的由随机向量组成的负样本队列;
步骤S23、使用对比损失训练退化表征编码模块,计算图像对内部正样本的距离和图像对之间负样本的距离,使得退化表征尽可能接近正样本,同时与负样本区分开;
步骤S24、这两张图像进入队列,作为之后其他图像经过不同的退化函数得到的退化图像对的负样本;即队列中会保留每次生成的退化图像对,达到设定的队列长度后用新生成的退化图像对替换最早的图像对,作为一次更新。
3.根据权利要求1所述的基于生成对抗网络先验的盲人脸图像复原方法,其特征在于步骤S3构造的基于生成对抗网络先验的盲人脸图像复原模型包括生成对抗网络先验模块、图像特征提取模块、退化表征编码模块、退化感知特征插值模块;
生成对抗网络先验模块,用于从初始特征图通过针对人脸预训练好的生成对抗网络生成不同尺度的中间特征图,输入到退化感知特征插值模块;
图像特征提取模块,用于从原始退化图像提取出不同尺度的特征图,作为退化感知特征插值模块的另一个输入;
退化表征编码模块,用于从原始退化图像提取退化表征,不同程度的退化图像提取出不同的退化表征,作为退化感知特征插值模块的条件信息;
退化感知特征插值模块,用于从退化表征编码模块得到的退化表征学习得到特征插值掩码,再融合图像特征提取模块每一层提取到的特征图和生成对抗网络先验模块每一层得到的特征图,得到最终需要输入到生成对抗网络先验模块中下一层的特征图。
4.根据权利要求3所述的基于生成对抗网络先验的盲人脸图像复原方法,其特征在于所述的退化感知特征插值模块,退化感知特征插值模块从退化表征编码模块得到的退化表征学习到的一个特征插值掩码;每一个退化感知特征插值模块都是由一个多层感知机和一个激活函数组成,并且相互独立;输入退化表征,退化表征编码模块会输出通道维度的插值掩码,再通过线性插值融合图像特征提取模块每一层提取到的特征图和生成对抗网络先验模块每一层得到的特征图。
5.根据权利要求1所述的基于生成对抗网络先验的盲人脸图像复原方法,其特征在于步骤S4基于生成对抗网络先验的盲人脸图像复原模型的训练;首先步骤S2已经提前训练好退化表征编码模块,考虑到退化表征只和退化程度有关,不需要根据复原效果再反向优化,因此在训练基于生成对抗网络先验的盲人脸图像复原模型时退化表征编码模块参数固定;生成网络先验模块采用预训练好的生成模型,但在训练时会进行微调,使经过退化感知特征插值模块融合后的特征更适应人脸复原任务。
CN202210155385.3A 2022-02-21 2022-02-21 一种基于生成对抗网络先验的盲人脸图像复原方法 Active CN114511466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210155385.3A CN114511466B (zh) 2022-02-21 2022-02-21 一种基于生成对抗网络先验的盲人脸图像复原方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210155385.3A CN114511466B (zh) 2022-02-21 2022-02-21 一种基于生成对抗网络先验的盲人脸图像复原方法

Publications (2)

Publication Number Publication Date
CN114511466A CN114511466A (zh) 2022-05-17
CN114511466B true CN114511466B (zh) 2024-04-26

Family

ID=81552341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210155385.3A Active CN114511466B (zh) 2022-02-21 2022-02-21 一种基于生成对抗网络先验的盲人脸图像复原方法

Country Status (1)

Country Link
CN (1) CN114511466B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706157A (zh) * 2019-09-18 2020-01-17 中国科学技术大学 一种基于身份先验生成对抗网络的人脸超分辨率重建方法
WO2020029356A1 (zh) * 2018-08-08 2020-02-13 杰创智能科技股份有限公司 一种基于生成对抗网络的脸部变化预测方法
WO2020103171A1 (zh) * 2018-11-21 2020-05-28 北京大学深圳研究生院 用于图像去模糊的Bi-Level优化方法
CN111738953A (zh) * 2020-06-24 2020-10-02 北京航空航天大学 一种基于边界感知对抗学习的大气湍流退化图像复原方法
CN113139915A (zh) * 2021-04-13 2021-07-20 Oppo广东移动通信有限公司 人像修复模型的训练方法和装置、电子设备
CN113763268A (zh) * 2021-08-26 2021-12-07 中国科学院自动化研究所 人脸图像盲修复方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020029356A1 (zh) * 2018-08-08 2020-02-13 杰创智能科技股份有限公司 一种基于生成对抗网络的脸部变化预测方法
WO2020103171A1 (zh) * 2018-11-21 2020-05-28 北京大学深圳研究生院 用于图像去模糊的Bi-Level优化方法
CN110706157A (zh) * 2019-09-18 2020-01-17 中国科学技术大学 一种基于身份先验生成对抗网络的人脸超分辨率重建方法
CN111738953A (zh) * 2020-06-24 2020-10-02 北京航空航天大学 一种基于边界感知对抗学习的大气湍流退化图像复原方法
CN113139915A (zh) * 2021-04-13 2021-07-20 Oppo广东移动通信有限公司 人像修复模型的训练方法和装置、电子设备
CN113763268A (zh) * 2021-08-26 2021-12-07 中国科学院自动化研究所 人脸图像盲修复方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
生成对抗网络进行感知遮挡人脸还原的算法研究;魏赟;孙硕;;小型微型计算机***;20200215(第02期);全文 *

Also Published As

Publication number Publication date
CN114511466A (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
Burgess et al. Understanding disentangling in $\beta $-VAE
Zhang et al. Image restoration: From sparse and low-rank priors to deep priors [lecture notes]
CN111798369B (zh) 一种基于循环条件生成对抗网络的人脸衰老图像合成方法
CN113658051A (zh) 一种基于循环生成对抗网络的图像去雾方法及***
CN112434655B (zh) 一种基于自适应置信度图卷积网络的步态识别方法
CN107968962A (zh) 一种基于深度学习的两帧不相邻图像的视频生成方法
CN112541864A (zh) 一种基于多尺度生成式对抗网络模型的图像修复方法
CN113177882A (zh) 一种基于扩散模型的单帧图像超分辨处理方法
CN107154064B (zh) 基于深度稀疏编码的自然图像压缩感知重建方法
CN112686817B (zh) 一种基于不确定性估计的图像补全方法
CN113205449A (zh) 表情迁移模型的训练方法及装置、表情迁移方法及装置
CN112686816A (zh) 一种基于内容注意力机制和掩码先验的图像补全方法
CN112116601A (zh) 一种基于线性采样网络及生成对抗残差网络的压缩感知采样重建方法及***
CN116168067B (zh) 基于深度学习的有监督多模态光场深度估计方法
CN110728728A (zh) 一种基于非局部正则的压缩感知网络图像重建方法
CN115484410A (zh) 基于深度学习的事件相机视频重建方法
Lu et al. Underwater image enhancement method based on denoising diffusion probabilistic model
Zhuang et al. Ucsnet: Priors guided adaptive compressive sensing framework for underwater images
CN112200752B (zh) 一种基于er网络多帧图像去模糊***及其方法
CN114511466B (zh) 一种基于生成对抗网络先验的盲人脸图像复原方法
Zou et al. WGAN-based image denoising algorithm
CN117036901A (zh) 一种基于视觉自注意力模型的小样本微调方法
CN114331821B (zh) 一种图像转换方法及***
Liu et al. An end-to-end multi-scale residual reconstruction network for image compressive sensing
CN115908600A (zh) 基于先验正则化的大批量图像重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant