CN113112416A - 一种语义引导的人脸图像修复方法 - Google Patents
一种语义引导的人脸图像修复方法 Download PDFInfo
- Publication number
- CN113112416A CN113112416A CN202110308440.3A CN202110308440A CN113112416A CN 113112416 A CN113112416 A CN 113112416A CN 202110308440 A CN202110308440 A CN 202110308440A CN 113112416 A CN113112416 A CN 113112416A
- Authority
- CN
- China
- Prior art keywords
- image
- repairing
- face
- convolution
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims abstract description 8
- 230000007246 mechanism Effects 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000011176 pooling Methods 0.000 claims description 12
- 230000008439 repair process Effects 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000011521 glass Substances 0.000 claims description 4
- 230000016776 visual perception Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000001737 promoting effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 16
- 230000003042 antagnostic effect Effects 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
- G06T5/94—Dynamic range modification of images or parts thereof based on local image properties, e.g. for local contrast enhancement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种语义引导的人脸图像修复方法,该方法使用来自CelebA人脸数据集,整理分割成训练集和测试集;并对人脸图像数据集进行预处理,根据人眼位置定位之后,调整图像到大小,并在中心区域添加掩码,读取对应图片的标签,用于之后的训练和测试;将经过预处理的图像以及选取的人脸属性标签输入到修复模型之中,经过对抗的训练,提升修复的质量,用测试集及指标来进行评价修复能力。本发明方法可在保证修复效果的同时,控制图像其余属性不变,通过更改属性标签生成带有特定属性的修复结果;通过一个多维度的空洞卷积以及引入注意力机制,增加图像的感受野以增强图像的修复能力,且通过多种损失函数,使修复结果更加真实自然。
Description
技术领域
本发明属于图像修补和深度学习技术领域,涉及一种语义引导的人脸图像修复方法,尤其是一种基于对抗生成网络的语义引导的人脸图像修复方法。
背景技术
图像修复技术一直是图像处理中的一个重要问题,属于模式识别,机器学习,计算机视觉中的一个交叉问题。图像往往含有大量的信息,而图像的缺失就意味着信息的缺失。图像修复指的是对于缺失的图像进行修复。在图像修复领域,人脸图像由于具有大量的语义信息以及纹理信息,在图像修复的领域里面更是一个难点。目前为止,研究人员提出了大量的图像修复的方法,已经广泛的应用于影视,刑侦,老照片修复等领域。
在早期的图像修复算法中,可以通过直接对缺失区域内的边缘像素进行拉伸,更加精细的方法则需要计算小区块(patch)的相似度,扩散式的逐步填充。但是这种方法无法获得图像的高层结构和语义信息,也无法产生新的图像内容。随着深度学习的发展,基于CNN的深度网络被证明其有能力在高层上捕获图像的抽象信息。2014年Ian Goodfellow等人提出了GAN(Generative Adversarial Network生成对抗网络)用于生成图像。MehdiMirza等人提出的CGAN,在训练集中加入监督信息,能够带有指定条件的图像。2017年Augustus Odena等人提出了ACGAN(Conditional Image Synthesis with AuxiliaryClassifier GANs)通过引入分类器,使得CGAN的图像生成能力得到提升。2018年KamyarNazeri等人提出了EdgeConnect,这是一种两阶段修复模型,通过第一阶段的边缘图的修复,第二阶段通过边缘图的指导生成缺失的区域。EdgeConnect取得了非常逼真的效果,在大规模的数据集上依旧取得了很好的效果,但是由于二阶段的修复过程依赖第一阶段的边缘图且需要训练的时间很长。
基于深度学习的图像修复算法目前在修复普通的图像,例如建筑、天空等有不错的效果,但是对于人脸这种带有大量的语义信息的图像还是难以取得令人满意的效果。
发明内容
本发明的目的在于针对现有技术的不足,提出了一种语义引导的人脸图像修复方法,该方法可以提高人脸图像的修复质量,同时可以通过语义引导来控制生成人脸图人脸属性,可利用数据自带的人脸属性生成指定的修复图像。
一种语义引导的人脸图像修复方法,采用生成对抗网络构建修复模型,包括生成器、判别器和分类器,使用CelebA人脸数据集数据分割为训练集和测试集,对其进行如下预处理:根据人眼位置定位之后,调整图像大小,并在中心区域添加掩码,读取人脸属性标签;通过预处理后的训练集和选取的人脸属性标签训练所述修复模型,将经过预处理的测试集输入到训练好的修复模型之中,对修复能力进行评价,且可根据标签,在保证其余属性不变的情况下,修复生成带有特定属性的图像。
所述的生成器输入的图像为带有缺失的图像,输出为修补后的图像,生成器采用编码-解码结构,在编码器阶段,采用多尺度融合空洞卷积模块以神经网络下采样的方式提取缺失图像的特征,所述判别器同时输出Real/Fake信息以及分类信息,所述分类器则完全输出分类信息。
在所述生成器中引入注意力机制加强前景区域和背景区域的关联。
在生成器中,输入信息经过三层卷积后输入通过八个多尺度融合的空洞卷积模块之后再经过三个卷积块生成修复后的图像;单个多尺度融合的空洞卷积模块具体为:
维度为(192,64,64)的输入特征首先经过一个卷积核为3×3、步长为1的卷积层后分别同时输入到三个空洞卷积块中,三个空洞卷积块的卷积核大小为3×3、扩张率分别为1,2,4,结果分别为dc1,dc2,dc3;dc1和dc2经过逐元素的相加后得到dc4,dc4和dc3进行逐元素的相加得到dc5,最后将dc1,dc4,dc5进行特征拼接得到dc6,送入注意力模块层,注意力模块层由通道注意力层以及空间注意力层组成;通道注意力层由一个空间的全局平均池化和最大池化得到两个(1,1,192)的通道特征,然后将它们分别送入一个两层的神经网络,将得到的两个特征相加后经过Sigmoid激活函数得到权重系数Mc后,和dc5相乘即可得到缩放后的新特征dc7,空间的注意力层由一个通道维度的平均池化和最大池化组成,将两个特征按照通道拼接在一起后经过一个7×7的卷积和Sigmoid激活之后得到权重MS,和dc7相乘后经过一个3×3的卷积层后输出;整个多尺度融合模块在计算过后的输入特征和输出特征保持一致。
损失函数由六部分组成:(1)对抗损失用于驱动生成网络G修复出质量更高的图像;(2)L1损失用于像素点之间的计算,促进图像修复生成;(3)感知损失通过预训练的VGG模型促进修复结果更佳;(4)风格损失通过预训练的VGG模型特征的协方差矩阵帮助图像修复;(5)总变分损失改善修复结果的棋盘伪影;(6)分类损失引导生成带有指定属性的图像。
所述的预处理具体为:
根据数据集中带有的5个面部标定点,对人脸的范围做裁切并且调整图像大小到256×256,使用大小为128×128的掩膜,区域位于图像的中心;对于每一张图片,在数据集中一共40个属性标记,选取眼镜以及男性这两个标签用于展示有效性,在训练模型阶段,同时读取每一张图像的标签信息和图像匹配用于训练。
从主观的视觉感受以及计算原图与修复图像之间的均方误差MSE、峰值信噪比PSNR以及结构相似性SSIM指标来进行评价修复能力。
本发明的优点在于:
采用本发明方法可以在保证修复效果的同时,还可以通过语义引导修复不同属性的人脸图像;通过多尺度融合的空洞卷积模块提取多尺度信息,增加模型感受野且不增加计算量;此外,本发明方法通过多种损失函数,可以使修复结果更加真实自然。
附图说明
图1是本发明方法中修复模型的总体框架实例示意图;
图2是图1所述模型中多尺度融合的空洞卷积模块的结构示意图;
图3本发明实例的步骤示意图;
图4本发明实例的修复效果展示(有/无标签);
图5本发明修复效果与其他现有方法对比结果;
图6本发明修补结果属性软差值;
具体实施方式
下面结合附图和具体实例对本发明的语义引导的人脸图像修复方法做进一步的说明。本实例的人脸图像修复方法包括以下步骤:
1)人脸图像采集,本实例中使用到的数据来自CelebA人脸数据集,整理分割成训练集和测试集;
2)人脸图像数据集预处理,对CelebA数据集的图像根据人眼位置定位之后,调整图像到256×256大小,并在中心区域添加掩码,读取对应图片的标签,用于之后的训练和测试;
3)训练修复模型,将经过预处理的图像以及选取的人脸属性标签输入到网络之中,经过对抗的训练,提升修复的质量;
4)测试训练好的修复模型,将经过预处理的图像输入到训练好的修复模型之中。从主观的视觉感受以及计算原图与修复图像之间的均方误差MSE、峰值信噪比PSNR以及结构相似性SSIM指标来进行评价修复能力。并且根据标签,在保证其余属性不变的情况下,修复生成带有特定属性的图像。
本发明中所使用的数据集来自CelebA人脸数据集,本数据集一共含有10177个名人的202599张图片,其大小为178×218。接下来需要对人脸数据进行划分,我们按照8:2的比例将数据集分为训练集和测试集,其中训练集一共162079张图片,测试集一共40520张图像。测试集用于检测训练好的网络模型以验证其模型的修复效果。
由于数据集中人脸图片的大小为178×218不适用于深度学习训练且包含有大量的背景信息。根据数据集中带有的5个面部标定点,对人脸的范围做裁切并且调整图像大小到256×256,在本发明中,使用的掩膜大小为128×128,区域位于图像的中心。表达式如下:
y=(1-M)(·)x
其中,y为生成的缺失图像,M为掩膜,掩膜大小为128×128和位于图像的中间,仅有0和1两个数值,在本发明中1代表缺失,0表示完好。(·)为点积,x代表原图像。
对于每一张图片,在数据集中一共40个属性标记,例如黑发,金发,眼镜,男性等。在本发明中,为了表明本发明对于属性的控制效果,在本发明选取眼镜以及男性这两个标签用于展示有效性。在训练模型阶段,同时读取每一张的图像的标签信息和图像匹配用于训练。
训练修复模型,将经过预处理的图像以及选取的人脸属性标签输入到网络之中,经过对抗的训练,提升修复的质量。
1)生成器结构:
本实例的网络结构是一个Encoder-Decoder(编码-解码)结构,在编码器阶段,模型利用神经网络下采样的方式不断提取出缺失图像的特征,在其中通过利用多尺度融合的空洞卷积模块,使得在不增加计算量的同时,增加网络的感受野,以提升网络的修复能力。同时为了增强图像的前景区域和背景区域的长程关联,引入了一种注意力机制加强了前景区域和背景区域的关联,这同样可以提升网络的整理修复效果。本实例中模型的总体框架如图1所示,生成器输入的图像为带有缺失的图像,输出为修补后的图像,网络输入为256×256的图像以及一个4维度标签信息,经过三层卷积后输出向量维度为(64,64,64),输入通过8个多尺度融合模块再经过三个卷积块生成修复后的图像。通过输入标签信息可以有效的再保证修复效果的同时,增加面部属性控制的效果。在本发明中,参考了PatchGAN的思想,对于输入的判别图像,分成30×30的块进行判别,对判别的结果取平均。同时在判别器的中使用谱归一化来稳定判别器的训练。在最后的分支中引出判别分支用于预测标签的分类,判别器同时输出Real/Fake信息以及分类信息;同时加入分类器网络,不同于判别器部分的标签分类网络,由于判别器部分仅仅在网络的最后一层引出分类层,会出现分类的能力不足的现象,增加一个并行的分类器来对于图像的分类惩罚,提升条件引导的效果,分类器则完全输出分类信息。
分类器的结构可以如下所示;
表1-1分类器网络结构
每个多尺度融合的空洞卷积的模块如图2所示:
空洞卷积模块由5个卷积块构成,输入特征首先经过一个卷积核为3×3,步长为1的卷积层后分别同时输入到三个空洞卷积块中,三个空洞卷积块的卷积核大小为3×3,扩张率分别为1,2,4。结果分别为dc1,dc2,dc3,dc1和dc2经过逐元素的相加后得到dc4,dc4和dc3进行逐元素的相加得到dc5,最后将dc1,dc4,dc5进行特征拼接送入注意力模块层。每一个卷积块都由卷积层,正则层,激活层组成。特征拼接后的向量为dc6,输入的特征为(192,64,64);注意力模块层由通道注意力模块以及空间注意力模块组成。通道注意力层由一个空间的全局平均池化和最大池化得到两个(1,1,192)的通道特征,然后将它们分别送入一个两层的神经网络,将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc后,拿权重系数和原来的特征dc5相乘即可得到缩放后的新特征dc7。空间的注意力层由一个通道维度的平均池化和最大池化组成,将两个特征按照通道拼接在一起后经过一个7×7的卷积和Sigmoid激活之后得到权重MS,和dc7进行相乘后经过一个3×3的卷积层后输出。整个多尺度融合模块在计算过后的输入特征和输出特征保持一致。
在本发明的损失函数由六部分组成:(1)对抗损失用于驱动生成网络G修复出质量更高的图像;(2)L1损失像素点之间的计算,促进图像修复生成;(3)感知损失通过预训练的VGG模型促进修复结果更佳;(4)风格损失通过预训练的VGG模型特征的协方差矩阵帮助图像修复;(5)总变分损失改善修复结果的棋盘伪影;(6)分类损失引导生成带有指定属性的图像。
1)对抗损失
在本发明采用的PatchGAN的方式构建判别器,对于输出的30x30的矩阵进行判别,每点的代表输入图像一块区域。对抗损失如下式(1-1)所示,其中Igt代表真实图像,Icomp代表生成图像将缺失区域裁剪下和原图中的未缺失区域进行像素上的叠加而成,即
Icomp=Igt⊙(1-M)+Ipred⊙M。
2)L1损失
L1损失通过对生成图像和原始图像进行逐像素的对比,如式(1-2)所示。
3)感知损失
感知损失的出发点是考虑到不同的卷积层能够提取出的特征向量是不同的,利用这一特性可以帮助图像的生成任务。如式(1-3)所示,其中φi代表预训练的VGG-19第i层的特征。在本章实验中,分别采用relu1_1,relu2_1,relu13_1,relu4_1,relu5_1作为提取特征的层数。
提取出的特征同时也用于计算风格损失。
4)风格损失
风格损失(Style Loss)如式(1-4)所示,代表感知损失中从VGG-19网络中提取的特征向量的Gram矩阵。其中通过构建了一个Gram矩阵,通过i通道的特征图和j通道的特征图进行内积,用于衡量两个特征图之间的差异度,可以提升图像修复的效果。
5)总变分损失
在使用了感知损失和风格损失时,生成的图像可能会出现棋盘状的伪影,这是由于在VGG-19的网络中,大量的使用了空洞卷积。而同样扩张率的空洞卷积会造成对输入特征的固定位置进行卷积运算,即网格效应。总变分损失(Total Variation loss)可以降低相邻像素值的差异以达到减少棋盘伪影的影响。总变分损失的定义如式(1-5)所示,其中NI代表I中像素的个数,而代表一阶导数,包含水平和垂直。
6)分类损失
本章分类损失由判别器和分类器一同组成,定义如式(1-6)所示。分类网络输出和判别网络的输出分别与真实标签计算交叉熵得到分类损失。
总体损失:
网络的总体损失的定义如式(1-7)所示。其中λL1=1,λadv=0.1,λp=0.1,λs=250,λt=0.1。
网络模型的判别器部分中的权重初始化采用Spectral Normalization(谱归一化)来权重初始化。该网络通过空洞卷积模块增加网络的感受野,以捕获到更多的特征,同时通过注意力的机制让网络关心真正需要修复的区域,对人脸的特征进行学习增加修复的能力,模型中采用反向传递算法(BP)对网络中的权重进行更新,生成器和判别器依次更新权重,不断的迭代完成训练。
测试训练好的修复模型,将经过预处理的图像输入到训练好的修复模型之中。从主观的视觉感受以及计算原图与修复图像之间的均方误差MSE、峰值信噪比PSNR以及结构相似性SSIM指标来进行评价修复能力。并且根据标签,在保证其余属性不变的情况下,修复生成带有特定属性的图像。
方法 | MAE | SSIM | PSRN |
Context[1] | 0.030703 | 0.877586 | 23.879710 |
Pen[2] | 0.024294 | 0.901866 | 25.339467 |
本方法 | 0.022851 | 0.919418 | 26.263925 |
上表为本发明方法与其他现有技术对比,可以看出三种客观评价指标都说明了使用了注意力机制以及空洞卷积模块的有效性,修复能力得到了提升。对比实验使用10000张未经训练的测试集图像,计算相应的指标之后取平均值。
[1]Pathak D,Krahenbuhl P,Donahue J,et al.Context encoders:Featurelearning by inpainting[C]//Proceedings of the IEEE conference on computervision and pattern recognition.2016:2536-2544.
[2]Zeng Y,Fu J,Chao H,et al.Learning pyramid-context encoder networkfor high-quality image inpainting[C]//Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition.2019:1486-1494.
通过以上步骤,图3-6给出了本发明在实际使用中的过程以及产生的效果。图3为本发明的本发明的步骤展示;图4为人脸图像的修补结果,其中第一列为输入的图像,图像中间为缺失部分,第二列为原始图像,第三、四、五列均为采用本发明方法获得的修复结果,其中第三列为无标签的结果,第四以及第五列分别为带有男性标签的结果以及带有眼睛标签的结果;图5为本发明的对比图,第一列为缺失图像,第二列为原始图像,第三列为文章[2]方法的结果,第四列为本发明方法的结果;图6为本发明属性软差值结果图,其中第三列到第九列为眼镜标签从0-1的软插值结果。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (7)
1.一种语义引导的人脸图像修复方法,其特征在于,采用生成对抗网络构建修复模型,包括生成器、判别器和分类器,使用CelebA人脸数据集数据分割为训练集和测试集,对其进行如下预处理:根据人眼位置定位之后,调整图像大小,并在中心区域添加掩码,读取人脸属性标签;通过预处理后的训练集和选取的人脸属性标签训练所述修复模型,将经过预处理的测试集输入到训练好的修复模型之中,对修复能力进行评价,且可根据标签,在保证其余属性不变的情况下,修复生成带有特定属性的图像。
2.根据权利要求1所述的语义引导的人脸图像修复方法,其特征在于,所述的生成器输入的图像为带有缺失的图像,输出为修补后的图像,生成器采用编码-解码结构,在编码器阶段,采用多尺度融合空洞卷积模块以神经网络下采样的方式提取缺失图像的特征,所述判别器同时输出Real/Fake信息以及分类信息,所述分类器则完全输出分类信息。
3.根据权利要求1所述的语义引导的人脸图像修复方法,其特征在于,在所述生成器中引入注意力机制加强前景区域和背景区域的关联。
4.根据权利要求1所述的语义引导的人脸图像修复方法,其特征在于,在生成器中,输入信息经过三层卷积后输入通过八个多尺度融合的空洞卷积模块之后再经过三个卷积块生成修复后的图像;单个多尺度融合的空洞卷积模块具体为:
维度为(192,64,64)的输入特征首先经过一个卷积核为3×3、步长为1的卷积层后分别同时输入到三个空洞卷积块中,三个空洞卷积块的卷积核大小为3×3、扩张率分别为1,2,4,结果分别为dc1,dc2,dc3;dc1和dc2经过逐元素的相加后得到dc4,dc4和dc3进行逐元素的相加得到dc5,最后将dc1,dc4,dc5进行特征拼接得到dc6,送入注意力模块层,注意力模块层由通道注意力层以及空间注意力层组成;通道注意力层由一个空间的全局平均池化和最大池化得到两个(1,1,192)的通道特征,然后将它们分别送入一个两层的神经网络,将得到的两个特征相加后经过Sigmoid激活函数得到权重系数Mc后,和dc5相乘即可得到缩放后的新特征dc7,空间的注意力层由一个通道维度的平均池化和最大池化组成,将两个特征按照通道拼接在一起后经过一个7×7的卷积和Sigmoid激活之后得到权重MS,和dc7相乘后经过一个3×3的卷积层后输出;整个多尺度融合模块在计算过后的输入特征和输出特征保持一致。
6.根据权利要求1所述的语义引导的人脸图像修复方法,其特征在于,所述的预处理具体为:
根据数据集中带有的5个面部标定点,对人脸的范围做裁切并且调整图像大小到256×256使用大小为128×128的掩膜,区域位于图像的中心;对于每一张图片,在数据集中一共40个属性标记,选取眼镜以及男性这两个标签用于展示有效性,在训练模型阶段,同时读取每一张图像的标签信息和图像匹配用于训练。
7.根据权利要求1所述的语义引导的人脸图像修复方法,其特征在于,评价修复能力从主观的视觉感受以及计算原图与修复图像之间的均方误差MSE、峰值信噪比PSNR以及结构相似性SSIM指标来进行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110308440.3A CN113112416B (zh) | 2021-03-23 | 2021-03-23 | 一种语义引导的人脸图像修复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110308440.3A CN113112416B (zh) | 2021-03-23 | 2021-03-23 | 一种语义引导的人脸图像修复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113112416A true CN113112416A (zh) | 2021-07-13 |
CN113112416B CN113112416B (zh) | 2024-05-03 |
Family
ID=76712094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110308440.3A Active CN113112416B (zh) | 2021-03-23 | 2021-03-23 | 一种语义引导的人脸图像修复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113112416B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001859A (zh) * | 2020-08-10 | 2020-11-27 | 深思考人工智能科技(上海)有限公司 | 一种人脸图像的修复方法及*** |
CN113706663A (zh) * | 2021-08-27 | 2021-11-26 | 脸萌有限公司 | 图像生成方法、装置、设备及存储介质 |
CN113852858A (zh) * | 2021-08-19 | 2021-12-28 | 阿里巴巴(中国)有限公司 | 视频处理方法及电子设备 |
CN117313818A (zh) * | 2023-09-28 | 2023-12-29 | 四川大学 | 对轻量级卷积神经网络训练的方法及终端设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919830A (zh) * | 2019-01-23 | 2019-06-21 | 复旦大学 | 一种基于美学评价的带参考人眼图像修复方法 |
CN110689499A (zh) * | 2019-09-27 | 2020-01-14 | 北京工业大学 | 一种基于密集扩张卷积自编码对抗网络的人脸图像修复方法 |
CN111612718A (zh) * | 2020-05-21 | 2020-09-01 | 中山大学 | 一种引入注意力机制的人脸图像修复方法 |
-
2021
- 2021-03-23 CN CN202110308440.3A patent/CN113112416B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919830A (zh) * | 2019-01-23 | 2019-06-21 | 复旦大学 | 一种基于美学评价的带参考人眼图像修复方法 |
CN110689499A (zh) * | 2019-09-27 | 2020-01-14 | 北京工业大学 | 一种基于密集扩张卷积自编码对抗网络的人脸图像修复方法 |
CN111612718A (zh) * | 2020-05-21 | 2020-09-01 | 中山大学 | 一种引入注意力机制的人脸图像修复方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001859A (zh) * | 2020-08-10 | 2020-11-27 | 深思考人工智能科技(上海)有限公司 | 一种人脸图像的修复方法及*** |
CN112001859B (zh) * | 2020-08-10 | 2024-04-16 | 深思考人工智能科技(上海)有限公司 | 一种人脸图像的修复方法及*** |
CN113852858A (zh) * | 2021-08-19 | 2021-12-28 | 阿里巴巴(中国)有限公司 | 视频处理方法及电子设备 |
CN113706663A (zh) * | 2021-08-27 | 2021-11-26 | 脸萌有限公司 | 图像生成方法、装置、设备及存储介质 |
WO2023027628A1 (zh) * | 2021-08-27 | 2023-03-02 | 脸萌有限公司 | 图像生成方法、装置、设备及存储介质 |
CN113706663B (zh) * | 2021-08-27 | 2024-02-02 | 脸萌有限公司 | 图像生成方法、装置、设备及存储介质 |
CN117313818A (zh) * | 2023-09-28 | 2023-12-29 | 四川大学 | 对轻量级卷积神经网络训练的方法及终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113112416B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109615582B (zh) | 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法 | |
CN111784602B (zh) | 一种生成对抗网络用于图像修复的方法 | |
CN109919830B (zh) | 一种基于美学评价的带参考人眼图像修复方法 | |
CN113112416A (zh) | 一种语义引导的人脸图像修复方法 | |
CN111612008B (zh) | 基于卷积网络的图像分割方法 | |
CN100423020C (zh) | 一种基于结构主元分析的人脸识别方法 | |
CN110473142B (zh) | 基于深度学习的单幅图像超分辨率重建方法 | |
CN112837234B (zh) | 一种基于多列门控卷积网络的人脸图像修复方法 | |
CN112818862A (zh) | 基于多源线索与混合注意力的人脸篡改检测方法与*** | |
EP3913581A1 (en) | Identity preserving realistic talking face generation using audio speech of a user | |
CN113762138B (zh) | 伪造人脸图片的识别方法、装置、计算机设备及存储介质 | |
Jam et al. | R-mnet: A perceptual adversarial network for image inpainting | |
CN111931908B (zh) | 一种基于人脸轮廓的人脸图像自动生成方法 | |
CN113537027B (zh) | 基于面部划分的人脸深度伪造检测方法及*** | |
CN112950561A (zh) | 光纤端面缺陷检测方法、设备及存储介质 | |
CN113808031A (zh) | 一种基于LSK-FNet模型的图像修复方法 | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
Zheng et al. | T-net: Deep stacked scale-iteration network for image dehazing | |
CN113486944A (zh) | 人脸融合方法、装置、设备及存储介质 | |
CN115546461A (zh) | 一种基于掩膜去噪和特征选择的人脸属性编辑方法 | |
CN117079354A (zh) | 一种基于噪声不一致性的深度伪造检测分类和定位方法 | |
CN115359534A (zh) | 基于多特征融合和双流网络的微表情识别方法 | |
Modak et al. | A deep learning framework to reconstruct face under mask | |
Gao | A method for face image inpainting based on generative adversarial networks | |
CN114372926A (zh) | 一种基于图像修复与卷积神经网络的中医舌质老嫩识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |