CN113379606B - 一种基于预训练生成模型的人脸超分辨方法 - Google Patents
一种基于预训练生成模型的人脸超分辨方法 Download PDFInfo
- Publication number
- CN113379606B CN113379606B CN202110934749.3A CN202110934749A CN113379606B CN 113379606 B CN113379606 B CN 113379606B CN 202110934749 A CN202110934749 A CN 202110934749A CN 113379606 B CN113379606 B CN 113379606B
- Authority
- CN
- China
- Prior art keywords
- convolution
- resolution
- layer
- module
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims abstract description 14
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 6
- 238000000926 separation method Methods 0.000 claims abstract description 4
- 230000009466 transformation Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 4
- 230000004438 eyesight Effects 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000016776 visual perception Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明属于计算机视觉、图像处理领域,涉及一种基于预训练生成模型的人脸超分辨方法。
背景技术
图像分辨率的大小直接关系到图像的质量,更高的高分辨率意味着包含更多的细节信息,蕴含更大的应用潜能。然而在实际情况下很多图像面临着低分辨率的问题,影响着后续的高层次视觉处理。随着计算机视觉技术的不断发展,尤其是深度学习的发展,图像画质增强方法也越来越多,超分辨技术就是一项图像画质增强的有效手段,可以显著提升图像的分辨率。图像超分辨率技术通过算法手段将低分辨率的图像上采样到高分辨率的图像,在安防监控、医学检测、刑事侦查等多个领域都具有非常重要的应用价值。例如在安防监控场景中,由于摄像头和周围环境等因素,拍摄到的目标会存在模糊,导致无法识别目标,通过超分辨技术可以重构出较为清晰的画面,提高目标人脸的分辨率,从而对快速定位到目标人物提供帮助。因此,图像超分辨技术作为一种低层的图像处理方法,可以为后续的目标检测识别等高层的处理方法提供有效的支持。
目前有很多关于图像超分辨的网络,在处理各种各样的场景、物体方面都有了比较明显的提升,针对人脸超分辨方面的网络较少,很多方法都是通过构建相应的人脸数据,然后用已有的网络进行训练,虽然取得了一些进步,但是针对低分辨率的人脸,超分效果不是很好,生成对抗网络目前广泛应用于超分辨率任务中,其目的是丰富复原图像中的纹理细节。但是常见的生成对抗网络方法会限制逼近自然图像流形的能力,或者由于低维隐码和图像空间中的约束不足以指导恢复过程,因此这些方法经常产生伪像和不自然的纹理,人脸的保真度较低。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提供了一种基于预训练生成模型的人脸超分辨方法,通过引入大型预训练的人脸生成模型,用于提供丰富的人脸细节特征,通过将其嵌入到一个基于残差注意力的编解码模块中,可以基于编码模块提取的信息,引导预训练生成模型朝着输入人脸的特征进行增强,并通过解码器融合多种预训练生成模型和原始的输入特征,进一步提高人脸图像恢复的质量,具体技术方案如下:
一种基于预训练生成模型的人脸超分辨方法,包括以下步骤:
进一步的,所述特征提取模块由2个3×3×64×1卷积层和6个串联的残差通道
注意力单元组成,所述3×3×64×1卷积层,3×3表示卷积核尺寸,64表示卷积核个数,最后
一位1表示卷积核的运动步幅;所述残差通道注意力单元包括残差单元和通道注意力单元,
所述残差单元提取输入的低分辨率图像的特征,将该特征输入至通道注意力单元获取通道
校准系数向量β,将通道校准系数向量β与通道注意力单元的输入特征进行重新校准后作为
残差通道注意力单元的输出。
进一步的,所述通道注意力单元包括全局平均池化层、ReLU非线性变换层、两个卷积层和Sigmoid非线性变换层。
进一步的,所述步骤二,具体为:将特征信息输入编码器采用的3个卷积模块,,每个卷积模块包括一个步长1的卷积层、激活层和一个步长2的卷积层,前两个卷
积模块包括一个3×3×64×2的卷积层、LReLU激活层和一个3×3×64×1的卷积层,最后一
个卷积模块包括一个3×3×128×2的卷积层、LReLU激活层和三个(输入尺寸/8)×(输入尺
寸/8)×128×1的卷积层,最后输出一个3×128的隐式矩阵,将该隐式矩阵经过特征分解后
得到三个隐式向量,,与人脸标签数据通过级联方式,分别输入到预训练生成模
型中的残差模块,得到对应的生成特征,。
进一步的,所述步骤三,具体为:所述解码器包括解码模块、解码模块、解码模
块、解码模块,特征提取模块提取的特征信息输入到解码模块中,输出结果和输入到解码模块中,输出结果和输入到解码模块中,输出结果和输入到解
码模块中,最后得到目标分辨率的人脸图。
进一步的,所述的解码器中的前三个解码模块,,包含一个3×3×64×
1卷积层、一个LReLU非线性变换层、两个残差单元、一个2倍上采样的亚像素卷积层,所述残
差单元包括第一支路和第二支路,第一支路将输入依次通过一个3×3×64×1卷积,一个
LReLU非线性变换层和一个3×3×64×1卷积,第二支路将输入直接与第一支路的输出进行
相加操作,最后一个解码模块包含一个3×3×3×1的卷积层。
本发明通过基于残差结构和通道注意力卷积的编解码网络,并将预训练的生成模型嵌入到编解码结构中间,利用编码网络生成隐式向量,指导预训练的生成器生成丰富的人脸高频信息来提供纹理和细节生成的先验,从而将低分辨率的人脸进行高倍率的放大,通过预训练生成模型中的残差模块结构数量的设置和解码器上采样卷积数量的设置,最高获得64倍的超分结果,并且超分辨结果保持较好的保真性,使放大的图像在保真度和纹理真实度方面有更好的改进,多样化的损失函数和引入的LPIPS评价指标有助于增强视觉感知质量。
附图说明
图1是本发明一种基于预训练生成模型的高倍率人脸超分辨方法整体流程图;
图3是本发明的残差通道注意力单元结构图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
本发明实施例以8倍图像超分辨率为例进行说明,如图1所示,一种基于预训练生成模型的人脸超分辨方法,包括以下步骤:
如图2和图3所示,所述的特征提取模块由2个3×3×64×1卷积层和6个串联的
残差通道注意力单元组成,所涉及的卷积层Conv为3×3×64×1,3×3表示卷积核尺寸,64
表示卷积核个数,最后一位表示卷积核的运动步幅,每个残差通道注意力单元均包括残差
单元和通道注意力单元,通过残差单元提取输入图像的特征,再将特征输入至通道注意力
单元中获取通道校准系数向量β,将通道校准系数向量β与通道注意力单元的输入特征进行
重新校准后作为残差通道注意力单元的输出,所述通道注意力单元包括全局平均池化层、
ReLU非线性变换层、两个卷积层和Sigmoid非线性变换层。
步骤二、将步骤一中提取的特征输入到一个编码器结构中,该编码器结构采用3个
卷积模块,,每个卷积模块包括一个步长1的卷积层、激活层和一个步长2的卷积
层,通过每个卷积模块得到特征为,最后得到一个通道数为输入尺寸8倍的隐式矩阵Z,
隐式矩阵Z通过分离模块获得隐式向量,与人脸标签数据通过级联方式,共同输入到预训
练生成模型中,该模型使用预训练的高分辨率图像生成模型BigGAN,为高分辨率图像的生
成提供丰富的纹理和细节先验知识,预训练生成模型需要的隐式向量为生成模型提供高
层次信息,人脸标签数据引导预训练的生成模型生成更多的高分辨率人脸纹理和细节特
征;
所述的编码器结构采用的3个卷积模块,具体的,前两个卷积模块包括一个3×3×
64×2的卷积层、LReLU激活层和一个3×3×64×1的卷积层,最后一个卷积模块包括一个3
×3×128×2的卷积层、LReLU激活层和三个(输入尺寸/8)×(输入尺寸/8)×128×1的卷积
层,最后输出一个3×128的隐式矩阵,将该隐式矩阵经过特征分解后得到三个隐式向量,
分别输入到预训练生成模型中的残差模块,另外,由于该生成模块采用的是预训练的
BigGAN模型,为了使该模型朝着高分辨率的人脸方向发展,将人脸标签与隐式向量进行级
联,共同输入到残差模块中;
所述的预训练生成模型中结构为BigGAN模型的结构,与BigGAN不同的是,本发明
主要利用BigGAN的高分辨率细节生成能力,在每一个残差模块中包含一个上采样卷积,都
输出相应的生成特征,并将其输入到最后的解码器中,即解码模块。
对于所述的解码器,特征提取模块提取的特征信息输入到解码模块中,
输出结果和输入到解码模块中,输出结果和输入到解码模块中,输出结果和输入到解码模块中,最后得到目标分辨率的人脸图,对于所述的解码器中的前三个解
码模块,,包含一个3×3×64×1卷积层、一个LReLU非线性变换层、两个残差单
元、一个2倍上采样的亚像素卷积层,所述残差单元包括两个分支,其中一路将输入依次通
过一个3×3×64×1卷积,一个LReLU非线性变换层和一个3×3×64×1卷积,另一支路将输
入不做任何变化,直接与第一个支路的输出进行相加操作,最后一个解码模块包含一个3
×3×3×1的卷积层。
其中,所述步骤一至步骤三所涉及的网络作为人脸图像超分辨网络,训练过程具体包括以下步骤:
损失函数由三部分构成:基于LPIPS的内容感知损失、像素损失即光滑损失,使
用反向传播策略更新网络,其中预训练生成模型和计算内容感知损失的网络参数固定,不
参与训练过程。使用PSNR:Peak Signal to Noise Ratio,峰值信噪比,以及SSIM:
structural similarity index,结构相似性,LPIPS作为图片质量的评价指标,选择高分辨
率的人脸数据集CelebA然后对图像进行裁剪操作,只截取人脸部分,避免头发帽子衣服对
人脸的影响,将截取的照片利用matlab中的imresize下采样到128×128作为高分辨率图
像,下采样到16×16作为对应的低分辨率图像,将高低分辨率的人脸图像对作为训练集、验
证集和测试集,整个训练过程分为两个阶段,第一个阶段采用像素损失进行训练,使用
RMSprop进行训练,学习率设置为0.0005;第二个阶段引入内容损失进行模型微调,学习率
设置为0.0001,使用反向传播策略更新网络,如已收敛,则保存训练好的网络模型,并用作
最终的推理。用该生成器网络用作最终的推理,另外选择100张低分辨率的图片作为测试
集。另外,用同样的方法在Helen数据集上进行训练和测试,测试结果如表1所示:
表1. 本发明与其他方法在放大8倍时不同数据集下的性能比较(PSNR/SSIM/LPIPS)
表1中最后一行为本发明的结果,在Helen和CelebA都进行了测试,对比常用的超分辨方法,包括双三次上采样、ESRGAN、RCAN、RDN和FSRNet,进行了同样的数据集训练和测试,本发明得到的100张测试图片的平均PSNR和SSIM都取得了较高的结果,另外LPIPS最低,保持着最好的视觉感知质量,整体图片清晰度也最好。
Claims (3)
1.一种基于预训练生成模型的人脸超分辨方法,其特征在于,包括以下步骤:
步骤二、将特征信息输入至编码器,得到通道数为输入尺寸8倍的隐式矩阵,隐式矩阵
通过分离模块特征分解后获得隐式向量,与人脸标签数据通过级联方式,分别输入至预
训练生成模型中,得到生成特征;具体的,将特征信息输入编码器采用的3个卷积模块,,每个卷积模块包括一个步长1的卷积层、激活层和一个步长2的卷积层,前两个卷
积模块包括一个3×3×64×2的卷积层、LReLU激活层和一个3×3×64×1的卷积层,最后一
个卷积模块包括一个3×3×128×2的卷积层、LReLU激活层和三个(输入尺寸/8)×(输入尺
寸/8)×128×1的卷积层,最后输出一个3×128的隐式矩阵,将该隐式矩阵经过特征分解后
得到三个隐式向量,,与人脸标签数据通过级联方式,分别输入到预训练的
BigGAN模型中的残差模块,该BigGAN模型每一个残差模块中包含一个上采样卷积,都输出
得到相应的生成特征,;
步骤三、将生成特征传递给解码器,并融合特征提取模块提取的特征信息,经解码操
作后输出目标高分辨率图像;具体的,所述解码器包括解码模块、解码模块、解码模块、解码模块,特征提取模块提取的特征信息输入到解码模块中,输出结果和
输入到解码模块中,输出结果和输入到解码模块中,输出结果和输入到解码
模块中,最后得到目标分辨率的人脸图;其中,所述的解码器中的前三个解码模块,,包含一个3×3×64×1卷积层、一个LReLU非线性变换层、两个残差单元、一个2倍
上采样的亚像素卷积层,所述残差单元包括第一支路和第二支路,第一支路将输入依次通
过一个3×3×64×1卷积,一个LReLU非线性变换层和一个3×3×64×1卷积,第二支路将输
入直接与第一支路的输出进行相加操作,最后一个解码模块包含一个3×3×3×1的卷积
层。
3.如权利要求2所述的一种基于预训练生成模型的人脸超分辨方法,其特征在于,所述通道注意力单元包括全局平均池化层、ReLU非线性变换层、两个卷积层和Sigmoid非线性变换层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110934749.3A CN113379606B (zh) | 2021-08-16 | 2021-08-16 | 一种基于预训练生成模型的人脸超分辨方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110934749.3A CN113379606B (zh) | 2021-08-16 | 2021-08-16 | 一种基于预训练生成模型的人脸超分辨方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113379606A CN113379606A (zh) | 2021-09-10 |
CN113379606B true CN113379606B (zh) | 2021-12-07 |
Family
ID=77577259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110934749.3A Active CN113379606B (zh) | 2021-08-16 | 2021-08-16 | 一种基于预训练生成模型的人脸超分辨方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113379606B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114610861B (zh) * | 2022-05-11 | 2022-08-26 | 之江实验室 | 基于变分自编码器的融入知识和感情的端到端对话方法 |
CN115311720B (zh) * | 2022-08-11 | 2023-06-06 | 山东省人工智能研究院 | 一种基于Transformer的deepfake生成方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255831A (zh) * | 2018-09-21 | 2019-01-22 | 南京大学 | 基于多任务学习的单视图人脸三维重建及纹理生成的方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107958246A (zh) * | 2018-01-17 | 2018-04-24 | 深圳市唯特视科技有限公司 | 一种基于新型端到端人脸超分辨率网络的图像对齐方法 |
US11188799B2 (en) * | 2018-11-12 | 2021-11-30 | Sony Corporation | Semantic segmentation with soft cross-entropy loss |
CN110148085B (zh) * | 2019-04-22 | 2023-06-23 | 智慧眼科技股份有限公司 | 人脸图像超分辨率重建方法及计算机可读取的存储介质 |
US11398013B2 (en) * | 2019-10-18 | 2022-07-26 | Retrace Labs | Generative adversarial network for dental image super-resolution, image sharpening, and denoising |
CN110288537A (zh) * | 2019-05-20 | 2019-09-27 | 湖南大学 | 基于自注意力的深度生成式对抗网络的人脸图像补全方法 |
CN110378979B (zh) * | 2019-07-04 | 2022-12-23 | 公安部第三研究所 | 基于生成对抗网络实现自定义高分辨率人脸图片自动生成的方法 |
CN110889332A (zh) * | 2019-10-30 | 2020-03-17 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 一种基于面试中微表情的说谎检测方法 |
CN111080527B (zh) * | 2019-12-20 | 2023-12-05 | 北京金山云网络技术有限公司 | 一种图像超分辨率的方法、装置、电子设备及存储介质 |
CN112488923A (zh) * | 2020-12-10 | 2021-03-12 | Oppo广东移动通信有限公司 | 图像超分辨率重建方法、装置、存储介质及电子设备 |
CN112507997B (zh) * | 2021-02-08 | 2021-05-11 | 之江实验室 | 一种基于多尺度卷积和感受野特征融合的人脸超分辨*** |
-
2021
- 2021-08-16 CN CN202110934749.3A patent/CN113379606B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255831A (zh) * | 2018-09-21 | 2019-01-22 | 南京大学 | 基于多任务学习的单视图人脸三维重建及纹理生成的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113379606A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022267641A1 (zh) | 一种基于循环生成对抗网络的图像去雾方法及*** | |
CN112507997B (zh) | 一种基于多尺度卷积和感受野特征融合的人脸超分辨*** | |
CN113284051B (zh) | 一种基于频率分解多注意力机制的人脸超分辨方法 | |
Zhao et al. | Invertible image decolorization | |
CN109636721B (zh) | 基于对抗学习和注意力机制的视频超分辨率方法 | |
CN113379606B (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
Luo et al. | Lattice network for lightweight image restoration | |
CN112102163A (zh) | 基于多尺度运动补偿框架和递归学习的连续多帧图像超分辨率重建方法 | |
CN114596233A (zh) | 基于注意引导和多尺度特征融合的低照度图像增强方法 | |
CN110047038B (zh) | 一种基于层级递进网络的单图像超分辨重建方法 | |
CN115713462A (zh) | 超分辨模型训练方法、图像识别方法、装置及设备 | |
CN116091315A (zh) | 一种基于渐进训练和人脸语义分割的人脸超分辨率重建方法 | |
CN116433516A (zh) | 一种基于注意力机制的低照度图像去噪增强方法 | |
CN116797541A (zh) | 一种基于Transformer的肺部CT图像超分辨率重建方法 | |
CN111861877A (zh) | 视频超分变率的方法和装置 | |
CN113205005B (zh) | 一种面向低光照低分辨率的人脸图像幻构方法 | |
CN113674154B (zh) | 一种基于生成对抗网络的单幅图像超分辨率重建方法及*** | |
CN115018733A (zh) | 一种基于生成对抗网络的高动态范围成像及鬼影去除方法 | |
Jia et al. | Learning rich information for quad bayer remosaicing and denoising | |
CN115311149A (zh) | 图像去噪方法、模型、计算机可读存储介质及终端设备 | |
CN112435200A (zh) | 一种应用于目标检测的红外图像数据增强方法 | |
Li et al. | Super-resolution of fisheye rectified image based on deep multi-path cascaded network | |
CN117635478B (zh) | 一种基于空间通道注意力的低光照图像增强方法 | |
CN111951177B (zh) | 一种基于图像超分辨损失函数的红外图像细节增强方法 | |
Tang et al. | Learning enriched features for video denoising with convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |