CN117315735A - 基于先验信息与注意力机制的人脸超分辨率重建方法 - Google Patents

基于先验信息与注意力机制的人脸超分辨率重建方法 Download PDF

Info

Publication number
CN117315735A
CN117315735A CN202211528427.XA CN202211528427A CN117315735A CN 117315735 A CN117315735 A CN 117315735A CN 202211528427 A CN202211528427 A CN 202211528427A CN 117315735 A CN117315735 A CN 117315735A
Authority
CN
China
Prior art keywords
resolution
image
network
face
super
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211528427.XA
Other languages
English (en)
Inventor
端木春江
吴成红
叶靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Normal University CJNU
Original Assignee
Zhejiang Normal University CJNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Normal University CJNU filed Critical Zhejiang Normal University CJNU
Priority to CN202211528427.XA priority Critical patent/CN117315735A/zh
Publication of CN117315735A publication Critical patent/CN117315735A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于先验信息和注意力机制的人脸超分辨率重建方法,模型包括:浅层特征提取网络、深层特征提取网络、先验估计网络和精细重建网络。方法包括:首先,输入一张低分辨率图像,使用卷积提取图像浅层特征,后面加入残差块组和卷积操作得到浅层特征,得到的浅层特征一方面送入深层特征提取网络,另一方面送入先验估计网络,最后将两个分支的结果送入到精细重建网络,输出最后的超分辨率重建图像。本发明将人脸边缘信息和人脸局部解析图作为先验信息引入人脸超分辨率重建网络,在网络中引入了高效通道注意力机制,网络可以重建出比较清晰的人脸图像,具有更多的面部特征,模型的复杂性更低,主观评价和客观评价指标均得到了提升。

Description

基于先验信息与注意力机制的人脸超分辨率重建方法
技术领域
本发明属于图像处理及人脸超分辨重建技术领域,具体涉及一种基于面部先验信息和注意力机制的人脸图像的超分辨率放大方法。
背景技术
人脸超分辨率重建技术是针对人脸这个特殊结构的超分辨率技术,旨在将低分辨率人脸通过某种技术转换为高分辨率人脸。但是人脸结构比较特殊,不像平常的图像,它具有高强度的结构相似性和身份信息的细节差异性,它的重建难度更大,要求更高,重建过程中,我们要保证几何特征的一致性,还要注意纹理信息的准确恢复。因此,人脸超分辨率重建具有极大的挑战。人脸超分辨这一概念最早由Baker和Kanada在2000年提出来的,它是图像超分辨领域中的一个分支,专门针对人脸这一特殊场景进行超分辨。近年来,深度学习技术在图像处理方面应用广泛,因此人脸超分辨领域也开始结合深度学习技术,从此人脸超分辨领域开始进入一个新的发展阶段。
基于深度学习的人脸超分辨率技术按照网络结构的不同可以分成:基于插值的人脸超分辨率重建、基于重构的人脸超分辨率重建、基于卷积神经网络的人脸超分辨方法和基于对抗生成网络的人脸超分辨方法。Dong等人提出了SRCNN模型,第一次将深度学习应用到图像超分辨率。SRCNN首先使用双三次插值将低分辨率图像放大到目标大小,然后通过三层卷积神经网络提取图像特征,建立非线性映射关系,最后生成高分辨率图像,极大提高了重构效果;Huang D和Liu H提出了一种基于SRCNN网络的优化算法SRCNN-IBP算法,将SRCNN网络和迭代反投影算法(IBP)结合起来,SRCNN-IBP算法可以看成在SRCNN算法的基础上引入了高分辨率图像的先验信息,所以在重建图像的质量上要优于SRCNN算法,同时说明了先验信息对于人脸超分辨率重建是比较重要的;Leding等将生成对抗网络(GAN)用在了解决超分辨率问题上,提出了一种基于图像超分辨率的生成对抗网络(SRGAN),使用一个经过训练的鉴别器网络来区分SR图像和原始真实图像;YuChen等人提出了加入先验信息的人脸超分辨率重建方法FSRNet,该方法提取人脸几何信息,结果表明利用人脸关键点和人脸解析图可以提升人脸恢复效果,但是生成的人脸图像纹理细节不充分,模型比较复杂,耗费大量时间。
因此,如何加强先验信息对人脸的恢复效果,充分利用高频特征和减少冗余信息,提供一种基于先验信息和注意力机制的人脸超分辨率重建方法是本技术领域技术人员亟需解决的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供了一种基于先验信息和注意力机制的人脸超分辨率重构方法,该方法引入人脸关键点先验信息以及注意力机制,设计了人脸超分辨率重构网络,以提高人脸超分辨率重构的准确度和人脸图像的重建质量。
为了实现上述目的,本发明采用如下技术方案:
基于先验信息和注意力机制的人脸超分辨方法,其特征在于,包括:浅层特征提取网络、深层特征提取网络、先验估计网络和精细重建网络;
浅层特征提取网络,用于提取人脸图像的浅层特征,使用卷积层对低分辨率人脸图像进行特征提取,这个卷积层只能从低分辨率图像中提取初步特征,生成比较粗糙的高分辨率人脸图像
深层特征提取网络,用于提取人脸的深层特征,将粗糙的高分辨率人脸图像输入到深层特征提取网络/>进行深层特征提取,/>包括3×3的卷积核,步长为2;经过批量归一化层和ReLU激活函数,再经过12个残差块;最后经过一个3×3卷积核和Tanh激活函数,得到提取出来的64通道的特征图/>。公式如下:
其中,表示粗糙的高分辨率人脸图像,/>表示采用的深层特征提取网络;
先验估计网络,首先采用7x7卷积核对进行卷积,然后经过归一化和ReLU等操作得到64x64的特征图,在得到的特征图后面连接3个残差块;构建2个堆叠沙漏网络,即HourGlass模块,进行先验信息提取,为了有效地跨尺度合并特征并保留不同尺度的空间信息,HourGlass模块在对称层之间采用跳跃连接机制;1x1卷积层对获得的特征进行后处理,将共享的特征连接到两个单独的1×1卷积层,以生成热图和解析图/>。公式如下:
其中,表示粗糙的高分辨率人脸图像,/>表示采用的先验估计网络;
精细重建网络,首先将特征图和解析图/>进行解析图和特征图的融合,得到融合后的特征图/>;然后将特征图/>输入到精细重建网络中,首先使用一个3×3卷积层处理减少特征图的通道数;一个4×4反卷积层对特征图进行上采样,连接3个残差块对特征解码,再使用一个3×3卷积层处理得到特征图;最后将特征图送入一个ECA注意力模块,得到最终的精细超分辨率人脸图像/>
优选的,粗糙重建网络包括:
经过3个残差块进行非线性映射生成特征图;再利用基于注意力机制的特征图进行重建,经过3×3卷积层;最后在卷积层后面添加一个ECA注意力模块,生成比较粗糙的高分辨率人脸图像。公式如下:
其中,表示双三次上采样后的低分辨率人脸图像,/>表示采用的浅层特征提取网络;
优选的,精细重建网络包括:
首先将特征图和解析图/>进行解析图和特征图的融合,得到融合后的特征图;然后将特征图/>输入到精细重建网络中,首先使用一个3×3卷积层处理减少特征图的通道数,一个4×4反卷积层对特征图进行上采样,连接3个残差块对特征解码,再使用一个3×3卷积层处理得到特征图;最后将特征图送入一个ECA注意力模块,得到最终的精细超分辨率人脸图像/>
优选的,损失函数包括:
⑴ 像素损失
在图像超分辨率重建中,通常使用均方误差(mean square error,MSE)损失可以获得较高的评价指标,例如PSNR和SSIM,但是通常会丢失高频纹理信息,导致图像过度平滑。为了避免以上问题,在此使用L1损失作为像素损失函数,有
⑵ 人脸先验损失
为了约束人脸先验信息的估计过程,充分利用人脸先验信息,在此使用人脸先验损失对先验估计网络进行优化,有
⑶ 总损失
模型总损失函数对以上部分进行加权组合,得到最终用于模型训练的总损失函数,即
其中,损失函数采用均方误差损失函数,表示训练集图像总数量,/>是第i张高分辨率图像,/>是对应的第i张粗糙的高分辨率恢复图像,/>是对应的第i张经过处理得到的精细高分辨率恢复图像;/>表示第i张对应的真实的人脸解析图,/>表示第i张图像经过先验估计网络得到的真实面部解析图。
基于先验信息和注意力机制的人脸超分辨率方法,包括以下步骤:
S1.下载原始图像数据集,包括原始人脸图像以及原始人脸解析图,并进行数据处理,将数据处理后的原始图像输入到下采样模型中,处理得到低分辨率图像,再将低分辨率图像进行双三次上采样,得到与高分辨图像一样大小的图像作为低分辨率数据集,最后将数据集划分为训练集和测试集;
S2.将S1获得的图像输入到浅层特征提取模块中提取人脸图像的浅层特征,使用卷积层对低分辨率人脸图像进行特征提取,这个卷积层只能提取人脸图像的轮廓特征,得到一个粗糙的高分辨率图像
S3.将S2中得到的粗糙的高分辨率图像输入到深层特征提取网络中进行特征提取得到特征图/>
S4.将S2中获得的粗糙的高分辨率图像输入到先验估计网络中,提取先验信息得到解析图/>,其中先验估计网络由ResNet和堆叠沙漏网络组成;
S5.将S3得到的特征图和S4得到的解析图/>进行解析图和特征图的融合,得到融合后的特征图/>
S6.将S5中得到的特征图输入到精细重建网络中进行超分重建,得到最终的精细重建人脸图像/>
S7.将S2获得的训练集图像、原始高分辨率图像/>、最终结果/>输入到逐像素损失函数中,经过逐像素损失函数处理生成精细的高分辨率图像/>,计算得到损失函数/>;将S4得到的解析图/>和原始图像数据集中的解析图/>输入到逐像素损失函数中,计算得到损失函数/>;将上面的损失函数加起来得到总损失函数/>,不断迭代使损失函数最小化,经过训练,最后生成人脸超分辨网络模型;
S8.设定人脸超分辨网络模型的超参数,将S1经过预处理好的测试集输入到人脸超分辨率网络模型中,经过残差网络处理和损失函数最小化迭代,最后产生细节纹理清楚、效果更好的高分辨率人脸图像。
经由上述的技术方案可知,与现有技术相比,本发明的有益效果是:
(1)本发明为了提高网络恢复边缘信息的能力,加入人脸先验信息,将人脸边缘检测搭配人脸局部解析图作为网络的先验信息约束,分别对不同的面部组件对应的解析图和特征图进行融合,增加了解析图对人脸图像超分辨率的指导作用,更加有效地利用所提取到的有用特征,提高了重建效率,加强了重建效果,重建出更加精细的面部几何信息;
(2)本发明分别在浅层特征提取网络,精细重建网络后添加了高效注意力模组ECA,提高了网络对特征信息的利用效果,使得网络能够有目的地进行学习,自适应的调整特征通道信息,增强特征的表达能力,有助于恢复出更多的轮廓纹理等细节,提高了人脸图像的人眼感知效果,主观评价和客观评价标准都得到了提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明一种基于先验信息和注意力机制的人脸超分辨重建方法中使用的超分辨网络整体结构示意图;
图2是本发明一种基于先验信息和注意力机制的人脸超分辨重建方法中使用的浅层特征提取网络结构的示意图;其中,conv表示卷积层操作,Res表示带残差的卷积层操作。
图3是本发明一种基于先验信息和注意力机制的人脸超分辨重建方法中使用的深层特征提取网络结构的示意图;
图4是本发明一种基于先验信息和注意力机制的人脸超分辨重建方法中使用的先验估计网络的示意图;其中的HourGlass表示堆叠沙漏网络模块;
图5是本发明一种基于先验信息和注意力机制的人脸超分辨重建方法中使用的精细重建网络的示意图;
图6是本发明一种基于先验信息和注意力机制的人脸超分辨重建方法中使用的堆叠沙漏网络的示意图;
图7是本发明一种基于先验信息和注意力机制的人脸超分辨重建方法中使用的高效通道注意力网络的示意图;
图8是本发明一种基于先验信息和注意力机制的人脸超分辨重建方法中使用的CelebA Mask-HQ数据集部分图像示意图,其中只显示了人脸中眼睛以下部分的图像;
图9是本发明与其他网络所生成人脸超分辨率图像的对比图;其中的ours表示所提出的本发明的方法;
图10是本发明与其他网络所生成人脸超分辨率图像的细节放大对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于先验信息和注意力机制的人脸超分辨率重建方法,如图1所示,包括:浅层特征提取网络、深层特征提取网络、先验估计网络和精细重建网络;
浅层特征提取网络,用于提取人脸图像的浅层特征,使用卷积层对低分辨率人脸图像进行特征提取,这个卷积层只能从低分辨率图像中提取初步特征,生成比较粗糙的高分辨率人脸图像
深层特征提取网络,用于提取人脸的深层特征,将粗糙的高分辨率人脸图像输入到深层特征提取网络/>进行深层特征提取,/>包括3×3的卷积核,步长为2;经过批量归一化层和ReLU激活函数,再经过12个残差块;最后经过一个3×3卷积核和Tanh激活函数,得到提取出来的64通道的特征图/>。公式如下:
其中,表示粗糙的高分辨率人脸图像,/>表示采用的深层特征提取网络;
先验估计网络,首先采用7x7卷积核对进行卷积,然后经过归一化和ReLU等操作得到64x64的特征图,在得到的特征图后面连接3个残差块;构建2个堆叠沙漏模块,即HourGlass模块,进行先验信息提取,为了有效地跨尺度合并特征并保留不同尺度的空间信息,HourGlass模块在对称层之间采用跳跃连接机制;1x1卷积层对获得的特征进行后处理,将共享的特征连接到两个单独的1×1卷积层,以生成热图和解析图/>。公式如下:
其中,表示粗糙的高分辨率人脸图像,/>表示采用的先验估计网络;
精细重建网络,首先将特征图和解析图/>进行解析图和特征图的融合,得到融合后的特征图/>;然后将特征图/>输入到精细重建网络中,首先使用一个3×3卷积层处理减少特征图的通道数;一个4×4反卷积层对特征图进行上采样,连接3个残差块对特征解码,再使用一个3×3卷积层处理得到特征图;最后将特征图送入一个ECA注意力模块,得到最终的精细超分辨率人脸图像/>
需要说明的是:人脸超分辨率重建是针对人脸这个特殊结构的超分辨率技术,旨在将低分辨率人脸通过某种技术转换为高分辨率人脸。但是人脸结构比较特殊,它的重建难度更大,要求更高,重建过程中,我们要保证几何特征的一致性,还要注意纹理信息的准确恢复。然而,实验证明仅仅先验信息的添加并不能产生理想的人脸输出结果,关键在于如何根据人脸的结构建立一种同时提高人眼感知效果和客观评价标准的超分辨率方法。为此,本发明提出上述基于先验信息和注意力机制的人脸超分辨率方法,先验信息的添加旨在对不同的面部组件对应的解析图和特征图进行融合,更加有效地利用所提取到的有用特征,提高了重建效率,重建出更加精细的面部几何信息;高效注意力模组ECA的添加提高了网络对特征信息的利用效果,使得网络能够有目的地进行学习,自适应的调整特征通道信息,增强特征的表达能力,有助于恢复出更多的轮廓纹理等细节,提高了人脸图像的人眼感知效果。
为了进一步实施上述技术方案,粗糙重建网络包括:
经过3个残差块进行非线性映射生成特征图;再利用基于注意力机制的特征图进行重建,经过3×3卷积层;最后在卷积层后面添加一个由3个ECA模块组成的ECA注意力模组,生成比较粗糙的高分辨率人脸图像。公式如下:
其中,表示双三次上采样后的低分辨率人脸图像,/>表示采用的浅层特征提取网络;
为了进一步实施上述技术方案,精细重建网络包括:
首先将特征图和解析图/>进行解析图和特征图的融合,得到融合后的特征图;然后将特征图/>输入到精细重建网络中,首先使用一个3×3卷积层处理减少特征图的通道数,一个4×4反卷积层对特征图进行上采样,连接3个残差块对特征解码,再使用一个3×3卷积层处理得到特征图;最后将特征图送入一个ECA注意力模块,得到最终的精细超分辨率人脸图像/>
为了进一步实施上述技术方案,损失函数包括:
⑴ 像素损失
在图像超分辨率重建中,通常使用均方误差(mean square error,MSE)损失可以获得较高的评价指标,例如PSNR和SSIM,但是通常会丢失高频纹理信息,导致图像过度平滑。为了避免以上问题,在此使用L1损失作为像素损失函数,有
⑵ 人脸先验损失
为了约束人脸先验信息的估计过程,充分利用人脸先验信息,在此使用人脸先验损失对先验估计网络进行优化,有
⑶ 总损失
模型总损失函数对以上部分进行加权组合,得到最终用于模型训练的总损失函数,即
其中,损失函数采用均方误差损失函数,表示训练集图像总数量,/>是第i张高分辨率图像,/>是对应的第i张粗糙的高分辨率恢复图像,/>是对应的第i张经过处理得到的精细高分辨率恢复图像;/>表示第i张对应的真实的人脸解析图,/>表示第i张图像经过先验估计网络得到的真实面部解析图。
需要说明的是:
由于本发明网络是端到端训练的,三种损失配以各自的权重相加为该人脸超分辨率网络的总损失函数。将训练集图像、原始高分辨率图像、原始的解析图和通过网络提取出来的解析图以及最终的结果输入到逐像素损失函数中,经过逐像素损失函数处理生成高分辨率图像,不断迭代使损失函数最小化,得到使得总损失函数最小的一组权值参数,将这组参数作为训练好的模型参数,得到训练好的人脸超分辨率模型。
基于先验信息和注意力机制的人脸超分辨率方法,包括以下步骤:
S1.下载原始图像数据集,包括原始人脸图像以及原始人脸解析图,并进行数据处理,将数据处理后的原始图像输入到下采样模型中,处理得到低分辨率图像,再将低分辨率图像进行双三次上采样,得到与高分辨图像一样大小的图像作为低分辨率数据集,最后将数据集划分为训练集和测试集;
S2.将S1获得的图像输入到浅层特征提取模块中提取人脸图像的浅层特征,使用卷积层对低分辨率人脸图像进行特征提取,这个卷积层只能提取人脸图像的轮廓特征,得到一个粗糙的高分辨率图像
S3.将S2中得到的粗糙的高分辨率图像输入到深层特征提取网络中进行特征提取得到特征图/>
S4.将S2中获得的粗糙的高分辨率图像输入到先验估计网络中,提取先验信息得到解析图/>,其中先验估计网络由ResNet和堆叠沙漏网络组成;
S5.将S3得到的特征图和S4得到的解析图/>进行解析图和特征图的融合,得到融合后的特征图/>
S6.将S5中得到的特征图输入到精细重建网络中进行超分重建,得到最终的精细重建人脸图像/>
S7.将S2获得的训练集图像、原始高分辨率图像/>、最终结果/>输入到逐像素损失函数中,经过逐像素损失函数处理生成精细的高分辨率图像/>,计算得到损失函数/>;将S4得到的解析图/>和原始图像数据集中的解析图/>输入到逐像素损失函数中,计算得到损失函数/>;将上面的损失函数加起来得到总损失函数/>,不断迭代使损失函数最小化,经过训练,最后生成人脸超分辨网络模型;
S8.设定人脸超分辨网络模型的超参数,将S1经过预处理好的测试集输入到人脸超分辨率网络模型中,经过残差网络处理和损失函数最小化迭代,最后产生细节纹理清楚、效果更好的高分辨率人脸图像。
下面将通过具体实验来对本发明进行进一步说明:
1、数据集
Celeb数据集是香港中文大学开源大规模的人脸检测基准数据集。它包含10177个名人身份的202599张人脸图片,此数据集中的图像覆盖了大的姿势变化和背景杂乱。每个图像都有40个属性注释,例如可区分是否佩戴眼镜、长短发、鼻子、嘴唇、发色、性别等特征,本文对此数据集以性别做标签,对人脸进行性别区分,其中包含女性118165张人脸图片,男性138704张人脸图片。
CelebA Mask-HQ是CelebA的高质量人脸属性分割图像,共30000张1024×1024大小的高清人脸图像。对于CelebA Mask-HQ,我们随机选择了17000张图片进行训练,其余13000张图像用于测试;对于Helen数据集,我们随机选择1200张图片进行训练,其余400张图片进行测试。
2、训练细节
我们根据面部区域粗略裁剪训练图像,在没有任何预先对齐的情况下裁剪到128×128,使用彩色图像进行训练。低分辨率图像首先经过双三次插值到高分辨率图像大小,再进行训练,使用RMSprop算法(root mean square prop)训练模型,初始学习率为2.5×10-4,最小批量为14。对于CelebA Mask-HQ的人脸图像,我们把它们的大小调整为128×128作为原始真实图像。
3、结果分析
A、定量分析
此前的方法往往对人脸细节恢复有所忽略,以牺牲人脸细节的部分质量以提高人脸重建效果,而这对图像的整体质量影响较大,或不利于图像作为下一阶段任务的输入。对于图像超分辨率重建任务,本发明采用峰值信噪比PSNR和结构相似度SSIM作为评价SR性能的指标。由于本发明的人脸超分辨率网络首次将超分辨率重建算法运用到人脸图像任务中,对于网络输入图像有双三次插值的降采样图像尺寸变换操作,所以不能直接与其他人脸超分辨率模型进行数值比较。为公平比较,本发明对几种公开超分辨模型进行输入图像的降采样处理,对于公开人脸超分辨模型,本发明选取URDGN算法和FSRNet超分辨率模型;对于超分辨率重建模型,本发明选取SRCNN算法和EDSR算法以及Bicubic共三种重建算法进行对照。对上述模型调试到最佳状态后,分别把每种超分辨率模型嵌入到人脸超分辨率模型中,在CelebA Mask-HQ和Helen数据集上逐一训练,PSNR以及SSIM越大越好。如表1所示为CelebA Mask-HQ和Helen数据集上放大因子为×8时,描述超分辨率性能的数据指标。
表1表示CelebA Mask-HQ和Helen数据集上放大因子为×8时,描述超分辨率性能的指标,分别为PSNR/SSIM,最优的结果加粗表示。
表1
需要说明的是,根据表1数据,可以发现本发明模型较其他方法有显著性能提升,在SR表现上,本发明的方法在CelebA Mask-HQ和Helen数据集上比次优方法PSNR分别提高了0.43dB和0.34dB,SSIM在CelebA Mask-HQ上提高了0.01。
B、定性分析
从测试集中选取一张人脸图像,将本发明改进算法与原算法的图像重建效果进行对比,效果如图9所示,可以发现原算法的重建图像在眼睛、唇部等区域有较明显的失真,而本发明改进的算法改善了这部分区域的图像质量,明显减少了脸部的失真,可以证明本发明所改进的算法对提高重建人脸图像质量并降低重建图像失真的有效性,对人脸的辨别具有强大的技术支撑。
从测试集中选取人脸图片,使用多种算法分别对其进行人脸图像重建,整体人脸图像重建效果与局部放大重建效果如图10所示,Bicubic算法使用插值法得到的重建人脸图像忽略了很多细节信息,图像过于模糊,SRCNN算法使用卷积神经网络结构,重建效果相对于插值法在结构相似度上有提升, EDSR算法恢复的效果相对提升明显,URDGN恢复的结果失真明显,FSRNet算法使用更复杂的网络结构,重建图像质量有提高,但是受部分限制,图像过于光滑。本发明提高了感知质量,图像具有更符合人眼观察的感知效果,具有和高分辨率图像更相近的纹理,并且PSNR和SSIM都有所提升。
4、消融实验
(1)注意力模块的影响
为了验证注意力机制的作用,将网络拆分成2个对比网络,一个是添加注意力模块的基础网络,另一个是去掉注意力模块的基础网络,对每个网络重新训练观察结果如表2所示。
表2
观察表格能够得出结论,各项数据指标随着注意力模块的增加而展现更优的结果,这证明了注意力机制对人脸超分辨率重建任务的有效性。值得指出的是,根据实验数据可以发现随着注意力的增加,各项数据的效果提升减缓,这是因为注意力已经采集到足够多的特征。同时,注意力模块ECA的数量必然影响的网络的承载量,考虑性能与计算量之间的权衡,建议根据数据集自身的特性选择ECA的数量。在定性实验分析与定量实验分析中,本发明选择表现最好的ECA数量为3的网络与其他方法对比。为了减少训练成本,本发明选择ECA数量为3进行其它消融实验的研究。
(2)注意力机制和先验信息的影响
为了验证注意力机制和先验信息的作用,将网络拆分成2个对比网络,一个是添加注意力模块和先验信息的基础网络,另一个是去掉注意力模块和先验信息的基础网络,对每个网络重新训练观察,结果如表3所示。
表3
观察表格能够得出结论,各项数据指标随着注意力模块的增加而展现更优的结果,这证明了注意力机制和先验信息对人脸超分辨率重建任务的有效性。值得指出的是,根据实验数据可以发现随着注意力和先验信息的增加,各项数据的效果提升减缓,这是因为先验信息和注意力模块已经采集到足够多的特征。同时,注意力模块ECA的数量和先验信息的提取必然影响的网络的承载量,考虑性能与计算量之间的权衡,建议根据数据集自身的特性选择ECA的数量。在定性实验分析与定量实验分析中,本发明选择表现最好的ECA数量为1的网络与其他方法对比。为了减少训练成本,本发明选择ECA数量为1进行其它消融实验的研究。
(3)堆叠沙漏网络数量的影响
为了验证堆叠沙漏网络的作用,我们研究先验估计网络中堆叠沙漏网络的数量对网络性能的影响,对每个网络重新训练,观察结果如表4所示。
表4
观察表格能够得出结论,各项数据指标随着HourGlass数量的增加而展现更优的结果,这证明了HourGlass数量对人脸超分辨率重建任务的有效性。值得指出的是,根据实验数据可以发现随着HourGlass数量的增加,各项数据的效果提升减缓,这是因为先验信息已经采集到足够多的特征。同时,HourGlass的数量必然影响网络的承载量,考虑性能与计算量之间的权衡,建议根据数据集自身的特性选择HourGlass数量。因此,我们最终选择HourGlass数量为2进行实验,得到不错的重建效果。
综上,本发明提出基于先验信息和注意力机制的人脸超分辨率重建方法来恢复更加精细的人脸图像。通过输入一张低分辨率图像,使用卷积提取图像浅层特征,加入残差块组和卷积操作得到浅层特征,得到的浅层特征一方面送入深层特征提取网络,另一方面送入先验估计网络,中间加入高效通道注意力模组,提高人脸图像恢复的指标和视觉效果,最后将两个分支的结果送入到精细重建网络,输出令人满意的超分辨率重建图像。在公共数据集上得到验证,并证明优于部分方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (3)

1.基于先验信息和注意力机制的人脸超分辨方法,其特征在于,包括:浅层特征提取网络、深层特征提取网络、先验估计网络和精细重建网络;
浅层特征提取网络,用于提取人脸图像的浅层特征,使用卷积层对低分辨率人脸图像进行特征提取,这个卷积层只能从低分辨率图像中提取初步特征,生成比较粗糙的高分辨率人脸图像
深层特征提取网络,用于提取人脸的深层特征,将粗糙的高分辨率人脸图像输入到深层特征提取网络/>进行深层特征提取,/>包括3×3的卷积核,步长为2;经过批量归一化层和ReLU激活函数,再经过12个残差块;最后经过一个3×3卷积核和Tanh激活函数,得到提取出来的64通道的特征图/>,公式如下:
其中,表示粗糙的高分辨率人脸图像,/>表示采用的深层特征提取网络;
先验估计网络,首先采用7x7卷积核对进行卷积,然后经过归一化和ReLU等操作得到64x64的特征图,在得到的特征图后面连接3个残差块;构建2个HourGlass堆叠沙漏模块进行先验信息提取,为了有效地跨尺度合并特征并保留不同尺度的空间信息,HourGlass模块在对称层之间采用跳跃连接机制;1x1卷积层对获得的特征进行后处理,将共享的特征连接到两个单独的1×1卷积层,以生成热图和解析图/>,公式如下:
其中,表示粗糙的高分辨率人脸图像,/>表示采用的先验估计网络;
精细重建网络,首先将特征图和解析图/>进行解析图和特征图的融合,得到融合后的特征图/>;然后将特征图/>输入到精细重建网络中,首先使用一个3×3卷积层处理减少特征图的通道数;一个4×4反卷积层对特征图进行上采样,连接3个残差块对特征解码,再使用一个3×3卷积层处理得到特征图;最后将特征图送入一个ECA注意力模块,得到最终的精细超分辨率人脸图像/>
其中,粗糙重建网络具体为:
经过3个残差块进行非线性映射生成特征图;再利用基于注意力机制的特征图进行重建,经过3×3卷积层;最后在卷积层后面添加一个由3个ECA模块组成的ECA注意力模组,生成比较粗糙的高分辨率人脸图像,公式如下:
其中,表示双三次上采样后的低分辨率人脸图像,/>表示采用的浅层特征提取网络;
其中,精细重建网络具体为:
首先将特征图和解析图/>进行解析图和特征图的融合,得到融合后的特征图/>;然后将特征图/>输入到精细重建网络中,首先使用一个3×3卷积层处理减少特征图的通道数,一个4×4反卷积层对特征图进行上采样,连接3个残差块对特征解码,再使用一个3×3卷积层处理得到特征图;最后将特征图送入一个ECA注意力模块,得到最终的精细超分辨率人脸图像/>
2.根据权利要求1所述的基于先验信息和注意力机制的人脸超分辨率方法,其特征在于,所述步骤中人脸超分辨率网络训练时所采用的损失函数包括:
⑴ 像素损失
在图像超分辨率重建中,通常使用均方误差(mean square error,MSE)损失可以获得较高的评价指标,例如PSNR和SSIM,但是通常会丢失高频纹理信息,导致图像过度平滑,为了避免以上问题,在此使用L1损失作为像素损失函数,有
⑵ 人脸先验损失
为了约束人脸先验信息的估计过程,充分利用人脸先验信息,在此使用人脸先验损失对先验估计网络进行优化,有
⑶ 总损失
模型总损失函数对以上部分进行加权组合,得到最终用于模型训练的总损失函数,即
其中,损失函数采用均方误差损失函数,表示训练集图像总数量,/>是第i张高分辨率图像,/>是对应的第i张粗糙的高分辨率恢复图像,/>是对应的第i张经过处理得到的精细高分辨率恢复图像;/>表示第i张对应的真实的人脸解析图,/>表示第i张图像经过先验估计网络得到的真实面部解析图。
3.根据权利要求1所述的基于先验信息和注意力机制的人脸超分辨率方法,其特征在于,包括以下步骤:
S1.下载原始图像数据集,包括原始人脸图像以及原始人脸解析图,并进行数据处理,将数据处理后的原始图像输入到下采样模型中,处理得到低分辨率图像,再将低分辨率图像进行双三次上采样,得到与高分辨图像一样大小的图像作为低分辨率数据集,最后将数据集划分为训练集和测试集;
S2.将S1获得的图像输入到浅层特征提取模块中提取人脸图像的浅层特征,使用卷积层对低分辨率人脸图像进行特征提取,这个卷积层只能提取人脸图像的轮廓特征,得到一个粗糙的高分辨率图像
S3.将S2中得到的粗糙的高分辨率图像输入到深层特征提取网络中进行特征提取得到特征图/>
S4.将S2中获得的粗糙的高分辨率图像输入到先验估计网络中,提取先验信息得到解析图/>,其中先验估计网络由ResNet和堆叠沙漏网络组成;
S5.将S3得到的特征图和S4得到的解析图/>进行解析图和特征图的融合,得到融合后的特征图/>
S6.将S5中得到的特征图输入到精细重建网络中进行超分重建,得到最终的精细重建人脸图像/>
S7.将S2获得的训练集图像、原始高分辨率图像/>、最终结果/>输入到逐像素损失函数中,经过逐像素损失函数处理生成精细的高分辨率图像/>,计算得到损失函数;将S4得到的解析图/>和原始图像数据集中的解析图/>输入到逐像素损失函数中,计算得到损失函数/>;将上面的损失函数加起来得到总损失函数/>,不断迭代使损失函数最小化,经过训练,最后生成人脸超分辨网络模型;
S8.设定人脸超分辨网络模型的超参数,将S1经过预处理好的测试集输入到人脸超分辨率网络模型中,经过残差网络处理和损失函数最小化迭代,最后产生细节纹理清楚、效果更好的高分辨率人脸图像。
CN202211528427.XA 2022-12-01 2022-12-01 基于先验信息与注意力机制的人脸超分辨率重建方法 Pending CN117315735A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211528427.XA CN117315735A (zh) 2022-12-01 2022-12-01 基于先验信息与注意力机制的人脸超分辨率重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211528427.XA CN117315735A (zh) 2022-12-01 2022-12-01 基于先验信息与注意力机制的人脸超分辨率重建方法

Publications (1)

Publication Number Publication Date
CN117315735A true CN117315735A (zh) 2023-12-29

Family

ID=89248630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211528427.XA Pending CN117315735A (zh) 2022-12-01 2022-12-01 基于先验信息与注意力机制的人脸超分辨率重建方法

Country Status (1)

Country Link
CN (1) CN117315735A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117649343A (zh) * 2024-01-29 2024-03-05 北京航空航天大学 基于条件变分自编码器的数据不确定性生成方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117649343A (zh) * 2024-01-29 2024-03-05 北京航空航天大学 基于条件变分自编码器的数据不确定性生成方法及***
CN117649343B (zh) * 2024-01-29 2024-04-12 北京航空航天大学 基于条件变分自编码器的数据不确定性生成方法及***

Similar Documents

Publication Publication Date Title
CN110570353B (zh) 密集连接生成对抗网络单幅图像超分辨率重建方法
Engin et al. Cycle-dehaze: Enhanced cyclegan for single image dehazing
CN112734646B (zh) 一种基于特征通道划分的图像超分辨率重建方法
CN112750082B (zh) 基于融合注意力机制的人脸超分辨率方法及***
CN106952228B (zh) 基于图像非局部自相似性的单幅图像的超分辨率重建方法
CN107123089B (zh) 基于深度卷积网络的遥感图像超分辨重建方法及***
CN110580680B (zh) 基于组合学习的人脸超分辨率方法及装置
CN103020898B (zh) 序列虹膜图像超分辨率重建方法
CN110889895A (zh) 一种融合单帧重建网络的人脸视频超分辨率重建方法
CN113298718A (zh) 一种单幅图像超分辨率重建方法及***
Yang et al. Image super-resolution based on deep neural network of multiple attention mechanism
Zheng et al. T-net: Deep stacked scale-iteration network for image dehazing
CN116402691B (zh) 基于图像特征快速拼接的图像超分辨率方法和***
Yang et al. A survey of super-resolution based on deep learning
CN117315735A (zh) 基于先验信息与注意力机制的人脸超分辨率重建方法
CN115511708A (zh) 基于不确定性感知特征传输的深度图超分辨率方法及***
CN117575915A (zh) 一种图像超分辨率重建方法、终端设备及存储介质
CN116681592A (zh) 基于多尺度自适应非局部注意力网络的图像超分辨率方法
Liu et al. Facial image inpainting using multi-level generative network
CN117333751A (zh) 一种医学图像融合方法
CN116485654A (zh) 卷积神经网络与Transformer相结合的轻量级单图像超分辨率重建方法
CN117078516A (zh) 基于残差混合注意力的矿井图像超分辨率重建方法
Zhang et al. Bilateral upsampling network for single image super-resolution with arbitrary scaling factors
CN104123707A (zh) 一种基于局部秩先验的单幅图像超分辨率重建方法
CN113628114A (zh) 一种双通道稀疏编码的图像超分辨率重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination