CN113989129A - 基于门控和上下文注意力机制的图像修复方法 - Google Patents
基于门控和上下文注意力机制的图像修复方法 Download PDFInfo
- Publication number
- CN113989129A CN113989129A CN202111019820.1A CN202111019820A CN113989129A CN 113989129 A CN113989129 A CN 113989129A CN 202111019820 A CN202111019820 A CN 202111019820A CN 113989129 A CN113989129 A CN 113989129A
- Authority
- CN
- China
- Prior art keywords
- image
- convolution
- feature map
- network model
- missing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000007246 mechanism Effects 0.000 title claims abstract description 41
- 230000008439 repair process Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000010586 diagram Methods 0.000 claims description 55
- 230000006870 function Effects 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 239000011800 void material Substances 0.000 claims description 8
- 238000013461 design Methods 0.000 claims description 6
- 230000003042 antagnostic effect Effects 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 230000002093 peripheral effect Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000012217 deletion Methods 0.000 abstract description 2
- 230000037430 deletion Effects 0.000 abstract description 2
- 230000001788 irregular Effects 0.000 abstract description 2
- 238000010606 normalization Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 2
- 230000008014 freezing Effects 0.000 description 2
- 238000007710 freezing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于门控和上下文注意力机制的图像修复方法,对所采用的可见光数据集图像及其轮廓图像乘以二进制掩膜M,分别得到降质后的缺失图像和辅助信息图像;通过所述降质后的缺失图像和额外的辅助信息图像构建包含真实图像、缺失图像和辅助信息图像的数据集;通过添加感受野模块和损失函数对上下文注意力模块进行改进,构建基于门控卷积和上下文注意力机制的改进的生成对抗网络模型;通过所述缺失图像和辅助信息图像对生成对抗网络模型进行训练,获得最优的生成对抗网络模型;将待修复输入到最优的生成对抗网络模型中,获得有效修复图像。本发明相较于传统算法在大区域或不规则区域缺失的图像修复问题上具有明显的进步。
Description
技术领域
本发明属于图像修复技术领域,具体涉及一种基于门控和上下文注意力机制的图像修复方法。
背景技术
图像作为感知客观世界的一种重要的信息载体,具有语言文本无法比拟的优势。图像信息的缺失,不仅破坏了图像的视觉呈现质量,也影响了图像的后续应用。图像修复技术即利用缺失图像的完好区域信息预测出破损区域的内容,并保持破损区域和完好区域像素间的自然过渡,尽可能还原图像受损前的状态和信息量。图像修复具有重要的现实意义,广泛应用于旧照片修复、图像渲染、生物医学等领域。
传统的图像修复方法,如基于序列的图像修复算法在处理局部纹理损坏等小区域修复问题上是可行的,但由于无法捕获全局信息结构,对于大区域的、全局性结构失真等问题无法实现有效修复。近年来,深度学习在计算机视觉和图像处理任务中展现出了强大的潜力,并自然地应用到了图像修复领域。相对于传统图像修复算法,基于卷积神经网络的算法和基于生成对抗网络的图像修复算法通过利用大规模的训练数据来逐步学习并改善最终的预期结果,鉴于其能够对图像的高级语义特征进行捕获,在图像修复问题上可以实现更好的修复效果。
生成对抗网络是一种通过对抗过程生成图像的新框架,包括生成器和鉴别器两个网络模型。其中生成器负责拟合真实分布,即对输入的随机噪声经过不断的学习和优化,得到接近于真实样本分布的输出;而鉴别器负责判断输入样本是来自真实样本还是生成器生成样本,并反馈结果至生成器,最终达到在鉴别器具有较好鉴别能力的条件下,生成器能够生成以假乱真样本的目的。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于门控和上下文注意力机制的图像修复方法。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供一种基于门控和上下文注意力机制的生成对抗网络的图像修复方法,该方法为:
对所采用的可见光数据集图像及其轮廓图像乘以二进制掩膜M,分别得到降质后的缺失图像和辅助信息图像;
通过所述降质后的缺失图像和额外的辅助信息图像构建包含真实图像、缺失图像和辅助信息图像的数据集;
通过添加感受野模块和损失函数对上下文注意力模块进行改进,构建基于门控卷积和上下文注意力机制的改进的生成对抗网络模型;
通过所述缺失图像和辅助信息图像对生成对抗网络模型进行训练,获得最优的生成对抗网络模型;
将待修复输入到最优的生成对抗网络模型中,获得有效修复图像。
上述方案中,所述对所采用的可见光数据集图像及其轮廓图像乘以二进制掩膜M,分别得到降质后的缺失图像和辅助信息图像,具体为:所述将原始的完整图像X0及其轮廓图X1乘以二进制掩码M,分别得到降质后的缺失图像和辅助信息图像。
上述方案中,所述通过所述降质后的缺失图像和额外的辅助信息图像构建包含真实图像、缺失图像和辅助信息图像的数据集,具体为:以构建包含真实图像、缺失图像和辅助信息图像(X0,XM,X1)的数据集其中,M是值为1或0的二进制掩膜,数值1代表图像完好区域Φ,数值0代表图像缺失区域Ω,X0是原始图像,X1是轮廓图像,XM是缺失图像,是辅助信息图像,⊙表示逐元素相乘。
上述方案中,所述基于门控卷积和上下文注意力机制的改进的生成对抗网络模型包括生成器和鉴别器两部分;其中,所述生成器采用嵌入改进的上下文注意力模块的编解码器架构,用于改善图像修复质量,同时引入门控卷积用于处理用户添加的额外辅助信息,引导生成更符合预期的修复结果;所述鉴别器采用包括全局鉴别器和局部鉴别器的双鉴别器结构,分别用于对修复图像整体结构的一致性判断和局部区域纹理细节的合理性判断。
上述方案中,所述通过所述缺失图像和辅助信息图像对生成对抗网络模型进行训练,获得最优的生成对抗网络模型,具体为:通过所述缺失图像和辅助信息图像对生成对抗网络模型中的生成器进行训练;通过所述生成器生成的修复图像、以及真实图像分别对抗网络模型中的鉴别器进行训练;重复所述训练过程直至生成器和鉴别器的损失函数值趋于稳定,完成训练,得到已训练完成的改进的生成对抗网络模型,将验证图像输入到已训练完成的改进的生成对抗网络模型中,选择得到最优的网络模型。
上述方案中,所述将待修复输入到最优的生成对抗网络模型中,获得有效修复图像,具体为:
所述缺失图像XM通过生成器进行两次下采样卷积后,获得特征图X1、X2_1;
所述特征图X2_1经过6层连续的空洞卷积层的处理,获得特征图X2_2;对所述特征图X2_1和特征图X2_2拼接,并且经过1层1×1卷积调整通道数至上下文注意力模块的原始输入通道大小得到特征图X2_3,送入SE模块进行通道域均衡化,得到特征图X2_4,最后进入上下文注意力模块进行注意力机制的运算,获得输出特征图Xca,将Xca和X2_2进行特征融合,得到特征图X2;
对所述特征图X2经过4层下采样卷积,获得特征图X3、X4、X5、X6;
将所述特征图X6的低层特征与高层特征通过残差连接,获得特征图X7;
所述特征图X7经过第一层反卷积,获得特征图X′1,
将所述特征图Xi和反卷积得到的特征图X′6-i(i=5,4,3,2,1)进行特征融合,再输入下一反卷积层进行上采样,最终获得的特征图与输入图像大小相同,即得到修复图像Y′。
上述方案中,所述特征图X2_1经过6层连续的空洞卷积层的处理,获得特征图X2_2,具体为:将连续空洞卷积层的膨胀率设置为[1,2,5,1,2,5]结构,可满足HDC结构设计的前2个特性,再对M2的取值进行验证:
M2=max[M3-2r2,-M3+2r2,r2]=max[1,-1,2]
其中,空洞卷积层使用的卷积核尺寸K=4,则M2=2≤K=4满足要求,即该膨胀率的设置符合HDC设计结构。
上述方案中,所述对所述特征图X2_1和特征图X2_2拼接,得到特征图X2_3,并且经过1层1×1卷积调整通道数至上下文注意力模块的原始输入通道大小,将其送入SE模块进行通道域均衡化,得到特征图X2_4,最后进入上下文注意力模块进行注意力机制的运算,获得输出特征图Xca,将Xca和X2_2进行特征融合后,得到特征图X2。具体为:将输入特征图X2_4复制为两份,分别作为前景图像和背景图像,然后将背景图像在宽和高两个维度上进行均匀切割,分成多个背景块,对该批量的每张图像单独处理,取wgroups中对应的维度为[l,c,k,k]的样本块进行归一化处理,作为卷积层的权重参数对前景图像进行卷积运算,等同于采用标准化内积即余弦相似度来衡量前景图像特征与每个背景块特征的契合程度,得到的契合度矩阵记作score,相似度计算公式为:
通过对score矩阵进行卷积操作,实现利用周边像素的相似度影响来更正当前像素的注意力得分,接着使用初始的wgroups构建出对应的背景块作为卷积核,对更正后的score矩阵进行转置卷积,得到当前图像的修复结果,最后合并该批量的所有修复结果,得到输出特征图Xca;
采用VGG-16第2-2层激活层对真实图像进行特征提取,利用损失函数约束缺失像素的重建过程,损失函数Lca具体表示为:
Lca=||Xca-Ψ2_2(X0)||1
其中,Ψ2_2(X0)表示预先训练好的网络模型VGG-16对于真实图像X0的第2-2层激活特征图,Xca表示上下文注意力模块的输出特征图,||||1表示L1距离的计算。
上述方案中,对所述特征图X2经过4层下采样卷积,获得特征图X3、X4、X5、X6;
将所述特征图X6的低层特征与高层特征通过残差连接,获得特征图X7;
所述特征图X7经过第一层反卷积,获得特征图X′1,
将所述特征图Xi和反卷积得到的特征图X′6-i(i=5,4,3,2,1)进行特征融合,再输入下一反卷积层进行上采样,最终获得的特征图与输入图像大小相同,即得到修复图像Y′。
上述方案中,包括对所述修复图像进行验证,对所述修复图像Y′和真实图像X0通过对两张图像分别进行下采样操作,提取出各自的高级语义特征,然后根据损失函数计算出全局损失Lossglobal,根据所述全局损失Lossglobal判断修复图像与真实图像是否相似。
将所述修复图像和真实图像中已知区域内的像素都置为0,得到只保留了修复区域的修复图像Y′local和真实图像X0_local,然后根据局部损失函数计算出局部损失Losslocal,根据所述局部损失Losslocal判断修复图像与真实图像是否相似。
和现有技术相比,本发明相较于传统算法在大区域或不规则区域缺失的图像修复问题上具有明显的进步;构建了改进的生成对抗网络,鉴别器网络采用包括全局鉴别器和局部鉴别器的双鉴别器结构,生成器网络采用类似于U-Net的编解码器架构,通过引入改进后的上下文注意力模块来保证浅层纹理特征的有效利用,从而改善图像修复质量,其次将所有的卷积结构都替换为门控卷积以允许用户添加引导信息,引导生成更符合预期的修复结果。
附图说明
此处所说明的附图用来公开对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例提供一种基于门控和上下文注意力机制的生成对抗网络的图像修复方法的流程图;
图2为本发明实施例提供一种基于门控和上下文注意力机制的生成对抗网络的图像修复方法的模型整体结构;
图3为本发明实施例提供一种基于门控和上下文注意力机制的生成对抗网络的图像修复方法的门控卷积结构;
图4为本发明实施例提供一种基于门控和上下文注意力机制的生成对抗网络的图像修复方法的改进的上下文注意力模块的前后结构。
图5为本发明实施例提供一种基于门控和上下文注意力机制的生成对抗网络的图像修复方法的无引导的图像修复结果图。
图6为本发明实施例提供一种基于门控和上下文注意力机制的生成对抗网络的图像修复方法的有引导的图像修复结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、物品或者装置中还存在另外的相同要素。
本发明实施例提供一种基于门控和上下文注意力机制的图像修复方法,如图1所示,该方法为:
步骤1:对所采用的可见光数据集图像及其轮廓图像乘以二进制掩膜M,分别得到降质后的缺失图像和辅助信息图像;
具体地,所述将原始的完整图像I0及其轮廓图I1乘以二进制掩码M,分别得到降质后的缺失图像和辅助信息图像。
步骤2:通过所述降质后的缺失图像和额外的辅助信息图像构建包含真实图像、缺失图像和辅助信息图像的数据集;
具体地,以构建包含真实图像、缺失图像和辅助信息图像(X0,XM,X1)的数据集其中,M是值为1或0的二进制掩膜,数值1代表图像完好区域Φ,数值0代表图像缺失区域Ω,X0是原始图像,X1是轮廓图像,XM是缺失图像,是辅助信息图像,⊙表示逐元素相乘。
步骤3:通过添加感受野模块和损失函数对上下文注意力模块进行改进,构建基于门控卷积和上下文注意力机制的改进的生成对抗网络模型;
具体地,所述基于门控卷积和上下文注意力机制的改进的生成对抗网络模型包括生成器和鉴别器两部分;其中,所述生成器采用嵌入改进的上下文注意力模块的编解码器架构,用于改善图像修复质量,同时引入门控卷积用于处理用户添加的额外辅助信息,引导生成更符合预期的修复结果;所述鉴别器采用包括全局鉴别器和局部鉴别器的双鉴别器结构,分别用于对修复图像整体结构的一致性判断和局部区域纹理细节的合理性判断。
生成器采用U-Net编解码器网络架构,其中编码器使用6个卷积层进行下采样,解码器使用6个卷积层进行上采样,所述下采样卷积块是基于对称填充的偶数卷积核,卷积核尺寸为4×4,步长为2;所述上采样卷积块是结合最邻近插值和基于对称填充的偶数卷积核,卷积核尺寸为4×4,步长为1。
所述的模型卷积结构均采用了门控卷积结构,同时为了与原上下文注意力机制的输入尺寸保持一致,将所述的注意力机制层嵌入到编码器第三层卷积之前,通过添加感受野模块和损失函数构建出改进的上下文注意力模块,以进一步增强该模块对图像已知区域纹理特征的利用率。
所述的门控卷积结构兼容额外的用户输入,能够实现图像的引导性修复,如图3,首先对输入特征图使用标准卷积层和Sigmoid卷积层分别进行两次卷积操作,其中标准卷积层用于输出卷积结果特征图、而Sigmoid卷积层用于生成门控掩膜,Sigmoid卷积层采用了和标准卷积层相同的卷积核以及特定的激活函数Sigmoid,使得卷积结果限制在0~1之间,然后将特征图和门控掩模逐元素相乘,得到最终的卷积输出。
步骤4:通过所述缺失图像和辅助信息图像对生成对抗网络模型进行训练,获得最优的生成对抗网络模型;
具体地,通过所述缺失图像和辅助信息图像对生成对抗网络模型中的生成器进行训练;通过所述生成器生成的修复图像、以及真实图像分别对抗网络模型中的鉴别器进行训练;重复所述训练过程直至生成器和鉴别器的损失函数值趋于稳定,完成训练,得到已训练完成的改进的生成对抗网络模型,将验证图像输入到已训练完成的改进的生成对抗网络模型中,选择得到最优的网络模型。
步骤5:将待修复输入到最优的生成对抗网络模型中,获得有效修复图像。
具体地,所述缺失图像XM通过生成器进行两次下采样卷积后,获得特征图X1、X2_1,下采样卷积模块采用基于对称填充的4×4偶数卷积核,步长为2,解决了偶数卷积特征图感受野往左上方偏移的问题,改进了生成图像的质量,使网络更容易收敛。
为了增加上下文注意力模块的感受野,提高远距离纹理特征的利用率,对于编码器两次下采样后的输出特征图X2_1不直接送入到上下文注意力机制,而是所述特征图X2_1经过6层连续的空洞卷积层的处理,获得特征图X2_2,将连续空洞卷积层的膨胀率设置为[1,2,5,1,2,5]结构,可以看出其满足HDC结构设计的前2个特性,再对M2的取值进行验证:
M2=max[M3-2r2,-M3+2r2,r2]=max[1,-1,2]
其中,空洞卷积层使用的卷积核尺寸K=4,则M2=2≤K=4满足要求,即该膨胀率的设置符合HDC设计结构。
对所述特征图X2_1和特征图X2_2拼接,得到特征图X2_3,将特征图X2_3进行1层1×1卷积调整通道数至128,再经过SE模块处理输出特征图X2_4,然后进入上下文注意力模块进行注意力机制的运算,输出特征图Xca,将Xca和X2_2进行特征融合后,获得输出特征图X2,其中,首先将输入特征图X2_4复制为两份,分别作为前景图像和背景图像,然后将背景图像在宽和高两个维度上进行均匀切割,分成多个背景块,对该批量的每张图像单独处理,取wgroups中对应的维度为[l,c,k,k]的样本块进行归一化处理,作为卷积层的权重参数对前景图像进行卷积运算,等同于采用标准化内积即余弦相似度来衡量前景图像特征与每个背景块特征的契合程度,得到的契合度矩阵记作score,相似度计算公式为:
通过对score矩阵进行卷积操作,实现利用周边像素的相似度影响来更正当前像素的注意力得分。接着使用初始的wgroups构建出对应的背景块作为卷积核,对更正后的score矩阵进行转置卷积,得到当前图像的修复结果,最后合并该批量的所有修复结果,获得特征图Xca,上下文注意力机制至此结束;
所述损失函数为:
考虑到像素特征之间的连续性,在感知损失函数的基础上设计了损失函数Lca,且鉴于上下文注意力模块的输出通道数为128,采用VGG-16第2-2层激活层对真实图像进行特征提取,利用损失函数约束缺失像素的重建过程,能够进一步保证图像重建像素的质量,损失函数Lca具体表示为:
Lca=||Xca-Ψ2_2(X0)||1
其中,Ψ2_2(X0)表示预先训练好的网络模型VGG-16对于真实图像X0的第2-2层激活特征图,Xca表示上下文注意力模块的输出特征图,||||1表示L1距离的计算。
对所述特征图X2经过4层下采样卷积,获得特征图X3、X4、X5、X6;
将所述特征图X6的低层特征与高层特征通过残差连接,获得特征图X7;其中,编码器和解码器的连接层采用空洞残差连接层进行连接处理。空洞残差连接层包括4个连续的空洞残差模块,所述空洞残差模块以ResNet残差单元作为基础结构,结合基于对称填充的2×2偶数卷积核,且卷积步长为1,将第一层的传统卷积替换为膨胀率为2的空洞卷积,并采用Leaky ReLU激活函数替换了ReLU激活函数。
所述特征图X7经过第一层反卷积,获得特征图X′1;其中,解码器使用6个卷积层进行上采样,使用4×4的反卷积核,步长为2。
将所述特征图Xi和解码器反卷积得到的特征图X′6-i(i=5,4,3,2,1)进行特征融合,再输入下一反卷积层进行上采样,最终获得的特征图与输入图像大小相同,即得到修复图像Y′;其中,U-Net网络的跳跃连接结构使得每个阶段的解码器都能学习到编码器降采样丢失的相关特征,促进降采样过程的特征再利用,有效弥补图像缺失区域的特征损失,缓解梯度消失的问题。
鉴别器采用双鉴别器结构,由全局鉴别器和局部鉴别器两部分组成,且两个鉴别器的结构相同、输入不同;
所述两个鉴别器都采用谱归一化鉴别器,均设计为5个基于对称填充的偶数卷积层,卷积核尺寸为4×4,步长为2。所述谱归一化是对鉴别器每层网络参数除以该层参数矩阵的谱范数,使得鉴别器满足Lipschitz限制,能够解决鉴别器能力过强导致的生成器梯度消失问题。
进一步地,该方法还包括对所述修复图像进行验证,对所述修复图像Y′和真实图像X0通过对两张图像分别进行下采样操作,提取出各自的高级语义特征,然后根据损失函数计算出全局损失Lossglobal,根据所述全局损失Lossglobal判断修复图像与真实图像是否相似。
将真实图像和修复图像中已知区域内的像素都置为0,得到只保留了修复区域的修复图像Y′local和真实图像X0_local,然后根据所述局部损失函数计算出局部损失Losslocal,根据所述局部损失Losslocal判断修复图像与真实图像是否相似。
进一步地,对基于门控和上下文注意力机制的生成对抗网络的生成器和鉴别器进行对抗训练;
具体地,训练过程如下:
步骤301:给定一张原始的完整图像X0及其轮廓图X1和一张二进制掩膜图像M,构建包含缺失区域的待修复图像XM和辅助信息图像并将图像归一化至[-1,1]范围,构建包含真实图像、缺失图像和辅助信息图像的数据集。将数据集中的真实图像、待修复图像和辅助信息图像调整尺寸为M×N,M=N=256。
步骤302:将待修复图像和辅助信息图像一同作为生成器网络的输入,经过前向传播得到修复图像。模型卷积结构均采用了门控卷积结构,门控卷积首先对输入特征图使用标准卷积层和Sigmoid卷积层分别进行两次卷积操作,其中标准卷积层用于输出卷积结果特征图、而Sigmoid卷积层用于生成门控掩膜,Sigmoid卷积层采用了和标准卷积层相同的卷积核以及特定的激活函数Sigmoid,使得卷积结果限制在0~1之间,然后将特征图和辅助信息特征图逐元素相乘,得到最终的卷积输出。
前向传播过程具体为:
1)待修复图像XM输入到编码器,经过2层下采样卷积,下采样卷积层使用对称填充的4×4偶数卷积核,步长为2,两层卷积核数目为64和128,最终输出尺寸为128×128×64的特征图X1和尺寸为64×64×128的特征图X2_1;
2)将所述尺寸为64×64×128的特征图X2_1经过感受野模块,即膨胀率设置为[1,2,5,1,2,5]结构的6层连续空洞卷积层,得到输出特征图X2_2。将特征图X2_1和特征图X2_2进行拼接,得到新的尺寸为64×64×256的输出特征图X2_3,将特征图X2_3进行1层1×1卷积调整通道数至128,再将特征图X2_3经过SE模块处理输出特征图X2_4,将调整后的特征图X2_4进入上下文注意力模块进行注意力机制的运算,输出尺寸为64×64×128的特征图Xca,将Xca和X2_2进行特征融合后,得到尺寸为64×64×128的特征图X2。
3)将所述尺寸为64×64×128的特征图X2经过1层下采样卷积,下采样卷积层使用卷积核数目为256的对称填充偶数卷积核,最终输出尺寸为32×32×256的特征图X3;将特征图X3经过512个卷积核的下采样模块,输出16×16×512大小的特征图X4;
4)将所述尺寸为16×16×512的特征图X4经过2层下采样卷积,下采样卷积层使用对称填充的4×4偶数卷积核,步长为2,两层卷积核数目均为512,最终输出尺寸为8×8×512的特征图X5和尺寸为4×4×512的特征图X6;
5)将所述尺寸为4×4×512的特征图X6经过4层空洞残差卷积连接层,输出尺寸为4×4×512的特征图X7;
6)将所述特征图X7输入到解码器,经过第一层4×4的反卷积,步长为2,卷积核数目为512,得到尺寸为8×8×512的特征图X′1,将1)~4)中编码器下采样得到的特征图Xi和解码器反卷积得到的特征图X′6-i(i=5,4,3,2,1)进行特征图通道拼接,再输入下一反卷积层进行上采样,最终得到的特征图与尺寸为256×256×3,即得到生成器输出图像Y′。
步骤303:冻结生成器模型,更新优化鉴别器网络模型参数。将生成器的生成图像Y′global与真实图像Yglobal一同输入到全局鉴别器;从生成器的生成图像Y′global中随机裁剪出大小为原始图像的r倍的图像块Y′local,并在真实图像Yglobal中的相同位置裁剪出图像块Ylocal,将Y′local和Ylocal一同输入到局部鉴别器网络,本实施例中r在局部鉴别器中取值为1/4,默认取值为1;
步骤304:生成图像Y′global/Y′local和真实图像Yglobal/Ylocal在鉴别器中进行前向传播,判断生成图像Y′global/Y′local与真实图像Yglobal/Ylocal是否逼近,于本实施例中将输入到鉴别器的生成图像统称为Y′,真实图像统称为Y;
前向传播过程为:
1)鉴别器的输入图像尺寸为256r×256r×3,经过两层4×4的下采样卷积,卷积步长为2,两层卷积的卷积核数目为64和128,最终输出尺寸为64r×64r×128的特征图y2;
2)所述128张尺寸为64r×64r的特征图y2进入到融合压缩激励的空洞残差卷积(SEDResNeXt)模块,该空洞残差卷积模块包括SE模块和DResNeXt模块,经过3个并行的空洞卷积层卷积后得到特征图y2_1,y2_2和y2_3,空洞卷积层的空洞卷积核尺寸为3×3、步长为1、卷积核的数目为32,将特征图y2_1,y2_2和y2_3拼接得到尺寸为64r×64r×96的特征图y2_4,然后将特征图y2_4输入到SE模块进行通道域均衡化输出特征图y2_5,将特征图y2_5经过1层1×1卷积,调整通道数为128,将特征图y2与调整过的特征图y2_5进行残差联接,最后经过1层卷积核数目为256的下采样层,输出尺寸为32r×32r×256的特征图y3;
3)将所述尺寸为32r×32r×256的特征图y3,经过2层4×4的下采样卷积,每层步长为2,卷积核数目为512和1,最终输出8r×8r×1的特征图y。
步骤305:将所述生成器生成图像Y′和真实图像Y经过鉴别器前向传播,其输出结果输入到鉴别器损失函数中,对鉴别器网络模型的参数进行梯度更新,损失函数为相对平均LS损失函数LD,即:
其中,Lglobal表示全局鉴别器损失函数,Llocal表示局部鉴别器损失函数,DSN(·)表示谱归一化处理后的鉴别器网络,Igt表示真实图像,Iout表示修复图像,Igt_local表示只保留了修复区域的真实图像,Iout_local表示只保留了修复区域的修复图像。
步骤306:冻结鉴别器模型,更新优化生成器网络模型参数。将缺失图像X输入至生成器网络模型中,进行前向传播。前向传播过程如步骤302。
步骤307:计算生成器损失函数。生成器网络损失函数包括重建损失函数Lre、感知损失函数Lprec和对抗损失函数Iadv。
生成器网络的整体损失函数为LG=λ1Lre+λ2Lprec+λ3Ladv,对生成器网络模型参数进行梯度更新,本实施例中,λ1=1,λ2=0.2,λ3=2。
步骤308:重复步骤303~步骤307,迭代更新生成器网络和鉴别器网络,直至生成器和鉴别器的损失函数的值稳定,得到最优的网络模型。
将所述待修复图像输入至训练得到的基于门控卷积和上下文注意力机制的改进的生成对抗网络中,在生成器中执行一次前向传播,得到有效修复后的图像。本实施例中,输出的修复图像尺寸会被调整为256×256。图5展示了2组使用基于门控和上下文注意力机制的生成对抗网络的无引导的图像修复结果图,图6展示了2组使用基于门控和上下文注意力机制的生成对抗网络的有引导的图像修复结果图,可以看出修复图像具有较好的真实性和纹理清晰性。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (10)
1.一种基于门控和上下文注意力机制的图像修复方法,其特征在于,该方法为:
对所采用的可见光数据集图像及其轮廓图像乘以二进制掩膜M,分别得到降质后的缺失图像和辅助信息图像;
通过所述降质后的缺失图像和额外的辅助信息图像构建包含真实图像、缺失图像和辅助信息图像的数据集;
通过添加感受野模块和损失函数对上下文注意力模块进行改进,构建基于门控卷积和上下文注意力机制的改进的生成对抗网络模型;
通过所述缺失图像和辅助信息图像对生成对抗网络模型进行训练,获得最优的生成对抗网络模型;
将待修复输入到最优的生成对抗网络模型中,获得有效修复图像。
2.根据权利要求1所述的基于门控和上下文注意力机制的图像修复方法,其特征在于,所述对所采用的可见光数据集图像及其轮廓图像乘以二进制掩膜M,分别得到降质后的缺失图像和辅助信息图像,具体为:所述将原始的完整图像X0及其轮廓图X1乘以二进制掩码M,分别得到降质后的缺失图像和辅助信息图像。
4.根据权利要求3所述的基于门控和上下文注意力机制的图像修复方法,其特征在于,所述基于门控卷积和上下文注意力机制的改进的生成对抗网络模型包括生成器和鉴别器两部分;其中,所述生成器采用嵌入改进的上下文注意力模块的编解码器架构,用于改善图像修复质量,同时引入门控卷积用于处理用户添加的额外辅助信息,引导生成更符合预期的修复结果;所述鉴别器采用包括全局鉴别器和局部鉴别器的双鉴别器结构,分别用于对修复图像整体结构的一致性判断和局部区域纹理细节的合理性判断。
5.根据权利要求4所述的基于门控和上下文注意力机制的图像修复方法,其特征在于,所述通过所述缺失图像和辅助信息图像对生成对抗网络模型进行训练,获得最优的生成对抗网络模型,具体为:通过所述缺失图像和辅助信息图像对生成对抗网络模型中的生成器进行训练;通过所述生成器生成的修复图像、以及真实图像分别对抗网络模型中的鉴别器进行训练;重复所述训练过程直至生成器和鉴别器的损失函数值趋于稳定,完成训练,得到已训练完成的改进的生成对抗网络模型,将验证图像输入到已训练完成的改进的生成对抗网络模型中,选择得到最优的网络模型。
6.根据权利要求5所述的基于门控和上下文注意力机制的图像修复方法,其特征在于,所述将待修复输入到最优的生成对抗网络模型中,获得有效修复图像,具体为:
所述缺失图像XM通过生成器进行两次下采样卷积后,获得特征图X1、X2_1;
所述特征图X2_1经过6层连续的空洞卷积层的处理,获得特征图X2_2;对所述特征图X2_1和特征图X2_2拼接,并且经过1层1×1卷积调整通道数至上下文注意力模块的原始输入通道大小得到特征图X2_3,送入SE模块进行通道域均衡化,得到特征图X2_4,最后进入上下文注意力模块进行注意力机制的运算,获得输出特征图Xca,将Xca和X2_2进行特征融合,得到特征图X2;
对所述特征图X2经过4层下采样卷积,获得特征图X3、X4、X5、X6;
将所述特征图X6的低层特征与高层特征通过残差连接,获得特征图X7;
所述特征图X7经过第一层反卷积,获得特征图X′1,
将所述特征图Xi和反卷积得到的特征图X′6-i(i=5,4,3,2,1)进行特征融合,再输入下一反卷积层进行上采样,最终获得的特征图与输入图像大小相同,即得到修复图像Y′。
7.根据权利要求6所述的基于门控和上下文注意力机制的图像修复方法,其特征在于,所述特征图X2_1经过6层连续的空洞卷积层的处理,获得特征图X2_2,具体为:将连续空洞卷积层的膨胀率设置为[1,2,5,1,2,5]结构,可满足HDC结构设计的前2个特性,再对M2的取值进行验证:
M2=max[M3-2r2,-M3+2r2,r2]=max[1,-1,2]
其中,空洞卷积层使用的卷积核尺寸K=4,则M2=2≤K=4满足要求,即该膨胀率的设置符合HDC设计结构。
8.根据权利要求7所述的基于门控和上下文注意力机制的图像修复方法,其特征在于,所述对所述特征图X2_1和特征图X2_2拼接,得到特征图X2_3,并且经过1层1×1卷积调整通道数至上下文注意力模块的原始输入通道大小,将其送入SE模块进行通道域均衡化,得到特征图X2_4,最后进入上下文注意力模块进行注意力机制的运算,获得输出特征图Xca,将Xca和X2_2进行特征融合后,得到特征图X2,具体为:将输入特征图X2_4复制为两份,分别作为前景图像和背景图像,然后将背景图像在宽和高两个维度上进行均匀切割,分成多个背景块,对该批量的每张图像单独处理,取wgroups中对应的维度为[l,c,k,k]的样本块进行归一化处理,作为卷积层的权重参数对前景图像进行卷积运算,等同于采用标准化内积即余弦相似度来衡量前景图像特征与每个背景块特征的契合程度,得到的契合度矩阵记作score,相似度计算公式为:
通过对score矩阵进行卷积操作,实现利用周边像素的相似度影响来更正当前像素的注意力得分,接着使用初始的wgroups构建出对应的背景块作为卷积核,对更正后的score矩阵进行转置卷积,得到当前图像的修复结果,最后合并该批量的所有修复结果,得到输出特征图Xca;
采用VGG-16第2-2层激活层对真实图像进行特征提取,利用损失函数约束缺失像素的重建过程,损失函数Lca具体表示为:
Lca=||Xca-Ψ2_2(X0)||1
其中,Ψ2_2(X0)表示预先训练好的网络模型VGG-16对于真实图像X0的第2-2层激活特征图,Xca表示上下文注意力模块的输出特征图,||||1表示L1距离的计算。
9.根据权利要求8所述的基于门控和上下文注意力机制的图像修复方法,其特征在于,对所述特征图X2经过4层下采样卷积,获得特征图X3、X4、X5、X6;
将所述特征图X6的低层特征与高层特征通过残差连接,获得特征图X7;
所述特征图X7经过第一层反卷积,获得特征图X′1,
将所述特征图Xi和反卷积得到的特征图X′6-i(i=5,4,3,2,1)进行特征融合,再输入下一反卷积层进行上采样,最终获得的特征图与输入图像大小相同,即得到修复图像Y′。
10.根据权利要求9所述的基于门控和上下文注意力机制的图像修复方法,其特征在于,该方法还包括对所述修复图像进行验证,对所述修复图像Y′和真实图像X0通过对两张图像分别进行下采样操作,提取出各自的高级语义特征,然后根据损失函数计算出全局损失Lossglobal,根据所述全局损失Lossglobal判断修复图像与真实图像是否相似;将真实图像和修复图像中已知区域内的像素都置为0,得到只保留了修复区域的修复图像Y′local和真实图像X0_local,然后根据局部损失函数计算出局部损失Losslocal,根据所述局部损失Losslocal判断修复图像与真实图像是否相似。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111019820.1A CN113989129A (zh) | 2021-09-01 | 2021-09-01 | 基于门控和上下文注意力机制的图像修复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111019820.1A CN113989129A (zh) | 2021-09-01 | 2021-09-01 | 基于门控和上下文注意力机制的图像修复方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113989129A true CN113989129A (zh) | 2022-01-28 |
Family
ID=79735312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111019820.1A Pending CN113989129A (zh) | 2021-09-01 | 2021-09-01 | 基于门控和上下文注意力机制的图像修复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113989129A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511463A (zh) * | 2022-02-11 | 2022-05-17 | 陕西师范大学 | 一种数字图像修复方法、装置、设备及可读存储介质 |
CN114627006A (zh) * | 2022-02-28 | 2022-06-14 | 复旦大学 | 一种基于深度解耦网络的渐进式图像修复方法 |
CN114638814A (zh) * | 2022-03-29 | 2022-06-17 | 华南农业大学 | 基于ct图像的结直肠癌自动分期方法、***、介质及设备 |
CN114897742A (zh) * | 2022-06-10 | 2022-08-12 | 重庆师范大学 | 一种纹理和结构特征两次融合的图像修复方法 |
CN116863032A (zh) * | 2023-06-27 | 2023-10-10 | 河海大学 | 一种基于生成对抗网络的洪涝灾害场景生成方法 |
CN117455813A (zh) * | 2023-11-15 | 2024-01-26 | 齐鲁工业大学(山东省科学院) | 基于门控卷积和scpam注意力模块的遮挡手写病历汉字图像修复方法 |
CN117611753A (zh) * | 2024-01-23 | 2024-02-27 | 吉林大学 | 基于人工智能重建技术的面部整形修复辅助***及方法 |
CN117974832A (zh) * | 2024-04-01 | 2024-05-03 | 南昌航空大学 | 基于生成对抗网络的多模态肝脏医学图像扩充算法 |
CN118072377A (zh) * | 2024-04-23 | 2024-05-24 | 成都菲宇文化科技集团有限公司 | 人脸识别方法、装置、设备及存储介质 |
-
2021
- 2021-09-01 CN CN202111019820.1A patent/CN113989129A/zh active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511463A (zh) * | 2022-02-11 | 2022-05-17 | 陕西师范大学 | 一种数字图像修复方法、装置、设备及可读存储介质 |
CN114511463B (zh) * | 2022-02-11 | 2024-04-02 | 陕西师范大学 | 一种数字图像修复方法、装置、设备及可读存储介质 |
CN114627006A (zh) * | 2022-02-28 | 2022-06-14 | 复旦大学 | 一种基于深度解耦网络的渐进式图像修复方法 |
CN114627006B (zh) * | 2022-02-28 | 2022-12-20 | 复旦大学 | 一种基于深度解耦网络的渐进式图像修复方法 |
CN114638814A (zh) * | 2022-03-29 | 2022-06-17 | 华南农业大学 | 基于ct图像的结直肠癌自动分期方法、***、介质及设备 |
CN114638814B (zh) * | 2022-03-29 | 2024-04-16 | 华南农业大学 | 基于ct图像的结直肠癌自动分期方法、***、介质及设备 |
CN114897742A (zh) * | 2022-06-10 | 2022-08-12 | 重庆师范大学 | 一种纹理和结构特征两次融合的图像修复方法 |
CN116863032B (zh) * | 2023-06-27 | 2024-04-09 | 河海大学 | 一种基于生成对抗网络的洪涝灾害场景生成方法 |
CN116863032A (zh) * | 2023-06-27 | 2023-10-10 | 河海大学 | 一种基于生成对抗网络的洪涝灾害场景生成方法 |
CN117455813A (zh) * | 2023-11-15 | 2024-01-26 | 齐鲁工业大学(山东省科学院) | 基于门控卷积和scpam注意力模块的遮挡手写病历汉字图像修复方法 |
CN117611753B (zh) * | 2024-01-23 | 2024-03-22 | 吉林大学 | 基于人工智能重建技术的面部整形修复辅助***及方法 |
CN117611753A (zh) * | 2024-01-23 | 2024-02-27 | 吉林大学 | 基于人工智能重建技术的面部整形修复辅助***及方法 |
CN117974832A (zh) * | 2024-04-01 | 2024-05-03 | 南昌航空大学 | 基于生成对抗网络的多模态肝脏医学图像扩充算法 |
CN117974832B (zh) * | 2024-04-01 | 2024-06-07 | 南昌航空大学 | 基于生成对抗网络的多模态肝脏医学图像扩充算法 |
CN118072377A (zh) * | 2024-04-23 | 2024-05-24 | 成都菲宇文化科技集团有限公司 | 人脸识别方法、装置、设备及存储介质 |
CN118072377B (zh) * | 2024-04-23 | 2024-06-21 | 成都菲宇文化科技集团有限公司 | 人脸识别方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113989129A (zh) | 基于门控和上下文注意力机制的图像修复方法 | |
CN113240580B (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
CN113962893A (zh) | 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法 | |
CN113240613A (zh) | 一种基于边缘信息重建的图像修复方法 | |
CN114627006B (zh) | 一种基于深度解耦网络的渐进式图像修复方法 | |
CN109447897B (zh) | 一种真实场景图像合成方法及*** | |
CN116258652B (zh) | 基于结构注意和文本感知的文本图像修复模型及方法 | |
CN112686817B (zh) | 一种基于不确定性估计的图像补全方法 | |
CN113902630A (zh) | 基于多尺度纹理特征分支的生成对抗网络图像修复方法 | |
CN113284100A (zh) | 基于恢复图像对混合域注意力机制的图像质量评价方法 | |
CN112801914A (zh) | 一种基于纹理结构感知的二段式图像修复方法 | |
CN114638768B (zh) | 一种基于动态关联学习网络的图像去雨方法、***及设备 | |
CN114782265A (zh) | 基于对抗多尺度与残差多通道空间注意力的图像修复方法 | |
CN113936318A (zh) | 一种基于gan人脸先验信息预测和融合的人脸图像修复方法 | |
CN116524307A (zh) | 一种基于扩散模型的自监督预训练方法 | |
CN113837290A (zh) | 一种基于注意力生成器网络的无监督非成对图像翻译方法 | |
CN113487512B (zh) | 一种基于边缘信息指导的数字图像修复方法及装置 | |
CN111260585A (zh) | 基于类凸集投影算法的图像恢复方法 | |
Liu et al. | Facial image inpainting using multi-level generative network | |
CN117689592A (zh) | 一种基于级联自适应网络的水下图像增强方法 | |
CN114494387A (zh) | 一种生成数据集网络模型及雾图生成方法 | |
CN113096015A (zh) | 基于渐进式感知和超轻量级网络的图像超分辨率重建方法 | |
CN116823610A (zh) | 一种基于深度学习的水下图像超分辨率生成方法和*** | |
CN116778165A (zh) | 基于多尺度自适应语义分割的遥感影像灾害检测方法 | |
CN116402702A (zh) | 基于深度神经网络的老照片修复方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |