CN116739950A - 一种图像修复方法、装置、终端设备和存储介质 - Google Patents

一种图像修复方法、装置、终端设备和存储介质 Download PDF

Info

Publication number
CN116739950A
CN116739950A CN202310488070.5A CN202310488070A CN116739950A CN 116739950 A CN116739950 A CN 116739950A CN 202310488070 A CN202310488070 A CN 202310488070A CN 116739950 A CN116739950 A CN 116739950A
Authority
CN
China
Prior art keywords
image
repaired
quantized
sample
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310488070.5A
Other languages
English (en)
Inventor
滕建新
刘勤山
何杰锋
袁锦春
黄研
彭育新
王员根
李子轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Broadcasting Network
Guangzhou University
Original Assignee
Guangzhou Broadcasting Network
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Broadcasting Network, Guangzhou University filed Critical Guangzhou Broadcasting Network
Priority to CN202310488070.5A priority Critical patent/CN116739950A/zh
Publication of CN116739950A publication Critical patent/CN116739950A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/10Image enhancement or restoration using non-spatial domain filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0495Quantised networks; Sparse networks; Compressed networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种图像修复方法、装置、终端设备和存储介质,所述方法包括:将待修复图像输入到图像修复模型中,以使图像修复模型中自编码器模块对所述待修复图像的特征向量进行提取,并生成目标特征图;图像修复模型中非量化Transformer模块预测出目标特征图中缺失区域的潜在向量,在得到已知区域的特征向量对应的第一量化特征向量和潜在向量对应的第二量化特征向量后,自编码器模块中的解码器根据第一量化特征向量和第二量化特征向量对待修复图像中的缺失区域进行重建,生成已修复图像。本发明的解码器引入了FFC残差块,可以更加精准地捕捉到全局的信息以及缺失的细节信息,提高了图像修复的质量。

Description

一种图像修复方法、装置、终端设备和存储介质
技术领域
本发明涉及图像/视频修复领域技术领域,尤其涉及一种图像修复方法、装置、终端设备和存储介质。
背景技术
图像修复的过程是一个通过利用图像中的可用信息(如纹理、结构以及其他的有效数据)来预测并修复图像中缺失的区域,以创建一个高质量的以及视觉上类似于原始图像的任务过程。
近年来,利用卷积神经网络(CNN)优化Transformer(也称为混合模型)在图像修复领域取得了巨大的进展,然而在处理具有大型缺失区域的待修复图像时,现有技术在图像修复模型的卷积模块的选取上选择了传统的卷积方法,而传统卷积存在感受野受限的问题,特别是在处理具有高分辨率或复杂场景的图像时,传统卷积只能在空域上进行线性操作,而且每一次卷积操作只能处理较小的局部感受野,从而导致图像修复模型出现难以捕捉全局信息以及缺失对细节信息的把握等问题,降低了图像修复的质量。
发明内容
本发明实施例提供一种图像修复方法、装置、终端设备和存储介质,能有效解决现有技术中传统卷积只能在空域上进行线性操作,而且每一次卷积操作只能处理较小的局部感受野,从而导致图像修复模型出现难以捕捉全局信息以及缺失对细节信息的把握等问题,降低了图像修复的质量的问题。
本发明一实施例提供一种图像修复方法,包括:
获取待修复图像;其中,所述待修复图像包括已知区域和缺失区域;
将所述待修复图像输入到图像修复模型中,以使图像修复模型对所述待修复图像中的缺失区域进行重建,生成已修复图像;
其中,所述图像修复模型包括自编码器模块和非量化Transformer模块;
所述自编码器模块中的编码器,用于对所述待修复图像的特征向量进行提取,并将若干特征向量组合,生成目标特征图;
所述非量化Transformer模块,用于根据目标特征图中缺失区域所对应的特征向量,预测出目标特征图中缺失区域的潜在向量;
所述自编码器模块中的矢量量化双码本模块,用于对已知区域的特征向量进行量化以及对所述潜在向量进行量化,得到已知区域的特征向量对应的第一量化特征向量和潜在向量对应的第二量化特征向量;
所述自编码器模块中融合了FFC残差块的解码器,用于根据矢量量化双码本模块中储存的第一量化特征向量和第二量化特征向量对待修复图像中的缺失区域进行重建,生成所述待修复图像对应的已修复图像。
优选地,在将所述待修复图像输入到图像修复模型之前,还包括:
将所述待修复图像的所有区域划分为若干补丁区域。
所述自编码器模块中的编码器,用于对所述待修复图像的特征向量进行提取,并将若干特征向量组合,生成目标特征图,具体包括:
所述自编码器模块中的编码器,用于以非重叠块方式并通过多个线性层对若干补丁区域进行处理,得到每一补丁区域对应的特征向量,并将若干特征向量组合,生成目标特征图。
优选地,所述自编码器模块还包括:矢量量化双码本模块;
在得到已知区域的特征向量对应的第一量化特征向量和潜在向量对应的第二量化特征向量后,还包括:
所述矢量量化双码本模块对所述待修复图像中已知区域对应的第一量化特征向量和缺失区域对应的第二量化特征向量分别进行标记。
优选地,所述根据矢量量化双码本模块中储存的第一量化特征向量和第二量化特征向量对待修复图像中的缺失区域进行重建,生成所述待修复图像对应的已修复图像,具体包括:
解码器中的FFC残差块通过局部分支来使用传统的卷积对所有量化特征向量的局部特征进行提取得到局部特征,并通过全局分支对所有量化特征向量在全局上下文的频谱域中的特征进行提取得到全局特征;
将局部特征和全局特征进行融合,得到融合特征;
解码器根据所述融合特征,对待修复图像中的缺失区域进行重建,生成所述待修复图像对应的已修复图像。
优选地,所述图像修复模型的训练过程包括:
重复执行如下图像修复模型的训练操作,直至判定图像修复模型收敛:
获取样本待修复图像和所述样本待修复图对应的样本已修复图像;
将所述样本待修复图像输入到图像修复模型中,以使图像修复模型的自编码器模块中的编码器对所述样本待修复图像的特征向量进行提取,并将若干特征向量组合,生成样本特征图;
图像修复模型中的非量化Transformer模块根据样本特征图中缺失区域所对应的特征向量,预测出样本特征图中缺失区域的样本潜在向量;
图像修复模型的自编码器模块中的矢量量化双码本模块对样本特征图中的已知区域的特征向量进行量化以及对所述样本潜在向量进行量化,得到样本特征图中的已知区域的特征向量对应的样本第一量化特征向量和样本潜在向量对应的样本第二量化特征向量;
融合了FFC残差块的解码器根据矢量量化双码本模块中储存的样本第一量化特征向量和样本第二量化特征向量对样本待修复图像中的缺失区域进行重建,生成所述样本待修复图像对应的预测已修复图像;
将所述预测已修复图像与样本已修复图像进行比对,在根据比对结果判定图像修复模型未收敛时,获取更新后的样本待修复图像及对应的样本已待修复图像。
优选地,在对图像修复模型进行训练时,还包括:
根据重建损失函数对图像修复模型中的编码器模块进行更新;其中,所述重建损失函数由像素损失函数、梯度损失函数、对抗性损失函数、感知损失函数和风格损失函数组成;
根据以下公式计算得到所述像素损失函数:
其中,为像素损失函数,/>为样本待修复图像,/>为样本待修复图像对应的样本已修复图像,/>表示元素减法运算,/>表示均值运算;
根据以下公式计算得到所述梯度损失函数:
其中,为梯度损失函数,grad[·]表示计算图像梯度的函数;
根据以下公式计算所述对抗性损失函数:
其中,为对抗性损失函数,Dadv(·)为判别器网络对应的函数;
根据以下公式计算所述感知损失函数:
其中,为感知损失函数;
根据以下公式计算所述风格损失函数:
其中,为风格损失函数,G(·)为获取参数的Gram矩阵;
根据以下公式计算得到重建损失函数:
其中,为重建损失函数,λg第一预设参数,λa为第二预设参数,λp为第三预设参数,λs为第四预设参数。
优选地,在对图像修复模型进行训练时,还包括:
根据交叉熵损失函数对图像修复模型中的非量化Transformer模块进行更新;
其中,所述交叉熵损失函数的表示如下:
其中,Ltrans为交叉熵损失函数,为非量化Transformer模块预测出目标特征图中缺失区域的潜在向量的分布概率,/>为编码器函数,m为二进制掩码,当mi,j=0表示(i,j)处的像素缺失,当mi,j=1表示(i,j)处的像素有效。
在上述的方法实施例的基础上,本发明对应提供了装置项实施例。
本发明一实施例提供了一种图像修复装置,包括:待修复图像获取模块和已修复图像生成模块;
所述待修复图像获取模块,用于获取待修复图像;其中,所述待修复图像包括已知区域和缺失区域;
所述已修复图像生成模块,用于将所述待修复图像输入到图像修复模型中,以使图像修复模型对所述待修复图像中的缺失区域进行重建,生成已修复图像;
其中,所述图像修复模型包括自编码器模块和非量化Transformer模块;
所述自编码器模块中的编码器,用于对所述待修复图像的特征向量进行提取,并将若干特征向量组合,生成目标特征图;
所述非量化Transformer模块,用于根据目标特征图中缺失区域所对应的特征向量,预测出目标特征图中缺失区域的潜在向量;
所述自编码器模块中的矢量量化双码本模块,用于对已知区域的特征向量进行量化以及对所述潜在向量进行量化,得到已知区域的特征向量对应的第一量化特征向量和潜在向量对应的第二量化特征向量;
所述自编码器模块中融合了FFC残差块的解码器,用于根据矢量量化双码本模块中储存的第一量化特征向量和第二量化特征向量对待修复图像中的缺失区域进行重建,生成所述待修复图像对应的已修复图像。
在上述的方法实施例的基础上,本发明对应提供了终端设备项实施例。
本发明另一实施例提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述发明实施例所述的一种图像修复方法。
在上述的方法实施例的基础上,本发明对应提供了存储介质项实施例。
本发明另一实施例提供了一种存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述发明实施例所述的一种图像修复方法。
通过实施本发明具有如下有益效果:
本发明实施例提供了一种图像修复方法、装置、终端设备和存储介质,本发明将待修复图像输入到图像修复模型中,以使图像修复模型中自编码器模块中的编码器对所述待修复图像的特征向量进行提取,并将若干特征向量组合,生成目标特征图;进一步的,图像修复模型中非量化Transformer模块,可以根据目标特征图中缺失区域所对应的特征向量,预测出目标特征图中缺失区域的潜在向量,在得到已知区域的特征向量对应的第一量化特征向量和潜在向量对应的第二量化特征向量后,自编码器模块中的解码器,可以根据第一量化特征向量和第二量化特征向量对待修复图像中的缺失区域进行重建;其中,本发明的自编码器模块中的解码器不仅可以根据非量化Transformer模块修复的潜在向量来恢复缺失区域中的内容,而且还保持待修复图像的已知区域的内容不变,而在根据若干量化特征向量对待修复图像中的缺失区域进行重建时,本发明的解码器引入了FFC残差块来对待修复图像进行重建,而FFC残差块可以通过全局分支对特征图进行傅里叶变换,并在影响全局上下文的频谱域内进行更新,相比于传统卷积只能在空域上的线性操作,每一次卷积操作只能处理较小的局部感受野,本发明的FFC残差块可以在频域(复数空间)上进行线性操作,特别是处理具有高分辨率或复杂场景的图像时,可以让卷积操作更有效地处理全局的感受野使得模型在网络的较浅层中便能获得覆盖图像全局的感受野,而感受野的增加能够使得捕捉到的图像信息更加丰富,即更加精确的捕获图像中的细节信息,从而可以使得本发明的FFC残差块在对待修复图像进行重建时,可以提高缺失区域预测的准确性,使得最终生成的已修复图像更加还原与真实,即本发明的图像修复模型可以更加精准地捕捉到全局的信息以及缺失的细节信息,提高了图像修复的质量。
附图说明
图1是本发明一实施例提供的一种图像修复方法的流程示意图。
图2是本发明一实施例提供的图像修复模型的结构示意图。
图3是本发明一实施例提供的一种图像修复装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,是本发明一实施例提供的一种图像修复方法的流程示意图;
本发明一实施例提供了的一种图像修复方法,包括:
步骤S1:获取待修复图像;其中,所述待修复图像包括已知区域和缺失区域;
步骤S2:将所述待修复图像输入到图像修复模型中,以使图像修复模型对所述待修复图像中的缺失区域进行重建,生成已修复图像;其中,所述图像修复模型包括自编码器模块和非量化Transformer模块;
所述自编码器模块中的编码器,用于对所述待修复图像的特征向量进行提取,并将若干特征向量组合,生成目标特征图;
所述非量化Transformer模块,用于根据目标特征图中缺失区域所对应的特征向量,预测出目标特征图中缺失区域的潜在向量;
所述自编码器模块中的矢量量化双码本模块,用于对已知区域的特征向量进行量化以及对所述潜在向量进行量化,得到已知区域的特征向量对应的第一量化特征向量和潜在向量对应的第二量化特征向量;
所述自编码器模块中融合了FFC残差块的解码器,用于根据矢量量化双码本模块中储存的第一量化特征向量和第二量化特征向量对待修复图像中的缺失区域进行重建,生成所述待修复图像对应的已修复图像。
对于步骤S1,在一个优选的实施例中,获取一个包括已知区域和缺失区域的待修复图像;需要说明的是,缺失区域为被掩码所屏蔽的区域;
在一个优选的实施例中,将所述待修复图像输入到图像修复模型之前,还包括:
将所述待修复图像的所有区域划分为若干补丁区域。示意性的,每个补丁区域的像素为大小为8*8。
对于步骤S2,在一个优选的实施例中,将所述待修复图像输入到图像修复模型中,以使图像修复模型对所述待修复图像中的缺失区域进行重建,生成已修复图像;
具体的,如图2所示,所述图像修复模型包括自编码器模块和非量化Transformer模块;
所述自编码器模块中的编码器包括编码器P-Enc(Patch-based Encoder)、矢量量化双码本模块D-Codes(Dual-Codebook)和解码器RR-Dec(Resolution-Robust Decoder);
所述自编码器模块中的编码器P-Enc,用于对所述待修复图像的特征向量进行提取,并将若干特征向量组合,生成目标特征图;
其中,编码器P-Enc以非重叠块方式并通过多个线性层对若干补丁区域进行处理,得到每一补丁区域对应的特征向量,传统的CNN编码器利用多个卷积核以滑动窗口的方式处理输入图像,与传统的基于CNN的编码器相比,本发明的编码器P-Enc对于输入图像的处理采取了独特的方式,其以非重叠块方式通过多个线性层处理输入图像,这种设计更加适用于图像修复,因为它避免了在缺失区域和已知区域之间引入干扰,使得图像修复的效果更好。
所述自编码器模块的矢量量化双码本模块D-Codes对所述待修复图像中已知区域对应的量化特征向量和缺失区域对应的量化特征向量分别进行标记;具体的,矢量量化双码本模块D-Codes是一种有效表示高维向量的方法,在模型中量化的特征向量被表示为两个码本的组合,分别存储已知区域和缺失区域中量化的特征向量的标记,即e和e';这进一步消除了缺失补丁和已知补丁之间的差异,从而在模型预测缺失补丁的特征时能够产生更合理的结果。
在一个优选的实施例中,所述非量化Transformer模块,用于根据目标特征图中缺失区域所对应的特征向量,预测出目标特征图中缺失区域的潜在向量;其中,非量化Transformer模块也称为UQ-Transformer模型;
具体的,将自编码器模块生成目标特征图直接作为非量化Transformer模块的输入,可以避免下采样以及量化过程中造成的信息损失问题,使得UQ-Transformer模型可以直接使用来自P-Enc的基于补丁的特征向量作为输入来预测缺失区域的潜在向量时可以更加准确地预测出对应的潜在向量;即将未量化的图像特征直接作为UQ-Transformer模型的输入,保证输入的受损图像在尽可能保留信息的前提下完成图像的重建。
本发明的UQ-Transformer模型的核心机制是self-attention机制,让模型权衡特征向量中不同元素的重要性,并根据加权和进行预测这些元素。还通过自注意力机制被实现为一系列并行的多头注意力层,它们关注输入序列的不同部分,然后将这些注意力层的输出连接起来,并通过前馈层进行转换,以产生最终的输出表示。
在一个优选的实施例中,所述自编码器模块中的解码器RR-Dec,对UQ-Transformer模型输出的潜在向量进行量化,得到潜在向量对应的量化特征向量,对已知区域的特征向量进行量化得到第一量化特征向量,对所述潜在向量进行量化得到第二量化特征向量;
将第一量化特征向量和第二量化特征向量输入至解码器中,以使解码器根据第一量化特征向量和第二量化特征向量对待修复图像中的缺失区域进行重建,生成所述待修复图像对应的已修复图像。
示意性的,解码器RR-Dec不仅从修复的标记中恢复缺失区域中的内容,而且还保持已知区域中的内容不变。该解码器由一个主分支和一个参考分支结构组成:主分支中使用多个反卷积层生成修复图像,而参考分支从待修复图像中提取多尺度特征图,参考分支所获得的特征图通过一个掩码引导添加模块(MGA)与主分支的特征进行融合,从而使得待修复图像中的已知像素可以用于恢复/>中的相应像素,而缺失区域中预测得到的量化向量用于恢复被掩码m所遮蔽的未知区域。具体公式表达如下所示:
其中和/>分别表示主分支和参考分支上的特征,空间大小为/>(0≤l≤log2r),而ml表示对应于以上空间大小的二进制掩码,数值为1时表示为已知区域,数值为0则表示该区域中存在缺失像素。
本发明在解码器RR-Dec中引入了FFC残差块,使得解码器与原来相比在网络较浅的层中便获得覆盖图像全局的感受野,有效感受野的增加使得解码器能够捕捉到的图像信息更加丰富,对于图像的细节有了更加精确的捕获,这将提高在图像修复时预测缺失区域中的内容的准确性。
FFC残差块是基于通道快速傅里叶变换(FFT),它将通道分成两个并行分支:局部分支使用传统卷积处理局部特征,全局分支使用FFT来分析全局上下文特征FFC与传统卷积的一个重要区别在于它们处理数据的方式不同:传统卷积是在空域上的线性操作,每一次卷积操作只能处理较小的局部感受野;而FFC是在频域(复数空间)上的线性操作,它可以让卷积操作更有效地处理全局的感受野。这是因为在频域中所有的信息都被高效地表示为一系列的复数分量,FFC操作可以通过简单的乘法和加法的操作来组合这些分量,从而简化卷积运算的过程。因此,本发明的解码器可以通过快速傅里叶变换将数据从时域转换到频域,再进行卷积操作,可以比传统卷积更快速地获得全局的感受野,最后局部分支和全局分支相融合并输出,得到融合特征,从而可以使得解码器RR-Dec可以根据所述融合特征,对待修复图像中的缺失区域进行重建,生成所述待修复图像对应的已修复图像。
现有技术的Transformer出于效率的考虑,会将输入图像的下采样到更低的分辨率,并且量化到较小的像素空间,这两个步骤会导致图像出现严重的信息损失,并且这种信息损失是很难通过后续的细化网络弥补的,给图像修复工作带来了严重的危害,尽管已经存在了利用auto-encoder优化Transformer,使得其不再需要对图像进行下采样与量化,但是其中使用的仍然是传统的卷积方式,其明显存在一个感受野受限的问题,这在一定程度上限制了混合模型的潜能,导致模型无论是对全局结构还是细节信息都缺乏一个有效的学习过程。而本发明可以提高混合模型中传统卷积带来的感受野受限问题,同时又保持了Transformer计算的效率,本发明的模型设计了一个自编码器模块(P-VQVAE+)模块,在原有的auto-encoder架构中引入FFC残差块,取缔掉原有的传统卷积残差块,并将自编码器模块与UQ-Transformer结合,使得最终的图像修复模型在早期的网络层中便实现覆盖整个图像的感受野,即使得修复模型获得了大且有效感受野,有效地减少了在重建图像时的信息损失,以输出更加还原图像的已修复图像;同时也使得模型使用较少的训练数据和计算,便能实现性能的提升。
在一个优选的实施例中,所述图像修复模型的训练过程包括:
重复执行如下图像修复模型的训练操作,直至判定图像修复模型收敛:
获取样本待修复图像和所述样本待修复图对应的样本已修复图像;
将所述样本待修复图像输入到图像修复模型中,以使图像修复模型的自编码器模块中的编码器对所述样本待修复图像的特征向量进行提取,并将若干特征向量组合,生成样本特征图;
图像修复模型中的非量化Transformer模块根据样本特征图中缺失区域所对应的特征向量,预测出样本特征图中缺失区域的样本潜在向量;
图像修复模型的自编码器模块中的矢量量化双码本模块对样本特征图中的已知区域的特征向量进行量化以及对所述样本潜在向量进行量化,得到样本特征图中的已知区域的特征向量对应的样本第一量化特征向量和样本潜在向量对应的样本第二量化特征向量;
融合了FFC残差块的解码器根据矢量量化双码本模块中储存的样本第一量化特征向量和样本第二量化特征向量对样本待修复图像中的缺失区域进行重建,生成所述样本待修复图像对应的预测已修复图像;
将所述预测已修复图像与样本已修复图像进行比对,在根据比对结果判定图像修复模型未收敛时,获取更新后的样本待修复图像及对应的样本已待修复图像。
在一个优选的实施例中,在对图像修复模型进行训练时,还包括:
根据重建损失函数对图像修复模型中的编码器模块进行更新;其中,所述重建损失函数由像素损失函数、梯度损失函数、对抗性损失函数、感知损失函数和风格损失函数组成;
根据以下公式计算得到所述像素损失函数:
其中,为像素损失函数,/>为样本待修复图像,/>为样本待修复图像对应的样本已修复图像,/>表示元素减法运算,/>表示均值运算;
根据以下公式计算得到所述梯度损失函数:
其中,为梯度损失函数,grad[·]表示计算图像梯度的函数;
根据以下公式计算所述对抗性损失函数:
其中,为对抗性损失函数,/>为判别器网络对应的函数;
根据以下公式计算所述感知损失函数:
其中,为感知损失函数;
根据以下公式计算所述风格损失函数:
其中,为风格损失函数,G(·)为获取参数的Gram矩阵;
根据以下公式计算得到重建损失函数:
其中,为重建损失函数,λg第一预设参数,λa为第二预设参数,λp为第三预设参数,λs为第四预设参数;
重建损失是一个用于计算输入图像/>与重建图像之间的差异/>的函数,它由五部分组成,包括L1损失/>两幅图像的梯度/>对抗性损失/>感知损失和风格损失/>在一个优选的实施例中,λg=5,λa=0.1,λp=0.1,λs=250。
编码器模块的最终损失函数为:
Lvae为最终损失函数,为优化潜在向量的码本损失向量,/> 为从解码器到编码器的梯度信息的承诺损失,α为权重参数。
在一个优选的实施例中,在对图像修复模型进行训练时,还包括:
根据交叉熵损失函数对图像修复模型中的非量化Transformer模块进行更新;
其中,所述交叉熵损失函数的表示如下:
其中,Ltrans为交叉熵损失函数,为非量化Transformer模块预测出目标特征图中缺失区域的潜在向量的分布概率,/>为编码器函数,m为二进制掩码,当mi,j=0表示(i,j)处的像素缺失,当mi,j=1表示(i,j)处的像素有效。/> 表示第一个参数的token,通过/>获取/>中所有量化向量的索引得到,O(·)将给定的参数值设置为1。本发明可以同时整合利用CNN在纹理结构等信息上的强大建模能力Transformer在长距离关系上的强大建模能力,使得模型在修复具有大型缺失区域的高分辨率图像时能够恢复出更加细节的图像信息,同时也能够保证修复结果在视觉上是合理的。
本发明可以用auto-encoder取缔掉对图像进行下采样和量化的操作,即将未量化的图像特征直接作为UQ-Transformer模型的输入,保证输入的受损图像在尽可能保留信息的前提下完成图像的重建。解决了在使用Transformer进行图像修复工作,为了实现计算效率的提升而带来的严重的信息损失的问题,本发明可以保证整体模型在使用较少数据量和较低的计算复杂度的同时仍能实现修复效果的提升。
本发明还在混合模型中引入FFC残差块,使得模型在网络的较浅层中便能获得覆盖图像全局的感受野,感受野的增加能够捕捉到的图像信息更加丰富,更加精确的捕获图像中的细节信息,提高缺失区域预测的准确性。同时选取的数据集均采用了所有的训练数据和测试数据,证明模型在各种场景下的修复结果均得到了提升,特别是在图像存在大型的缺失区域时,提升的效果尤为突出,由于本发明引入了FFC残差块,对于一些具有周期性结构的图片我们的模型能够更好地抽取有效的信息用于图像修复,使得修复的结果更加符合人眼的观感,即模型在修复人造环境中的重复性结构时也能够获得优秀的结果。
如图3所示,在上述各种图像修复方法的实施例的基础上,本发明对应提供了装置项实施例;
本发明一实施例提供了一种图像修复装置,包括:待修复图像获取模块和已修复图像生成模块;
所述待修复图像获取模块,用于获取待修复图像;其中,所述待修复图像包括已知区域和缺失区域;
所述已修复图像生成模块,用于将所述待修复图像输入到图像修复模型中,以使图像修复模型对所述待修复图像中的缺失区域进行重建,生成已修复图像;
其中,所述图像修复模型包括自编码器模块和非量化Transformer模块;
所述自编码器模块中的编码器,用于对所述待修复图像的特征向量进行提取,并将若干特征向量组合,生成目标特征图;
所述非量化Transformer模块,用于根据目标特征图中缺失区域所对应的特征向量,预测出目标特征图中缺失区域的潜在向量;
所述自编码器模块中的矢量量化双码本模块,用于对已知区域的特征向量进行量化以及对所述潜在向量进行量化,得到已知区域的特征向量对应的第一量化特征向量和潜在向量对应的第二量化特征向量;
所述自编码器模块中融合了FFC残差块的解码器,用于根据矢量量化双码本模块中储存的第一量化特征向量和第二量化特征向量对待修复图像中的缺失区域进行重建,生成所述待修复图像对应的已修复图像。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
所属领域的技术人员可以清楚地了解到,为的方便和简洁,上述描述的装置的具体工作过程,可参考前述方法实施例中对应的过程,在此不再赘述。
在上述各种图像修复方法的实施例的基础上,本发明对应提供了终端设备项实施例。
本发明一实施例提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现本发明任意一方法项实施例所述的一种图像修复方法。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算终端设备。所述终端设备可包括,但不仅限于,处理器、存储器。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。
所述存储器可用于存储所述计算机程序,所述处理器通过运行或执行存储在所述存储器内的计算机程序,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。
在上述各种图像修复方法的实施例的基础上,本发明对应提供了存储介质项实施例。
本发明一实施例提供了一种存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行本发明任意一方法项实施例所述的一种图像修复方法。
所述存储介质为计算机可读存储介质,所述计算机程序存储在所述计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种图像修复方法,其特征在于,包括:
获取待修复图像;其中,所述待修复图像包括已知区域和缺失区域;
将所述待修复图像输入到图像修复模型中,以使图像修复模型对所述待修复图像中的缺失区域进行重建,生成已修复图像;
其中,所述图像修复模型包括自编码器模块和非量化Transformer模块;
所述自编码器模块中的编码器,用于对所述待修复图像的特征向量进行提取,并将若干特征向量组合,生成目标特征图;
所述非量化Transformer模块,用于根据目标特征图中缺失区域所对应的特征向量,预测出目标特征图中缺失区域的潜在向量;
所述自编码器模块中的矢量量化双码本模块,用于对已知区域的特征向量进行量化以及对所述潜在向量进行量化,得到已知区域的特征向量对应的第一量化特征向量和潜在向量对应的第二量化特征向量;
所述自编码器模块中融合了FFC残差块的解码器,用于根据矢量量化双码本模块中储存的第一量化特征向量和第二量化特征向量对待修复图像中的缺失区域进行重建,生成所述待修复图像对应的已修复图像。
2.如权利要求1所述的一种图像修复方法,其特征在于,在将所述待修复图像输入到图像修复模型之前,还包括:
将所述待修复图像的所有区域划分为若干补丁区域;
所述自编码器模块中的编码器,用于对所述待修复图像的特征向量进行提取,并将若干特征向量组合,生成目标特征图,具体包括:
所述自编码器模块中的编码器,用于以非重叠块方式并通过多个线性层对若干补丁区域进行处理,得到每一补丁区域对应的特征向量,并将若干特征向量组合,生成目标特征图。
3.如权利要求1所述的一种图像修复方法,其特征在于,在得到已知区域的特征向量对应的第一量化特征向量和潜在向量对应的第二量化特征向量后,还包括:
所述矢量量化双码本模块对所述待修复图像中已知区域对应的第一量化特征向量和缺失区域对应的第二量化特征向量分别进行标记。
4.如权利要求3所述的一种图像修复方法,其特征在于,所述根据矢量量化双码本模块中储存的第一量化特征向量和第二量化特征向量对待修复图像中的缺失区域进行重建,生成所述待修复图像对应的已修复图像,具体包括:
解码器中的FFC残差块通过局部分支来使用传统的卷积对所有量化特征向量的局部特征进行提取得到局部特征,并通过全局分支对所有量化特征向量在全局上下文的频谱域中的特征进行提取得到全局特征;
将局部特征和全局特征进行融合,得到融合特征;
解码器根据所述融合特征,对待修复图像中的缺失区域进行重建,生成所述待修复图像对应的已修复图像。
5.如权利要求1所述的一种图像修复方法,其特征在于,所述图像修复模型的训练过程包括:
重复执行如下图像修复模型的训练操作,直至判定图像修复模型收敛:
获取样本待修复图像和所述样本待修复图对应的样本已修复图像;
将所述样本待修复图像输入到图像修复模型中,以使图像修复模型的自编码器模块中的编码器对所述样本待修复图像的特征向量进行提取,并将若干特征向量组合,生成样本特征图;
图像修复模型中的非量化Transformer模块根据样本特征图中缺失区域所对应的特征向量,预测出样本特征图中缺失区域的样本潜在向量;
图像修复模型的自编码器模块中的矢量量化双码本模块对样本特征图中的已知区域的特征向量进行量化以及对所述样本潜在向量进行量化,得到样本特征图中的已知区域的特征向量对应的样本第一量化特征向量和样本潜在向量对应的样本第二量化特征向量;
融合了FFC残差块的解码器根据矢量量化双码本模块中储存的样本第一量化特征向量和样本第二量化特征向量对样本待修复图像中的缺失区域进行重建,生成所述样本待修复图像对应的预测已修复图像;
将所述预测已修复图像与样本已修复图像进行比对,在根据比对结果判定图像修复模型未收敛时,获取更新后的样本待修复图像及对应的样本已待修复图像。
6.如权利要求5所述的一种图像修复方法,其特征在于,在对图像修复模型进行训练时,还包括:
根据重建损失函数对图像修复模型中的编码器模块进行更新;其中,所述重建损失函数由像素损失函数、梯度损失函数、对抗性损失函数、感知损失函数和风格损失函数组成;
根据以下公式计算得到所述像素损失函数:
其中,为像素损失函数,/>为样本待修复图像,/>为样本待修复图像对应的样本已修复图像,/>表示元素减法运算,/>表示均值运算;
根据以下公式计算得到所述梯度损失函数:
其中,为梯度损失函数,grad[·]表示计算图像梯度的函数;
根据以下公式计算所述对抗性损失函数:
其中,为对抗性损失函数,/>为判别器网络对应的函数;
根据以下公式计算所述感知损失函数:
其中,为感知损失函数;
根据以下公式计算所述风格损失函数:
其中,为风格损失函数,G(·)为获取参数的Gram矩阵;
根据以下公式计算得到重建损失函数:
其中,为重建损失函数,λg第一预设参数,λa为第二预设参数,λp为第三预设参数,λs为第四预设参数。
7.如权利要求5所述的一种图像修复方法,其特征在于,在对图像修复模型进行训练时,还包括:
根据交叉熵损失函数对图像修复模型中的非量化Transformer模块进行更新;
其中,所述交叉熵损失函数的表示如下:
其中,Ltrans为交叉熵损失函数,为非量化Transformer模块预测出目标特征图中缺失区域的潜在向量的分布概率,/>为编码器函数,m为二进制掩码,当mi,j=0表示(i,j)处的像素缺失,当mi,j=1表示(i,j)处的像素有效。
8.一种图像修复装置,其特征在于,包括:待修复图像获取模块和已修复图像生成模块;
所述待修复图像获取模块,用于获取待修复图像;其中,所述待修复图像包括已知区域和缺失区域;
所述已修复图像生成模块,用于将所述待修复图像输入到图像修复模型中,以使图像修复模型对所述待修复图像中的缺失区域进行重建,生成已修复图像;
其中,所述图像修复模型包括自编码器模块和非量化Transformer模块;
所述自编码器模块中的编码器,用于对所述待修复图像的特征向量进行提取,并将若干特征向量组合,生成目标特征图;
所述非量化Transformer模块,用于根据目标特征图中缺失区域所对应的特征向量,预测出目标特征图中缺失区域的潜在向量;
所述自编码器模块中的矢量量化双码本模块,用于对已知区域的特征向量进行量化以及对所述潜在向量进行量化,得到已知区域的特征向量对应的第一量化特征向量和潜在向量对应的第二量化特征向量;
所述自编码器模块中融合了FFC残差块的解码器,用于根据矢量量化双码本模块中储存的第一量化特征向量和第二量化特征向量对待修复图像中的缺失区域进行重建,生成所述待修复图像对应的已修复图像。
9.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的一种图像修复方法。
10.一种存储介质,其特征在于,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行如权利要求1至7中任意一项所述的一种图像修复方法。
CN202310488070.5A 2023-04-28 2023-04-28 一种图像修复方法、装置、终端设备和存储介质 Pending CN116739950A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310488070.5A CN116739950A (zh) 2023-04-28 2023-04-28 一种图像修复方法、装置、终端设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310488070.5A CN116739950A (zh) 2023-04-28 2023-04-28 一种图像修复方法、装置、终端设备和存储介质

Publications (1)

Publication Number Publication Date
CN116739950A true CN116739950A (zh) 2023-09-12

Family

ID=87917672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310488070.5A Pending CN116739950A (zh) 2023-04-28 2023-04-28 一种图像修复方法、装置、终端设备和存储介质

Country Status (1)

Country Link
CN (1) CN116739950A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372720A (zh) * 2023-10-12 2024-01-09 南京航空航天大学 一种基于多特征交叉掩码修复的无监督异常检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372720A (zh) * 2023-10-12 2024-01-09 南京航空航天大学 一种基于多特征交叉掩码修复的无监督异常检测方法
CN117372720B (zh) * 2023-10-12 2024-04-26 南京航空航天大学 一种基于多特征交叉掩码修复的无监督异常检测方法

Similar Documents

Publication Publication Date Title
CN112308763A (zh) 利用具有双流编码器架构的神经网络来生成合成数字图像
Chen et al. MICU: Image super-resolution via multi-level information compensation and U-net
CN108492249A (zh) 基于小卷积递归神经网络的单帧超分辨重建方法
Muhammad et al. Multi-scale Xception based depthwise separable convolution for single image super-resolution
CN116739950A (zh) 一种图像修复方法、装置、终端设备和存储介质
CN116309148A (zh) 图像修复模型训练方法、图像修复方法、装置和电子设备
CN116205962A (zh) 基于完整上下文信息的单目深度估计方法及***
Song et al. Learning an effective transformer for remote sensing satellite image dehazing
Wu et al. Hprn: Holistic prior-embedded relation network for spectral super-resolution
Zhou et al. A superior image inpainting scheme using Transformer-based self-supervised attention GAN model
Cui et al. Progressive dual-branch network for low-light image enhancement
CN117197627B (zh) 一种基于高阶退化模型的多模态图像融合方法
Luo et al. A fast denoising fusion network using internal and external priors
Cai et al. Lightweight spatial-channel adaptive coordination of multilevel refinement enhancement network for image reconstruction
Liu et al. Non-homogeneous haze data synthesis based real-world image dehazing with enhancement-and-restoration fused CNNs
Hua et al. An Efficient Multiscale Spatial Rearrangement MLP Architecture for Image Restoration
Shi et al. DDABNet: a dense Do-conv residual network with multisupervision and mixed attention for image deblurring
Attarde et al. Super resolution of image using sparse representation of image patches with LASSO approximation on CUDA platform
Zhou et al. Supervised-unsupervised combined transformer for spectral compressive imaging reconstruction
CN118115495B (zh) 一种结合排序学习的超分辨率图像质量评价方法及***
Wu et al. Multi-Discriminator Image Restoration Algorithm Based on Hybrid Dilated Convolution Networks.
Yu et al. Adaptive multi-information distillation network for image dehazing
Fan et al. Joint transformer progressive self‐calibration network for low light enhancement
CN113658076B (zh) 基于特征纠缠调制的图像复原方法、装置、设备和介质
Li et al. Optimizing Transformer for Large-Hole Image Inpainting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination