CN111340122B - 一种多模态特征融合的文本引导图像修复方法 - Google Patents
一种多模态特征融合的文本引导图像修复方法 Download PDFInfo
- Publication number
- CN111340122B CN111340122B CN202010131868.0A CN202010131868A CN111340122B CN 111340122 B CN111340122 B CN 111340122B CN 202010131868 A CN202010131868 A CN 202010131868A CN 111340122 B CN111340122 B CN 111340122B
- Authority
- CN
- China
- Prior art keywords
- image
- word
- network
- feature
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明属于数字图像智能处理技术领域,具体为一种多模态特征融合的文本引导图像修复方法。本发明方法依次包括:网络以缺损图像和相应的文本描述作为输入,分为两个阶段:粗略修复阶段和精细修复阶段;在粗略修复阶段,网络将文本特征和图像特征映射到统一的特征空间进行融合,利用文本特征的先验知识,网络产生合理的粗糙修复结果;在精细修复阶段,网络为粗糙修复结果生成更多的细粒度纹理;在网络训练中引入重构损失、对抗损失和文本引导的注意力损失来辅助网络生成更加细致、自然的结果。实验结果表明,本发明可以更好地预测缺失区域中物体的语义信息,并生成细粒度纹理,有效提升图像修复的效果。
Description
技术领域
本发明属于数字图像智能处理技术领域,具体涉及一种图像修复方法,尤其涉及一种多模态特征融合的文本引导图像修复方法。
背景技术
图像修复是合成图像中缺失或损坏部分的任务。由于其大量的应用,如完成遮挡重建、恢复受损纹理等,已经成为一个热门的研究课题。图像修复的关键是保持图像的全局语义,并恢复缺失区域的真实细节纹理。大多数传统方法选择在缺失区域周围寻找相似的纹理来解决填充孔洞的问题[1]。由于缺乏对高级语义信息的理解,这些方法很难重构出图像中的一些特殊纹理。
近年来,基于深度学习的图像修复方法取得了良好的效果。这些方法利用孔洞周围的信息来预测缺失区域。Yu等人提出了一种基于上下文注意力机制的新方法[2],不仅可以合成新的图像结构,而且还可以利用孔洞周围的图像特征作为参考。为了更有效地利用上下文信息,Liu等人提出了一种新的连贯语义注意力层(CSA)[3],通过模拟孔洞特征之间的语义相关性预测缺失信息。然而,当缺失区域包含图像的主要对象时,这些方法无法做出准确的语义推断。假如一只鸟的躯干被大面积遮挡,这些方法只能通过孔洞周围的信息生成一些类似颜色的补丁,网络并不能准确地推断出待修复区域是一只鸟。然而,在许多情况下,我们需要恢复的恰恰是丢失区域中的物体。
为了产生更合理的修复对象细节纹理,我们研究了画家在修复图像时的行为。当画家看到需要修复的图像中含有一只小鸟的头和尾巴,但是没有小鸟的躯干时,他首先会根据这个现象猜测这幅画的内容,并给出一个大致的文本描述。在绘制缺失区域时,他将以文本描述的内容作为重要参考,以完成更合理的修复结果。这不仅保证了局部像素的连续性,而且保证了图像作为一个整体的语义合理性。
在此过程的启发下,我们认为将文本描述引入图像修复任务是合理且有效的。目前,已有一些深度学习方法,可以通过文本描述直接生成一张图像。Zhang等人[4]使用两个GAN[5]逐步生成图像:第一阶段生成低分辨率图像,重点是图像的背景、颜色和轮廓;第二阶段使用第一阶段的输出和文本描述作为输入,并生成带有真实细节的高分辨率图像。Xu等人提出了AttnGAN[6],在生成过程中添加注意力机制,不仅将文本的句子特征提取为全局约束,而且还将单词嵌入作为局部约束提取到网络中。
虽然文本生成图像的方法可以生成一些合理的结果,但是这种生成是随机的,图像中物体的大小、形状、方向等都不固定,很难直接用于图像修复。因此,如何合理地将图像特征和文本特征进行多模态融合,对于高效的图像修复具有很大的研究价值。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种能够极大提升物体信息损失严重的图像恢复效果的多模态特征融合的文本引导图像修复方法。
本发明主要针对物体信息损失严重(包括物体被大面积遮挡、缺失主要语义信息等)的图像修复,以图像的文本描述作为先验,构造从粗糙到精细的多阶段深度神经网络作为图像生成器,同时引入判别器来辅助生成器学习图像修复任务,使得生成器可以预测合理的物体信息,在生成自然的图像修复结果的同时,恢复出图像中物体细粒度的纹理。
本发明方法分为两个阶段:粗略修复阶段和精细修复阶段;在粗略修复阶段,网络将文本特征和图像特征映射到统一的特征空间进行融合,利用文本特征的先验知识,网络产生合理的粗糙修复结果;在精细修复阶段,网络为粗糙修复结果生成更多的细粒度纹理;在网络训练中引入重构损失、对抗损失和文本引导的注意力损失来辅助网络生成更加细致、自然的结果。
本发明提供的多模态特征融合的文本引导图像修复方法,具体步骤如下。
(1)从待修复图像中标记出缺损区域
对于一张物体信息缺损严重的图像,首先构建一个与输入图像X大小相同的全零矩阵M,将待修复区域对应像素位置的矩阵点置为1。
(2)将图像对应的文本描述T进行文本特征提取
文本描述语句T可以是图像本身包含的外部描述信息,也可以是通过图像中剩余区域的信息,预测出的缺失区域的物体特征表述。将文本描述T送入一个预训练的循环神经网络[7],以当前状态的单词作为输入,通过循环可以使得信息从当前步传递到下一步,帮助网络节点更好地理解文本描述的语义,从而得到初步的句子特征和单词嵌入特征。句子特征经过条件增强[4],将句子向量转换为条件向量。单词特征经过一个注意力模块[6],通过合成一个新的感知层,将单词特征转换到图像特征的公共语义空间,得到一个单词上下文特征Ft;根据图像特征,注意力模块关注文本描述中的相关单词,为图像的每个子区域设置一个单词上下文向量,最终得到一张单词注意力图A;对于每一个子区域,其单词上下文向量是与其相关的单词向量的动态表示,指示模型所关注单词的权重。
(3)将输入图像X、缺损区域标记M共同送入编码器
通过编码得到待修复图像的深层特征Fi;
具体地,编码器由5个卷积模块组成,包含卷积层和池化层,是粗糙修复网络的第一部分,采用U-Net[8]结构,从输入图像中提取特征,将图像压缩成512个16×16的特征向量Fi。
(4)将图像特征Fi载入图像自适应词需求模块
图像自适应词需求模块以图像修复编码器中间层的特征Fi作为输入,经过两个卷积模块和矩阵重塑后分别得到两个特征块g和f。将两个特征块g和f相乘得到一个新的特征图,并对其进行softmax操作,得到一张单词需求注意力图。对应于单词上下文特征向量的每一项,单词需求注意力图的对应项表示需要该向量的概率。图像自适应词需求模块为单词上下文特征Ft赋予不同的权重,得到一个带权重的单词特征Ftw。为了防止先验信息遗失,将单词上下文特征Ft与带权重的单词特征Ftw相加,得到最终的图像自适应词特征Fti。
这样做的原因是:用文本指导图像修复,文本生成的图像部分必须能和孔洞周围区域的纹理连贯。文本中的描述信息可能包含了缺失区域以外的信息,多余的文本信息经过特征提取可能会造成信息冗余,反而为最终的生成结果增加了一些不需要的纹理。使用图像自适应词需求模块对图像已有特征进行提取,并为文本中的单词特征赋予不同的权重,使得网络可以更有针对性地修复缺失区域中的物体。
(5)将图像自适应词特征Fti送入粗糙修复网络中间层,与图像特征Fi融合
粗糙修复网络基于U-Net结构[8],通过多模态特征融合将文本特征和图像特征映射到统一的多模态向量空间。前半部分是编码器,作用是特征提取,得到图像特征Fi;将图像特征Fi和相应的图像自适应词特征Fti相连接,通过后半部分的解码器,不断上采样得到原始分辨率大小的图像,即粗糙的图像修复结果C。
(6)将粗糙的图像修复结果C、缺损区域标记M共同送入精细修复网络
精细修复网络同样采用U-Net结构[8],以粗糙修复结果C和缺损区域标记M为输入,通过不同程度的卷积,学习图像深层次的特征,再经过上采样恢复为原图大小。通过粗糙修复结果C的帮助,精细修复网络可以为图像恢复更加细致的纹理。
(7)通过优化损失函数更新生成器、判别器的参数
生成器G由粗糙修复网络和精细修复网络构成,用于生成一张修复后的图像。在网络的训练中引入判别器[5]来辅助生成器学习图像修复任务,判别器以真实图像和生成图作为输入,任务是判断图像是否真实。判别器输出D(x),代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。训练过程中,生成器G的目标是尽量生成真实的图片去欺骗判别器D。而判别器D的目标就是尽量辨别出G生成的假图像和真实的图像。这样,生成器和判别器就构成了一个动态的博弈,从而促使网络生成更加逼真的图像。同时,网络通过真实图像与修复图像之间的重构损失、文本指导注意力损失来计算生成器参数的梯度,通过真实图像和生成图像计算判别器参数的梯度,通过梯度回传更新网络的参数。
假设定义训练集X={x1,x2,…,xn}。对于训练集中的每个图像xi,它都有相应的文本描述ti;生成器从xi中移除缺损区域,同时使用对应文本描述ti的深层特征,利用深度神经网络产生粗糙的中间结果ci和最终的精细修复结果zi。
为了使生成的粗糙修复结果和最终的精细修复结果都尽可能和原真实图像一致,我们引入像素级的重构损失,定义为:
LRec=||zi-xi||1+||ci-xi||1
将单词注意力图A分别与生成图和真实图相乘,得到带权重的生成图和真实图,并对其进行像素级的L1损失约束,即文本指导注意力损失,定义为
LTGA=||A(zi,ti)zi-A(zi,ti)xi||1
这样做的原因是:文本描述包含很多额外的先验信息,例如物体的种类、形状、颜色等等。仅仅将文本特征融入图像修复网络并不能很好的控制网络的学习过程。我们在训练中引入文本指导注意力损失,给网络更多文本相关的约束。单词注意力图A往往更关注文本描述中的实体,即图像缺失区域中的物体。我们希望网络可以对文本关注区域给予更多的考虑,从而生成更真实的细节纹理。
判别器作为二值分类器来区分真实图像和假图像,输出为整个图像的分类结果,使得整个图像尽可能真实,对应的生成对抗损失定义为:
训练时,网络优化更新的整体损失函数定义为:
L=λTGALTGA+λRecLRec+λGANLGAN,
其中,LTGA为文本指导注意力损失,LRec为重构损失,LGAN为生成器和判别器的生成对抗损失,λTGA、λRec、λGAN为平衡不同损失的权重。
在测试时,网络只需要使用生成器。
对于物体信息损失严重的图像修复问题,本发明提出了一种多模态融合学习方法,并构建了一个文本指导的图像修复对抗生成网络,将文本特征和图像特征映射到一个统一的多模态特征空间。图像自适应词需求模块计算缺损图像需要每个单词的权重,以帮助网络消除冗余文本的不良影响。引入文本指导注意力损失,使网络更多地关注缺失区域的物体特征。本发明的生成图像真实自然,不仅在整体上与文本描述相一致,而且可以恢复出较好的细节纹理。
实验结果表明,本发明可以更好地预测缺失区域中物体的语义信息,并生成细粒度纹理,有效提升图像修复的效果。
附图说明
图1为本发明的网络框架图示。
图2为本发明的图像自适应词需求模块图示。
图3为本发明在鸟类数据集上的图像修复效果图。
图4为本发明在花类数据集上的图像修复效果图。
具体实施方式
对于一张中心区域物体缺损的图像,将缺失区域标记为待修复区域,可以采用图1所示网络进行图像修复。
具体过程如下。
(1)从待修复图像中标记出缺损区域
对于一张物体信息缺损严重的图像,如图1中的小鸟图像缺失中心区域。首先构建一个与输入图像X大小相同的全零矩阵M,将待修复区域对应像素位置的矩阵点置为1,即图1中缺损图像中心灰色区域为1,其余位置为0。
(2)将图像对应的文本描述T进行文本特征提取
文本描述T被送入一个预训练的循环神经网络,得到初步的句子特征和单词嵌入特征。句子特征经过条件增强模块,将句子向量转换为条件向量。单词特征经过一个注意力模块,通过添加一个新的感知层,转换到图像特征的公共语义空间,并得到一个单词上下文特征Ft和一个单词注意力图A。如图1中,将图像对应的描述:“这只鸟是黄色的,有锋利的喙和深色的眼环”送入文本特征提取网络,网络将生成一个可以表示该文本描述的句子特征,以及网络关注的单词特征和其对应的注意力权重。
(3)将输入图像X、缺损区域标记M共同送入编码器
编码器通过几个卷积模块,得到待修复图像的深层特征Fi。
(4)将图像特征Fi载入图像自适应词需求模块
图像自适应词需求模块会根据图像特征Fi,为单词上下文特征Ft赋予不同的权重,得到一个带权重的单词特征Ftw。为了防止先验信息遗失,将单词上下文特征Ft与带权重的单词特征Ftw相加,得到最终的图像自适应词特征Fti。如图1中,缺损图像中小鸟的眼睛是不需要修复的,而小鸟的喙和它身体的颜色是需要修复的。因此,经过此步骤,网络会给“黄色”和“锋利的喙”赋予更高的权重,给“深色的眼环”较少的权重,得到一个带权重的文本描述特征。
(5)将图像自适应词特征Fti送入粗糙修复网络,与图像特征Fi融合
粗糙修复网络基于U-Net结构,通过多模态特征融合将文本特征和图像特征映射到统一的多模态向量空间。将图像特征Fi和相应的图像自适应词特征Fti相连接,通过解码器生成一个粗糙的图像修复结果C。
(6)将粗糙的图像修复结果C、缺损区域标记M共同送入精细修复网络
精细修复网络结构与粗糙修复网络相同,通过深度学习最终生成纹理更细致的清晰修复结果。
(7)通过优化损失函数更新生成器、判别器的参数
在网络的训练中引入判别器来辅助生成器学习图像修复任务。共使用CUB-200-2011数据集和Flower数据集进行训练和测试。其中,CUB-200-2011数据集包含8855张训练图,2933张测试图,每张图片有10句对应的文本描述;Flower数据集包含7034张训练图,1155张测试图,每张图片有7句对应的文本描述。在测试时,网络只需要使用生成器;
所有用于训练和测试的图像大小为256×256像素。我们使用一个大小为128×128的中心矩形掩码覆盖图像,模拟图像缺损区域。循环神经网络是一个预先训练的双向LSTM[7],从文本描述中提取语义向量。我们在一台使用Nvidia GTX 2080Ti GPU的机器上进行了实验,框架是基于Pytorch实现的。网络训练的学***衡不同损失的权重设置为λTGA=1,λRec=1,λGAN=0.002。
图3为本发明在鸟类数据集上的图像修复效果图,第1列为待修复图像,第2列为CSA的修复效果,第3列为本发明的修复效果,第4列为原始真实图像,第5列为AttnGAN的生成图像,每一行图像上方是其对应的文本描述。相比于CSA,本发明的修复结果恢复了鸟的翅膀纹理,并且与文本描述一致。相比于AttnGAN,本发明保留了原始图像的其他区域,并且拥有更好的图像完整性。
图4为本发明在花类数据集上的图像修复效果图,第1列为待修复图像,第2列为CSA的修复效果,第3列为本发明的修复效果,第4列为原始真实图像,第5列为AttnGAN的生成图像,每一行图像上方是其对应的文本描述。虽然CSA可以从孔洞周围的颜色估计出花中间的近似色块,但本发明可以产生更清晰的花脉、花瓣纹理。
参考文献
[1]Barnes C,Shechtman E,Finkelstein A,et al.PatchMatch:A RandomizedCorrespondence Algorithm for Structural Image Editing[J].ACM Transactions onGraphics,2009,28(3,article 24).
[2]Jiahui Yu,Zhe Lin,Jimei Yang,Xiaohui Shen,Xin Lu,and Thomas SHuang.Generative image inpainting with contextual attention[J].In Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition,pages 5505–5514,2018.
[3]Hongyu Liu,Bin Jiang,Yi Xiao,and Chao Yang.Coherent semanticattention for image inpainting[J].ICCV,2019.
[4]Han Zhang,Tao Xu,Hongsheng Li,Shaoting Zhang,Xiaogang Wang,XiaoleiHuang,and Dimitris N Metaxas.Stackgan:Text to photo-realistic image synthesiswith stacked generative adversarial networks[J].In Proceedings of the IEEEInternational Conference on Computer Vision,pages 5907–5915,2017.
[5]Ian Goodfellow,Jean PougetAbadie,Mehdi Mirza,Bing Xu,David Warde-Farley,Sherjil Ozair,Aaron Courville,and Yoshua Bengio.Generative adversarialnets[J].In Advances in neural information processing systems,pages 2672–2680,2014.
[6]Tao Xu,Pengchuan Zhang,Qiuyuan Huang,Han Zhang,Zhe Gan,XiaoleiHuang,and Xiaodong He.Attngan:Fine-grained text to image generation withattentional generative adversarial networks[J].In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,pages 1316–1324,2018.
[7]Schuster M,Paliwal K K.Bidirectional recurrent neural networks[J].IEEE Transactions on Signal Processing,1997,45(11):2673-2681.
[8]Ronneberger O,Fischer P,Brox T.U-Net:Convolutional Networks forBiomedical Image Segmentation[J].2015.
[9]Kingma D P,Ba J.Adam:AMethod for Stochastic Optimization[J].Computer Science,2014.。
Claims (4)
1.一种多模态特征融合的文本引导图像修复方法,其特征在于,具体步骤如下:
(1)从待修复图像中标记出缺损区域
对于一张物体信息缺损严重的图像,首先构建一个与输入图像X大小相同的全零矩阵M,将待修复区域对应像素位置的矩阵点置为1;
(2)将图像对应的文本描述T进行文本特征提取
文本描述语句T是图像本身包含的外部描述信息,或者是根据图像中剩余区域的信息预测出的缺失区域的物体特征表述;将文本描述T送入一个预训练的循环神经网络,以当前状态的单词作为输入,通过循环使得信息从当前步传递到下一步,帮助网络节点更好地理解文本描述的语义,从而得到初步的句子特征和单词嵌入特征;句子特征经过条件增强,将句子向量转换为条件向量;单词特征经过一个注意力模块,通过合成一个新的感知层,将单词特征转换到图像特征的公共语义空间,得到一个单词上下文特征Ft;根据图像特征,注意力模块关注文本描述中的相关单词,为图像的每个子区域设置一个单词上下文向量,最终得到一张单词注意力图A;对于每一个子区域,其单词上下文向量是与其相关的单词向量的动态表示,指示模型所关注单词的权重;
(3)将输入图像X、缺损区域标记M共同送入编码器
编码器通过几个卷积模块,得到待修复图像的深层特征Fi;
(4)将图像特征Fi载入图像自适应词需求模块
图像自适应词需求模块以图像修复编码器中间层的特征Fi作为输入,为单词上下文特征Ft赋予不同的权重,得到一个带权重的单词特征Ftw;将单词上下文特征Ft与带权重的单词特征Ftw相加,得到最终的图像自适应词特征Fti;
(5)将图像自适应词特征Fti送入粗糙修复网络,与图像特征Fi融合
粗糙修复网络基于U-Net结构,通过多模态特征融合将文本特征和图像特征映射到统一的多模态向量空间;将图像特征Fi和相应的图像自适应词特征Fti相连接,通过解码器生成一个粗糙的图像修复结果C;
(6)将粗糙的图像修复结果C、缺损区域标记M共同送入精细修复网络
精细修复网络结构与粗糙修复网络相同,通过深度学习最终生成纹理更细致的清晰修复结果;
(7)通过优化损失函数更新生成器、判别器的参数
生成器G由粗糙修复网络和精细修复网络构成,用于生成一张修复后的图像;在网络的训练中引入判别器来辅助生成器学习图像修复任务,判别器以真实图像和生成图作为输入,任务是判断图像是否真实;判别器输出D(x),代表x为真实图片的概率,输出为1,代表100%是真实的图片,输出为0,代表不可能是真实的图片;训练过程中,生成器G的目标是尽量生成真实的图片去欺骗判别器D,而判别器D的目标就是尽量辨别出G生成的假图像和真实的图像;这样,生成器和判别器就构成一个动态的博弈,从而促使网络生成更加逼真的图像;同时,网络通过真实图像与修复图像之间的重构损失、文本指导注意力损失来计算生成器参数的梯度,通过真实图像和生成图像计算判别器参数的梯度,通过梯度回传更新网络的参数;
在测试时,网络只使用生成器。
2.根据权利要求1所述的方法,其特征在于,步骤(3)中,所述编码器由5个卷积模块组成,包含卷积层和池化层,是粗糙修复网络的第一部分,采用U-Net结构,从输入图像中提取特征,将图像压缩成512个16×16的特征向量Fi。
3.根据权利要求1所述的方法,其特征在于,步骤(4)中,图像自适应词需求模块以图像修复编码器中间层的特征Fi作为输入,经过两个卷积模块和矩阵重塑后分别得到两个特征块g和f;将两个特征块g和f相乘得到一个新的特征图,并对其进行softmax操作,得到一张单词需求注意力图;对应于单词上下文特征向量的每一项,单词需求注意力图的对应项表示需要该向量的概率;图像自适应词需求模块为单词上下文特征Ft赋予不同的权重,得到一个带权重的单词特征Ftw;为了防止先验信息遗失,将单词上下文特征Ft与带权重的单词特征Ftw相加,得到最终的图像自适应词特征Fti。
4.根据权利要求1所述的多模态特征融合的文本引导图像修复方法,其特征在于,步骤(7)的具体过程为:
设训练集X={x1,x2,…,xn};对于训练集中的每个图像xi,它都有相应的文本描述ti;生成器从xi中移除缺损区域,同时使用对应文本描述ti的深层特征,利用深度神经网络产生粗糙的中间结果ci和最终的精细修复结果zi;
为了使生成的粗糙修复结果和最终的精细修复结果都尽可能和原真实图像一致,引入像素级的重构损失,定义为:
LRec=||zi-xi||1+||ci-xi||1,
将单词注意力图A分别与生成图和真实图相乘,得到带权重的生成图和真实图,并对其进行像素级的L1损失约束,即文本指导注意力损失,定义为:
LTGA=||A(zi,ti)zi-A(zi,ti)xi||1,
判别器作为二值分类器用来区分真实图像和假图像,输出为整个图像的分类结果,使得整个图像尽可能真实,对应的生成对抗损失定义为:
训练时,网络优化更新的整体损失函数定义为:
L=λTGALTGA+λRecLRec+λGANLGAN,
其中,LTGA为文本指导注意力损失,LRec为重构损失,LGAN为生成器和判别器的生成对抗损失,λTGA、λRec、λGAN为平衡不同损失的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010131868.0A CN111340122B (zh) | 2020-02-29 | 2020-02-29 | 一种多模态特征融合的文本引导图像修复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010131868.0A CN111340122B (zh) | 2020-02-29 | 2020-02-29 | 一种多模态特征融合的文本引导图像修复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111340122A CN111340122A (zh) | 2020-06-26 |
CN111340122B true CN111340122B (zh) | 2022-04-12 |
Family
ID=71185767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010131868.0A Active CN111340122B (zh) | 2020-02-29 | 2020-02-29 | 一种多模态特征融合的文本引导图像修复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111340122B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897964B (zh) * | 2020-08-12 | 2023-10-17 | 腾讯科技(深圳)有限公司 | 文本分类模型训练方法、装置、设备及存储介质 |
CN111861945B (zh) * | 2020-09-21 | 2020-12-18 | 浙江大学 | 一种文本引导的图像修复方法和*** |
CN112215285B (zh) * | 2020-10-13 | 2022-10-25 | 电子科技大学 | 一种基于跨媒体特征的眼底图像自动标注方法 |
CN112634157A (zh) * | 2020-12-21 | 2021-04-09 | 中山大学 | 基于递进学习策略的图像修复方法、***、介质及设备 |
CN112819052B (zh) * | 2021-01-25 | 2021-12-24 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 多模态细粒度混合方法、***、设备和存储介质 |
CN113052784B (zh) * | 2021-03-22 | 2024-03-08 | 大连理工大学 | 一种基于多辅助信息下的图像生成方法 |
CN113177895B (zh) * | 2021-05-20 | 2022-04-22 | 中国人民解放军国防科技大学 | 基于上下文的多特征融合网络的两阶段图像修复方法 |
CN113362242B (zh) * | 2021-06-03 | 2022-11-04 | 杭州电子科技大学 | 基于多特征融合网络的图像修复方法 |
CN113298733B (zh) * | 2021-06-09 | 2023-02-14 | 华南理工大学 | 一种基于隐式边缘先验的尺度渐进的图像补全方法 |
CN113989420A (zh) * | 2021-09-30 | 2022-01-28 | 阿里巴巴云计算(北京)有限公司 | 图像生成***及方法 |
CN114022372B (zh) * | 2021-10-25 | 2024-04-16 | 大连理工大学 | 一种引入语义损失上下文编码器的掩膜图像修补方法 |
CN114359062B (zh) * | 2021-12-03 | 2024-05-14 | 华南理工大学 | 基于阶梯流特征融合的图像修复方法、***及存储介质 |
CN114117159B (zh) * | 2021-12-08 | 2024-07-12 | 东北大学 | 一种多阶图像特征与问题交互的图像问答方法 |
CN114627006B (zh) * | 2022-02-28 | 2022-12-20 | 复旦大学 | 一种基于深度解耦网络的渐进式图像修复方法 |
CN116665217A (zh) * | 2023-05-08 | 2023-08-29 | 苏州大学 | 基于双生成对抗网络的古籍文字修复方法和*** |
CN116258652B (zh) * | 2023-05-11 | 2023-07-21 | 四川大学 | 基于结构注意和文本感知的文本图像修复模型及方法 |
CN116523799B (zh) * | 2023-07-03 | 2023-09-19 | 贵州大学 | 基于多粒度图文语义学习的文本引导图像修复模型及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177121A (zh) * | 2013-04-12 | 2013-06-26 | 天津大学 | 加入皮尔逊相关系数的局部保持投影方法 |
CN109559287A (zh) * | 2018-11-20 | 2019-04-02 | 北京工业大学 | 一种基于DenseNet生成对抗网络的语义图像修复方法 |
CN109919830A (zh) * | 2019-01-23 | 2019-06-21 | 复旦大学 | 一种基于美学评价的带参考人眼图像修复方法 |
CN109992686A (zh) * | 2019-02-24 | 2019-07-09 | 复旦大学 | 基于多角度自注意力机制的图像-文本检索***及方法 |
CN110222628A (zh) * | 2019-06-03 | 2019-09-10 | 电子科技大学 | 一种基于生成式对抗网络的人脸修复方法 |
CN110288537A (zh) * | 2019-05-20 | 2019-09-27 | 湖南大学 | 基于自注意力的深度生成式对抗网络的人脸图像补全方法 |
CN110647907A (zh) * | 2019-08-05 | 2020-01-03 | 广东工业大学 | 利用多层分类和字典学习的多标签图像分类算法 |
-
2020
- 2020-02-29 CN CN202010131868.0A patent/CN111340122B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177121A (zh) * | 2013-04-12 | 2013-06-26 | 天津大学 | 加入皮尔逊相关系数的局部保持投影方法 |
CN109559287A (zh) * | 2018-11-20 | 2019-04-02 | 北京工业大学 | 一种基于DenseNet生成对抗网络的语义图像修复方法 |
CN109919830A (zh) * | 2019-01-23 | 2019-06-21 | 复旦大学 | 一种基于美学评价的带参考人眼图像修复方法 |
CN109992686A (zh) * | 2019-02-24 | 2019-07-09 | 复旦大学 | 基于多角度自注意力机制的图像-文本检索***及方法 |
CN110288537A (zh) * | 2019-05-20 | 2019-09-27 | 湖南大学 | 基于自注意力的深度生成式对抗网络的人脸图像补全方法 |
CN110222628A (zh) * | 2019-06-03 | 2019-09-10 | 电子科技大学 | 一种基于生成式对抗网络的人脸修复方法 |
CN110647907A (zh) * | 2019-08-05 | 2020-01-03 | 广东工业大学 | 利用多层分类和字典学习的多标签图像分类算法 |
Non-Patent Citations (3)
Title |
---|
"Target Aware Network Adaptation for Efficient Representation Learning";Yang Zhong等;《arXiv》;20181102;第1-18页 * |
"基于生成对抗网络的人脸图像修复";丁阳等;《大连民族大学学报》;20190930;第21卷(第5期);第458-462页 * |
"基于网格面积保持的图像智能适配显示";李璠等;《中国图象图形学报》;20160331;第21卷(第3期);第382-389页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111340122A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111340122B (zh) | 一种多模态特征融合的文本引导图像修复方法 | |
Li et al. | Single image dehazing via conditional generative adversarial network | |
Anwar et al. | Image colorization: A survey and dataset | |
Baldassarre et al. | Deep koalarization: Image colorization using cnns and inception-resnet-v2 | |
Yan et al. | Fine-grained attention and feature-sharing generative adversarial networks for single image super-resolution | |
CN113239834B (zh) | 一种可预训练手模型感知表征的手语识别*** | |
CN114283080A (zh) | 一种多模态特征融合的文本指导图像压缩噪声去除方法 | |
CN114581560A (zh) | 基于注意力机制的多尺度神经网络红外图像彩色化方法 | |
CN115049556A (zh) | 一种基于StyleGAN的人脸图像修复方法 | |
CN107463932A (zh) | 一种使用二进制瓶颈神经网络来抽取图片特征的方法 | |
CN111681195B (zh) | 红外图像和可见光图像的融合方法、装置及可读存储介质 | |
CN114187165A (zh) | 图像处理方法和装置 | |
Qiao et al. | Tell me where i am: Object-level scene context prediction | |
Wang et al. | 3D model inpainting based on 3D deep convolutional generative adversarial network | |
Li et al. | Line drawing guided progressive inpainting of mural damages | |
CN112802048B (zh) | 具有不对称结构的图层生成对抗网络生成方法及装置 | |
Liu et al. | Facial image inpainting using multi-level generative network | |
CN114022582A (zh) | 一种文本生成图像方法 | |
CN113591861A (zh) | 图像处理方法、装置、计算设备及存储介质 | |
CN116402067B (zh) | 面向多语种文字风格保持的跨语言自监督生成方法 | |
Kim et al. | Game effect sprite generation with minimal data via conditional GAN | |
CN112241708A (zh) | 用于由原始人物图像生成新的人物图像的方法及装置 | |
CN116523985A (zh) | 一种结构和纹理特征引导的双编码器图像修复方法 | |
CN116051407A (zh) | 一种图像修复方法 | |
Li et al. | A review of image colourisation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |