CN110570484B - 一种图像解耦表征下的文本指导图像上色方法 - Google Patents
一种图像解耦表征下的文本指导图像上色方法 Download PDFInfo
- Publication number
- CN110570484B CN110570484B CN201910740824.5A CN201910740824A CN110570484B CN 110570484 B CN110570484 B CN 110570484B CN 201910740824 A CN201910740824 A CN 201910740824A CN 110570484 B CN110570484 B CN 110570484B
- Authority
- CN
- China
- Prior art keywords
- image
- color
- vector
- loss
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像解耦表征下的文本指导图像上色方法。对于每幅彩色图像,生成灰度图像,提取彩色图像中的图像配色信息;构建编码器‑解码器网络作为学习图像解耦表征的网络,利用图像配色信息和彩色图像、灰度图像处理输入训练编码器‑解码器网络,并且通过颜色表征向量和内容表征向量重构图像;将文本语义和颜色信息相关联,得到与文本语义相关的文本配色信息;将文本配色信息映射到训练后网络的颜色表征向量所在的编码器中,得到文本颜色表征向量;结合文本颜色表征向量和图像内容表征向量,生成上色结果。本发明将文本语义信息与图像上色任务结合起来,并且解决了图像上色方法依赖于复杂的人工标记图像或者寻找参考图像的问题。
Description
技术领域
本发明涉及了一种图像解耦表征下的文本指导图像上色方法。本发明涉深度学习,图像处理,学习图像解耦表征等技术。
背景技术
色彩是图像中最重要的组成部分之一,能够给人留下深刻的印象,对于表达信息至关重要。比如商家常常根据不同的季节,来设计不同配色的营销海报。此外,经过验证,图像颜色对于图像分类等任务的性能有很大影响。然而,由于成像设备和光照的限制,很多图像的色彩不尽人意,甚至没有颜色。因而图像上色是图像处理领域很重要的研究课题。
图像上色任务通常由专业人士手动完成,非常复杂且耗时。随着深度学习的兴起,许多基于深度网络的图像上色方法致力于减轻人力的负担并更有效地执行这些任务。这些方法可以分为三类:基于涂鸦着色,基于示例着色和基于学习着色。基于涂鸦的方法根据在图像不同区域标注的颜色来对于整体图像上色,仍然需要手工工作和专业技能来提供可靠的标注。基于示例的方法通过匹配全局颜色的统计信息,将颜色信息从参考图像传送到目标灰度图像,颜色分布的结构性较差,并且上色结果取决于选择的参考图像。基于学习的方法通过线性***解决着色问题,无需人为干预,但是这种方法对一个灰度图像只能生成一种结果。并且这种端到端的学习式方法是一种黑盒模型,人们无法得知生成上色结果的来龙去脉,可解释性较差。
此外,在互联网海量的数据中,图文多模数据是一种很重要的数据形式。结合图像和文本数据,利用其多模数据的互补性可以消除歧义和不确定性,获得更准确的数据理解。文本数据在表达语义上更明确具体,并且具有更好的可解释性,但是在图像上色任务中,文本信息很少被考虑进来。人类能够很容易理解文本并将其与颜色对应起来,但是对于机器来说并不容易。不同模式的数据之间存在语义“鸿沟”,由文本直接生成彩色图像是比较困难的,如何跨过图像-文本间的语义“鸿沟”,将文本的语义信息用于指导灰度图像的上色任务也是本发明要解决的技术问题之一。
本发明中使用学习图像的解耦表征的方法来实现图像的上色,能够产生不同的上色结果,并且具有一定的可解释性。本发明中提出的模型是一种编码-解码结构的模型,存在“瓶颈”现象,即图像的信息会在编码和解码的过程中丢失。为了重构出高质量的彩色图像,要尽可能保留图像的关键信息,这也是本发明要解决的问题之一。
本发明中要解决的问题包括:减少人力的消耗;提高上色结果的颜色结构性和图像质量;增加上色结果的多样性;结合文本信息,提高方法的可解释性,生成符合文本语义的上色结果。
发明内容
本发明的目的在于解决现有图像上色方法忽略文本信息,依赖于人工标注、选择参考图像,或者上色结果结构性差、多样性低的问题的技术问题,提供一种图像解耦表征下的文本指导图像上色方法。
本发明是通过以下技术方案来实现的:
步骤1)对于数据库中的每幅原始的彩色图像xc,生成原始的灰度图像xg,提取彩色图像中的图像配色信息pi,图像配色信息pi用于辅助训练;
步骤2)构建编码器-解码器网络作为学习图像解耦表征的网络,利用图像配色信息pi和彩色图像xc、灰度图像xg一起处理输入训练编码器-解码器网络,使能够将图像的颜色信息和内容信息映射到在向量空间进行表征,并且通过颜色表征向量和内容表征向量重构图像;
本发明所设计的编码器-解码器网络在较高分辨率下会丢失细节。通常使用跳连来解决它,然而,跳连对学习解耦表征具有不利影响。本发明中增加了潜在表征的规模,用于减少“瓶颈效应”的影响。
步骤3)对于文本,将文本语义和颜色信息相关联,得到与文本语义相关的文本配色信息pt;
所述的文本包含一个词或者多个词的文本数据。
具体是指将文本输入到文本配色生成网络TPN中,得到符合文本语义的5个颜色的RGB值,作为文本配色信息pt。由文本配色生成网络TPN具体是采用文献《Bahng H,Yoo S,Cho W,et al.Coloring with Words:Guiding Image Colorization Through Text-basedPalette Generation[C]//Proceedings of the European Conference on ComputerVision(ECCV).2018:431-447.》中的方法实施,文本配色网络TPN在文本配色数据库PAT上训练。
步骤4)将步骤3)得到的文本配色信息映射到步骤2)中获得的训练好的编码器-解码器网络的一个颜色表征向量所在的编码器中,得到文本颜色表征向量;结合文本颜色表征向量和图像内容表征向量,生成彩色图像作为上色结果。
所述的步骤2)中,编码器-解码器网络包括内容信息编码器Ect、颜色信息编码器Ecr、配色信息编码器Ep和解码器D,然后每一次迭代的步骤具体包括:
2.1)将步骤1)提到的彩色图像xc、灰度图像xg输入到编码器-解码器网络中处理得到内容表征向量、颜色表征向量和配色颜色表征向量;
2.2)将彩色图像内容表征向量ct_c、灰度图像内容表征向量ct_g、彩色图像颜色表征向量cr_c、灰度图像颜色表征向量cr_g、彩色图像配色颜色表征向量分别组合地输入到解码器D中,得到多幅中间图像;
2.3)将步骤2.2)中得到的图像,再输入到编码器中得到重构表征向量;再将重构表征向量再输入到解码器D中,得到输出图像;
2.5)将步骤2.4)中得到的生成对抗损失、重构损失、表征限制损失综合计算,使用Adam优化器进行训练并更新网络参数,并开始下一次迭代;经过1000000次迭代后,获得训练好的编码器-解码器网络。
所述步骤1)中的图像配色信息pi由占彩色图像各个像素点的所有颜色中出现数量前5位的颜色的RGB值组成。
所述的步骤2)中,具体为:
2.1)彩色图像xc、灰度图像xg分别通过内容信息编码器Ect输出得到彩色图像内容表征向量ct_c和灰度图像内容表征向量ct_g,彩色图像xc、灰度图像xg分别通过颜色信息编码器Ecr得到彩色图像颜色表征向量cr_c和灰度图像颜色表征向量cr_g,同时将图像配色信息pi输入到配色信息编码器Ep中,得到彩色图像配色颜色表征向量
2.2)将彩色图像内容表征向量ct_c和彩色图像颜色表征向量cr_c共同组合输入到解码器D中输出得到重构的第一中间彩色图像将彩色图像内容表征向量ct_c和灰度图像颜色表征向量cr_g共同组合输入到解码器D中输出得到第一中间灰度图像xcg,将灰度图像内容表征向量ct_g和彩色图像颜色表征向量cr_c共同组合输入到解码器D中输出得到第二中间彩色图像xgc,将灰度图像内容表征向量ct_g和灰色图像颜色表征向量ct_g共同组合输入到解码器D中输出得到重构的第二中间灰度图像将灰度图像内容表征向量ct_g和彩色图像配色颜色表征向量共同组合输入到解码器D中输出得到第三中间彩色图像xgp;
将第一中间灰度图像xcg再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构彩色图像内容表征向量重构灰度图像颜色表征向量将第二中间彩色图像xgc再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构灰度图像内容表征向量和重构彩色图像颜色表征向量将第三中间彩色图像xgp再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构灰度图像内容表征向量和重构彩色图像配色颜色表征向量
2.4)采用以下方式计算重构损失、分布限制损失等各个损失值,使得彩色图像配色信息pi的颜色表征向量与彩色图像颜色表征向量cr_c在向量空间的距离相近;并且灰度图像的颜色表征向量cr_g不包含任何信息。
2.4.1)图像重构损失包含重构原始图像和交叉重构。具体是指:给定图像,网络应能够在编码和解码后重构原图像;彩色图像和灰度图像的内容一致,内容表征向量包含信息相同,应不含颜色信息,交叉组合彩色图像和灰度图像的表征,解码得到图像。所述的图像重构损失计算为:
其中,表示第一中间彩色图像与原始的彩色图像xc之间的距离;表示第二中间灰度图像与原始的灰度图像xg之间的距离;表示第一中间灰度图像xcg与原始的灰度图像xg之间的距离;表示第二中间彩色图像xgc与原始的彩色图像xc之间的距离;表示第三中间彩色图像xgp与彩色图像xc之间的距离;
其中,表示彩色图像内容表征向量ct_c的重构损失,表示彩色图像颜色表征向量cr_c的重构损失,表示灰度图像内容表征向量ct_g的重构损失,表示灰度图像颜色表征向量cr_g的重构损失,表示彩色图像配色颜色表征向量的重构损失;
其中,D表示解码器,解码灰度图像内容信息表征向量ct_g和彩色图像颜色表征向量cr_c得到第二中间彩色图像xgc;再使用颜色信息编码器Ecr编码第二中间彩色图像xgc,得到重构彩色图像颜色表征向量使用L1范数损失函数计算重构彩色图像颜色表征向量与原始的彩色图像内容表征向量cr_c之间的距离,表示统计平均值;
2.4.3)针对KL损失,颜色信息编码器Ecr采用VAE的思想,将编码器的输出限制为标准正态分布,通过对标准正态分布进行采样即可得到颜色的向量表征数据。计算图像颜色表征向量分布与标准正态分布之间的KL散度作为KL损失计算为:
其中,表示图像颜色表征向量μ表示图像颜色信息分布的均值,σ2表示图像颜色信息分布的平方差;
2.4.4)为了联合文本信息,本发明提出了配色信息作为“桥梁”的结合方法。使用图像的配色信息pi辅助训练,使得配色编码器Ep能够将文本生成的配色信息pt也能够映射到彩色图像颜色表征向量cr_c所在正态分布。此外,灰度图像不含颜色信息,为了避免噪声影响编码器的训练,灰度图像的颜色表征向量应不包含任何信息。所述的分布限制损失针对配色信息,所述的分布限制损失计算如下:
2.4.5)本发明提出的框架中解码器D将颜色表征向量和内容表征向量解码,试图生成“以假乱真”的图像,扮演着生成器的角色。彩色图像鉴别器Dc区分重构的彩色图像与真实彩色图像,而灰度图像鉴别器Dg区分合成灰度图像与真实灰度图像。在彩色图像鉴别器Dc和灰度图像鉴别器Dg处理过程中,计算生成对抗损失:
其中,表示彩色图像鉴别器Dc鉴别第一中间彩色图像的生成对抗损失子函数,表示灰度图像鉴别器Dg鉴别第二中间灰度图像的生成对抗损失子函数,表示灰度图像鉴别器Dg鉴别第一中间灰度图像xcg的生成对抗损失子函数,表示彩色图像鉴别器Dc鉴别第二中间彩色图像xgc的生成对抗损失子函数,表示彩色图像鉴别器Dc鉴别第三中间彩色图像xgp的生成对抗损失子函数;
其中,表示训练解码器D时最小化损失函数,训练彩色图像鉴别器Dc时最大化损失函数,D(ct_g,cr_p)表示由解码器D生成的第三中间彩色图像xgp,Dc(*)表示彩色图像鉴别损失,使用sigmoid函数计算,表示统计平均值;
其中,λi表示图像重构损失的权重,λl表示表征重构损失的权重,λk表示KL损失的权重,λd表示分布限制损失的权重,λa表示生成对抗损失的权重,实验中分别取λi=10、λl=2、λk=3、λd=3、λa=2。
所述步骤3)中的文本配色信息pt是文本配色生成网络TPN根据输入的文本生成的符合文本语义的5个颜色的RGB值。
所述步骤4)具体为:
对于待测的灰度图像,将灰度图像输入到步骤2)中训练获得的编码器-解码器网络中的内容信息编码器Ect中,得到灰度图像内容表征向量ct_g;
文本的语义能够与图像的颜色信息结合起来。取决于TPN生成了与文本语义相关的文本配色pt,以及本发明在步骤2)中将图像配色信息pi通过配色信息编码器Ep映射到彩色图像的颜色表征向量cr_c所在空间,得到这样能使配色颜色表征向量作为颜色表征参与重构图像,从而文本配色颜色表征向量也能作为颜色表征向量参与重构图像。
所述步骤2)中,内容信息编码器Ect是由连续三个卷积层和连续四个残差块依次连接构成,颜色信息编码器Ecr是由五个卷积层依次连接构成,配色信息编码器Ep是由四个卷积层依次连接构成,解码器D是由连续四个残差块和连续三个卷积层依次连接构成,结构与内容信息编码器Ect对称。
本发明将文本语义信息与图像上色任务结合起来,并且解决了图像上色方法依赖于复杂的人工标记图像或者寻找参考图像的问题。本发明使用文本配色生成网络,根据输入文本,生成符合文本语义的多种颜色,作为配色信息,指导图像上色。通过学习图像的解耦表征,将图像内容信息和颜色信息映射到向量空间的不同位置,得到图像内容表征向量和颜色表征向量。同时把文本的颜色信息也映射到图像颜色信息所在位置,得到文本配色的颜色表征向量。组合图像的内容表征向量和文本的颜色表征向量,即可重构出保留原始图像内容,颜色符合文本语义的彩色图像。
本发明的有益效果是:
1.本发明能够处理文本信息,根据不同的文本,生成多种不同与文本语义相关的上色结果。使用彩色和灰度的图像对来训练网络,提取彩色图像的配色信息pi训练编码器Ep,作为图像与文本信息结合的桥梁。
2.本发明使用学习图像解耦表征的方式来进行图像上色,不需要额外的标注信息和选择与目标图像相近的参考图像。
3.本发明能够生成高质量的上色结果。在编码-解码的过程中,通过图像重构和表征重构来限制模型能够保留图像重构的关键信息,生成高质量的彩色图像;并且引入生成对抗损失来使得重构出的图像与真实的图像更接近。
附图说明
图1为本发明所提出的方法的结构图,其中(a)为网络架构示意图,(b)为、步骤2)中提到的训练网络结构示意图,(c)为步骤3)、步骤4)、步骤5)中提到的结构示意图。
图2为本发明所提出的方法,用于训练网络的各项损失函数的示意图。
图3为本发明所提出的方法与现有最先进算法的实验结果比较示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
本发明采用两个计算机视觉领域常用的数据库MIR Flickr25K和CUB-200-2011验证本发明的有效性。MIR Flickr25K由25000幅社交图像网站Flickr的图像构成,20000幅用于训练,5000幅用于测试。CUB-200-2011是一个鸟类图像数据库,包含200中不同鸟类,共11788幅图像,180类图像用于训练,20类图像用于测试。本发明将数据库中的图像进行预处理,得到灰度图像,使用成对的彩色图像和灰度图像的形式训练网络,使用灰度图像进行测试。本发明中使用的文本数据有一个或多个词组成,来自于文本配色数据库PAT。以MIRFlickr25K数据库作为实施例来说明本发明的具体实施方式。下面结合附图及具体实施例对本发明作进一步详细说明。
一、图像预处理阶段
本发明使用PIL(Python Image Library)函数库中的convert函数将RGB格式的图像转化到CIE Lab空间,保存图像灰度层L作为灰度图像参与网络训练。原始的彩色图像和得到的灰度图像被裁减成256×256像素的图像。使用python函数库colorgram中的extract_colors函数统计所有像素点的颜色,相同颜色值进行统计数量,提取像素点颜色数量占比前5位的颜色,按照顺序保存其RGB值作为图像的配色信息pi,用于辅助训练。
二、解码器、编码器网络结构和处理
如图1(a)所示,本发明提出的架构中包含内容信息编码器Ect、颜色信息编码器Ecr、配色信息编码器Ep、解码器D、彩色图像鉴别器Dc和灰度图像鉴别器Dc。其中的内容编码器和解码器是由结构对称的残差块和卷积层组成的。鉴别器Dc和鉴别器Dg用于区分真实图像和重建图像。
其中:
内容信息编码器Ect是由连续三个卷积层和连续四个残差块依次连接构成。
颜色信息编码器Ecr是由五个卷积层依次连接构成。
配色信息编码器Ep是由四个卷积层依次连接构成。
解码器D是由连续四个残差块和连续三个卷积层依次连接构成,结构与内容信息编码器Ect对称。
然后利用编码器和解码器构建解码器、编码器网络结构进行以下处理:
2.1)彩色图像xc、灰度图像xg分别通过内容信息编码器Ect输出得到彩色图像内容表征向量ct_c和灰度图像内容表征向量ct_g,彩色图像xc、灰度图像xg分别通过颜色信息编码器Ecr得到彩色图像颜色表征向量cr_c和灰度图像颜色表征向量cr_g,同时将图像配色信息pi输入到配色信息编码器Ep中,得到彩色图像配色颜色表征向量cr_p;
2.2)将彩色图像内容表征向量ct_c和彩色图像颜色表征向量cr_c共同组合输入到解码器D中输出得到重构的第一中间彩色图像将彩色图像内容表征向量ct_c和灰度图像颜色表征向量cr_g共同组合输入到解码器D中输出得到第一中间灰度图像xcg,将灰度图像内容表征向量ct_g和彩色图像颜色表征向量cr_c共同组合输入到解码器D中输出得到第二中间彩色图像xgc,将灰度图像内容表征向量ct_g和灰色图像颜色表征向量ct_g共同组合输入到解码器D中输出得到重构的第二中间灰度图像将灰度图像内容表征向量ct_g和彩色图像配色颜色表征向量共同组合输入到解码器D中输出得到第三中间彩色图像xgp;
将第一中间灰度图像xcg再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构彩色图像内容表征向量重构灰度图像颜色表征向量将第二中间彩色图像xgc再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构灰度图像内容表征向量和重构彩色图像颜色表征向量将第三中间彩色图像xgp再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构灰度图像内容表征向量和重构彩色图像配色颜色表征向量
三、损失函数
损失函数用于更新网络的参数。损失函数的设计包含以下原则:
解耦图像内容信息和颜色信息,内容表征向量中应不含颜色信息,颜色表征向量中也应不含内容信息;为了保证输出结果的质量,编码得到的表征中应尽可能多的包含关键信息;为了将文本信息映射到图像颜色的向量空间,用于辅助训练的图像配色pi得到的颜色表征向量分布应与图像颜色表征向量cr_c分布一致。
其中,表示第一中间彩色图像与原始的彩色图像xc之间的距离;表示第二中间灰度图像与原始的灰度图像xg之间的距离;表示第一中间灰度图像xcg与原始的灰度图像xg之间的距离;表示第二中间彩色图像xgc与原始的彩色图像xc之间的距离;表示第三中间彩色图像xgp与彩色图像xc之间的距离;
其中,表示彩色图像内容表征向量ct_c的重构损失,表示彩色图像颜色表征向量cr_c的重构损失,表示灰度图像内容表征向量ct_g的重构损失,表示灰度图像颜色表征向量cr_g的重构损失,表示彩色图像配色颜色表征向量的重构损失;
其中,D表示解码器,解码灰度图像内容信息表征向量ct_g和彩色图像颜色表征向量cr_c得到第二中间彩色图像xgc;再使用颜色信息编码器Ecr编码第二中间彩色图像xgc,得到重构彩色图像颜色表征向量使用L1范数损失函数计算重构彩色图像颜色表征向量与原始的彩色图像内容表征向量cr_c之间的距离,表示统计平均值。
其中,μ表示图像颜色信息分布的均值,σ2表示图像颜色信息分布的平方差。
4)分布限制损失计算如下:
5)在彩色图像鉴别器Dc和灰度图像鉴别器Dg处理过程中,计算生成对抗损失:
其中,表示彩色图像鉴别器Dc鉴别第一中间彩色图像的生成对抗损失子函数,表示灰度图像鉴别器Dg鉴别第二中间灰度图像的生成对抗损失子函数,表示灰度图像鉴别器Dg鉴别第一中间灰度图像xcg的生成对抗损失子函数,表示彩色图像鉴别器Dc鉴别第二中间彩色图像xgc的生成对抗损失子函数,表示彩色图像鉴别器Dc鉴别第三中间彩色图像xgp的生成对抗损失子函数;
其中,表示训练解码器D时最小化损失函数训练彩色图像鉴别器Dc时最大化函数D(ct_g,cr_p)表示由解码器D生成的第三中间彩色图像xgp,其余项生成对抗损失子函数定义与xgp类似,Dc(*)表示彩色图像的鉴别损失,使用sigmoid函数计算,表示统计平均值。
其中,λi表示图像重构损失的权重,λl表示表征重构损失的权重,λk表示KL损失的权重,λd表示分布限制损失的权重,λa表示生成对抗损失的权重,实验中分别取λi=10、λl=2、λk=3、λd=3、λa=2。
本实施例中使用Adam优化器更新网络参数,在20000幅图像训练集上迭代100000次,获得训练好的编码器-解码器网络。
四、图像文本指导上色
如附图1(c)所示,具体为:
4.1、将文本输入到文本配色生成网络TPN中,得到符合文本语义的5个颜色的RGB值,作为与文本语义相关的文本配色信息pt;
4.2、对于待测的彩色图像对应的文本,将文本生成的文本配色信息pt输入到步骤2)中训练获得的编码器-解码器网络中的配色信息编码器Ep中,即将文本配色信息pt映射到图像的颜色表征向量所在的空间,得到文本配色颜色表征向量
4.3、对于待测的彩色图像,处理成灰度图像,将灰度图像输入到步骤2)中训练获得的编码器-解码器网络中的内容信息编码器Ect中,得到灰度图像内容表征向量ct_g;
本发明中对比了现有最先进的方法,结果如附图3所示。其中真实配色是指文本与配色数据库PAT中,文本所对应的真实配色,作为本发明方法与对比方法结果的参考。可以看出,对比方法的结果中图像整体的色调一致,不能区分图像的内容,因而上色结果不够自然;本发明方法能够根据图像内容生成不同区域颜色不同的上色结果,更加自然。并且对比方法的结果中图像的颜色与文本生成的配色有差异,上色过程中不能准确的将配色信息映射到图像中;而本发明方法的上色结果能准确反映配色信息,更符合文本的语义。
Claims (6)
1.一种图像解耦表征下的文本指导图像上色方法,其特征在于:该方法的以下步骤:
步骤1)对于每幅原始的彩色图像xc,生成原始的灰度图像xg,提取彩色图像中的图像配色信息pi,图像配色信息pi用于辅助训练;
步骤2)构建编码器-解码器网络作为学习图像解耦表征的网络,利用图像配色信息pi和彩色图像xc、灰度图像xg一起处理输入训练编码器-解码器网络,并且通过颜色表征向量和内容表征向量重构图像;
所述的步骤2)中,编码器-解码器网络包括内容信息编码器Ect、颜色信息编码器Ecr、配色信息编码器Ep和解码器D,然后每一次迭代的步骤具体包括:
2.1)将步骤1)提到的彩色图像xc、灰度图像xg输入到编码器-解码器网络中处理得到内容表征向量、颜色表征向量和配色颜色表征向量;
2.2)将彩色图像内容表征向量ct_c、灰度图像内容表征向量ct_g、彩色图像颜色表征向量cr_c、灰度图像颜色表征向量cr_g、彩色图像配色颜色表征向量cr_pi分别组合地输入到解码器D中,得到多幅中间图像;
2.3)将步骤2.2)中得到的图像,再输入到编码器中得到重构表征向量;再将重构表征向量再输入到解码器D中,得到输出图像;
2.5)将步骤2.4)中得到的生成对抗损失、重构损失、表征限制损失综合计算,使用Adam优化器进行训练并更新网络参数,并开始下一次迭代;经过1000000次迭代后,获得训练好的编码器-解码器网络;
步骤3)对于文本,将文本语义和颜色信息相关联,得到与文本语义相关的文本配色信息pt;
步骤4)将步骤3)得到的文本配色信息映射到步骤2)中获得的训练好的编码器-解码器网络的一个颜色表征向量所在的编码器中,得到文本颜色表征向量;结合文本颜色表征向量和图像内容表征向量,生成上色结果。
2.根据权利要求1所述的一种图像解耦表征下的文本指导图像上色方法,其特征在于:所述步骤1)中的图像配色信息pi由占彩色图像各个像素点的所有颜色中出现数量前5位的颜色的RGB值组成。
3.根据权利要求1所述的一种图像解耦表征下的文本指导图像上色方法,其特征在于:所述的步骤2)中,具体为:
2.1)彩色图像xc、灰度图像xg分别通过内容信息编码器Ect输出得到彩色图像内容表征向量ct_c和灰度图像内容表征向量ct_g,彩色图像xc、灰度图像xg分别通过颜色信息编码器Ecr得到彩色图像颜色表征向量cr_c和灰度图像颜色表征向量cr_g,同时将图像配色信息pi输入到配色信息编码器Ep中,得到彩色图像配色颜色表征向量cr_pi;
2.2)将彩色图像内容表征向量ct_c和彩色图像颜色表征向量cr_c共同组合输入到解码器D中输出得到重构的第一中间彩色图像将彩色图像内容表征向量ct_c和灰度图像颜色表征向量cr_g共同组合输入到解码器D中输出得到第一中间灰度图像xcg,将灰度图像内容表征向量ct_g和彩色图像颜色表征向量cr_c共同组合输入到解码器D中输出得到第二中间彩色图像xgc,将灰度图像内容表征向量ct_g和灰色图像颜色表征向量ct_g共同组合输入到解码器D中输出得到重构的第二中间灰度图像将灰度图像内容表征向量ct_g和彩色图像配色颜色表征向量共同组合输入到解码器D中输出得到第三中间彩色图像xgp;
将第一中间灰度图像xcg再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构彩色图像内容表征向量重构灰度图像颜色表征向量将第二中间彩色图像xgc再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构灰度图像内容表征向量和重构彩色图像颜色表征向量将第三中间彩色图像xgp再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构灰度图像内容表征向量和重构彩色图像配色颜色表征向量
其中,表示第一中间彩色图像与原始的彩色图像xc之间的距离;表示第二中间灰度图像与原始的灰度图像xg之间的距离;表示第一中间灰度图像xcg与原始的灰度图像xg之间的距离;表示第二中间彩色图像xgc与原始的彩色图像xc之间的距离;表示第三中间彩色图像xgp与彩色图像xc之间的距离;
其中,表示彩色图像内容表征向量ct_c的重构损失,表示彩色图像颜色表征向量cr_c的重构损失,表示灰度图像内容表征向量ct_g的重构损失,表示灰度图像颜色表征向量cr_g的重构损失,表示彩色图像配色颜色表征向量的重构损失;
其中,D表示解码器,解码灰度图像内容信息表征向量ct_g和彩色图像颜色表征向量cr_c得到第二中间彩色图像xgc;再使用颜色信息编码器Ecr编码第二中间彩色图像xgc,得到重构彩色图像颜色表征向量使用L1范数损失函数计算重构彩色图像颜色表征向量与原始的彩色图像内容表征向量cr_c之间的距离,表示统计平均值;
其中,图像颜色表征向量μ表示图像颜色信息分布的均值,σ2表示图像颜色信息分布的平方差;
2.4.4)所述的分布限制损失计算如下:
2.4.5)在彩色图像鉴别器Dc和灰度图像鉴别器Dg处理过程中,计算生成对抗损失:
其中,表示彩色图像鉴别器Dc鉴别第一中间彩色图像的生成对抗损失子函数,表示灰度图像鉴别器Dg鉴别第二中间灰度图像的生成对抗损失子函数,表示灰度图像鉴别器Dg鉴别第一中间灰度图像xcg的生成对抗损失子函数,表示彩色图像鉴别器Dc鉴别第二中间彩色图像xgc的生成对抗损失子函数,表示彩色图像鉴别器Dc鉴别第三中间彩色图像xgp的生成对抗损失子函数;
其中,表示训练解码器D时最小化损失函数,训练彩色图像鉴别器Dc时最大化损失函数,D(ct_g,cr_p)表示由解码器D生成的第三中间彩色图像xgp,Dc(*)表示彩色图像鉴别损失,使用sigmoid函数计算,表示统计平均值;
4.根据权利要求1所述的一种图像解耦表征下的文本指导图像上色方法,其特征在于:所述步骤3)中的文本配色信息pt是文本配色生成网络TPN根据输入的文本生成的符合文本语义的5个颜色的RGB值。
6.根据权利要求1或3所述的一种图像解耦表征下的文本指导图像上色方法,其特征在于:所述步骤2)中,内容信息编码器Ect是由连续三个卷积层和连续四个残差块依次连接构成,颜色信息编码器Ecr是由五个卷积层依次连接构成,配色信息编码器Ep是由四个卷积层依次连接构成,解码器D是由连续四个残差块和连续三个卷积层依次连接构成,结构与内容信息编码器Ect对称。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910740824.5A CN110570484B (zh) | 2019-08-12 | 2019-08-12 | 一种图像解耦表征下的文本指导图像上色方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910740824.5A CN110570484B (zh) | 2019-08-12 | 2019-08-12 | 一种图像解耦表征下的文本指导图像上色方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110570484A CN110570484A (zh) | 2019-12-13 |
CN110570484B true CN110570484B (zh) | 2021-09-24 |
Family
ID=68775212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910740824.5A Active CN110570484B (zh) | 2019-08-12 | 2019-08-12 | 一种图像解耦表征下的文本指导图像上色方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110570484B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062865B (zh) * | 2020-03-18 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN111696026B (zh) * | 2020-05-06 | 2023-06-23 | 华南理工大学 | 基于l0正则项的可逆灰度图算法、计算设备 |
CN113554733B (zh) * | 2021-07-28 | 2022-02-01 | 北京大学 | 基于语言的解耦合条件注入灰度图像彩色化方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7343037B1 (en) * | 2004-02-04 | 2008-03-11 | Microsoft Corporation | Dynamic, locally-adaptive, lossless palettization of color and grayscale images |
CN107564087A (zh) * | 2017-09-11 | 2018-01-09 | 南京大学 | 一种基于屏幕的三维线状符号渲染方法 |
CN108182672A (zh) * | 2014-05-28 | 2018-06-19 | 皇家飞利浦有限公司 | 用于对hdr图像进行编码的方法和装置以及用于使用这样的编码图像的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10543425B2 (en) * | 2017-05-16 | 2020-01-28 | Sony Interactive Entertainment America Llc | Systems and methods for detecting and displaying a boundary associated with player movement |
-
2019
- 2019-08-12 CN CN201910740824.5A patent/CN110570484B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7343037B1 (en) * | 2004-02-04 | 2008-03-11 | Microsoft Corporation | Dynamic, locally-adaptive, lossless palettization of color and grayscale images |
CN108182672A (zh) * | 2014-05-28 | 2018-06-19 | 皇家飞利浦有限公司 | 用于对hdr图像进行编码的方法和装置以及用于使用这样的编码图像的方法和装置 |
CN107564087A (zh) * | 2017-09-11 | 2018-01-09 | 南京大学 | 一种基于屏幕的三维线状符号渲染方法 |
Non-Patent Citations (2)
Title |
---|
Nonlinear Discrete Cross-Modal Hashing for Visual-Textual Data;Dekui Ma 等;《IEEE MultiMedia》;20170510;第24卷(第2期);56-65 * |
基于对抗生成网络的反射去除算法;周乐;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180715(第07期);I138-1375 * |
Also Published As
Publication number | Publication date |
---|---|
CN110570484A (zh) | 2019-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109190722B (zh) | 基于满文字符图片的字体风格迁移变换方法 | |
CN108537742B (zh) | 一种基于生成对抗网络的遥感图像全色锐化方法 | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN110570484B (zh) | 一种图像解耦表征下的文本指导图像上色方法 | |
CN110472688A (zh) | 图像描述的方法及装置、图像描述模型的训练方法及装置 | |
CN111428071B (zh) | 一种基于多模态特征合成的零样本跨模态检索方法 | |
CN111767718B (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
CN112231472B (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
CN113449801B (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
US20180365594A1 (en) | Systems and methods for generative learning | |
CN110349229A (zh) | 一种图像描述方法及装置 | |
CN114549850B (zh) | 一种解决模态缺失问题的多模态图像美学质量评价方法 | |
CN114255159A (zh) | 手写文本图像生成方法、装置、电子设备和存储介质 | |
CN113448477A (zh) | 交互式图像编辑方法、装置、可读存储介质及电子设备 | |
CN110705459A (zh) | 数理化公式自动识别方法及装置、模型训练方法及装置 | |
CN113140020A (zh) | 一种基于伴随监督生成对抗网络的文本生成图像的方法 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
CN114444488B (zh) | 一种少样本机器阅读理解方法、***、设备及存储介质 | |
CN113792541B (zh) | 一种引入互信息正则化器的方面级情感分析方法 | |
CN115496134A (zh) | 基于多模态特征融合的交通场景视频描述生成方法和装置 | |
CN109886105A (zh) | 基于多任务学习的价格牌识别方法、***及存储介质 | |
CN114896969A (zh) | 一种基于深度学习的方面词提取方法 | |
Reddy et al. | Effect of image colourspace on performance of convolution neural networks | |
CN114944002A (zh) | 文本描述辅助的姿势感知的人脸表情识别方法 | |
CN114330237A (zh) | 一种基于嵌套编-解码网络的中文字体生成方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |