CN110570484B

CN110570484B - 一种图像解耦表征下的文本指导图像上色方法

Info

Publication number: CN110570484B
Application number: CN201910740824.5A
Authority: CN
Inventors: 孔祥维; 王鑫鑫
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2021-09-24
Anticipated expiration: 2039-08-12
Also published as: CN110570484A

Abstract

本发明公开了一种图像解耦表征下的文本指导图像上色方法。对于每幅彩色图像，生成灰度图像，提取彩色图像中的图像配色信息；构建编码器‑解码器网络作为学习图像解耦表征的网络，利用图像配色信息和彩色图像、灰度图像处理输入训练编码器‑解码器网络，并且通过颜色表征向量和内容表征向量重构图像；将文本语义和颜色信息相关联，得到与文本语义相关的文本配色信息；将文本配色信息映射到训练后网络的颜色表征向量所在的编码器中，得到文本颜色表征向量；结合文本颜色表征向量和图像内容表征向量，生成上色结果。本发明将文本语义信息与图像上色任务结合起来，并且解决了图像上色方法依赖于复杂的人工标记图像或者寻找参考图像的问题。

Description

一种图像解耦表征下的文本指导图像上色方法

技术领域

本发明涉及了一种图像解耦表征下的文本指导图像上色方法。本发明涉深度学习，图像处理，学习图像解耦表征等技术。

背景技术

色彩是图像中最重要的组成部分之一，能够给人留下深刻的印象，对于表达信息至关重要。比如商家常常根据不同的季节，来设计不同配色的营销海报。此外，经过验证，图像颜色对于图像分类等任务的性能有很大影响。然而，由于成像设备和光照的限制，很多图像的色彩不尽人意，甚至没有颜色。因而图像上色是图像处理领域很重要的研究课题。

图像上色任务通常由专业人士手动完成，非常复杂且耗时。随着深度学习的兴起，许多基于深度网络的图像上色方法致力于减轻人力的负担并更有效地执行这些任务。这些方法可以分为三类：基于涂鸦着色，基于示例着色和基于学习着色。基于涂鸦的方法根据在图像不同区域标注的颜色来对于整体图像上色，仍然需要手工工作和专业技能来提供可靠的标注。基于示例的方法通过匹配全局颜色的统计信息，将颜色信息从参考图像传送到目标灰度图像，颜色分布的结构性较差，并且上色结果取决于选择的参考图像。基于学习的方法通过线性***解决着色问题，无需人为干预，但是这种方法对一个灰度图像只能生成一种结果。并且这种端到端的学习式方法是一种黑盒模型，人们无法得知生成上色结果的来龙去脉，可解释性较差。

此外，在互联网海量的数据中，图文多模数据是一种很重要的数据形式。结合图像和文本数据，利用其多模数据的互补性可以消除歧义和不确定性，获得更准确的数据理解。文本数据在表达语义上更明确具体，并且具有更好的可解释性，但是在图像上色任务中，文本信息很少被考虑进来。人类能够很容易理解文本并将其与颜色对应起来，但是对于机器来说并不容易。不同模式的数据之间存在语义“鸿沟”，由文本直接生成彩色图像是比较困难的，如何跨过图像-文本间的语义“鸿沟”，将文本的语义信息用于指导灰度图像的上色任务也是本发明要解决的技术问题之一。

本发明中使用学习图像的解耦表征的方法来实现图像的上色，能够产生不同的上色结果，并且具有一定的可解释性。本发明中提出的模型是一种编码-解码结构的模型，存在“瓶颈”现象，即图像的信息会在编码和解码的过程中丢失。为了重构出高质量的彩色图像，要尽可能保留图像的关键信息，这也是本发明要解决的问题之一。

本发明中要解决的问题包括：减少人力的消耗；提高上色结果的颜色结构性和图像质量；增加上色结果的多样性；结合文本信息，提高方法的可解释性，生成符合文本语义的上色结果。

发明内容

本发明的目的在于解决现有图像上色方法忽略文本信息，依赖于人工标注、选择参考图像，或者上色结果结构性差、多样性低的问题的技术问题，提供一种图像解耦表征下的文本指导图像上色方法。

本发明是通过以下技术方案来实现的：

步骤1)对于数据库中的每幅原始的彩色图像x_c，生成原始的灰度图像x_g，提取彩色图像中的图像配色信息p_i，图像配色信息p_i用于辅助训练；

步骤2)构建编码器-解码器网络作为学习图像解耦表征的网络，利用图像配色信息p_i和彩色图像x_c、灰度图像x_g一起处理输入训练编码器-解码器网络，使能够将图像的颜色信息和内容信息映射到在向量空间进行表征，并且通过颜色表征向量和内容表征向量重构图像；

本发明所设计的编码器-解码器网络在较高分辨率下会丢失细节。通常使用跳连来解决它，然而，跳连对学习解耦表征具有不利影响。本发明中增加了潜在表征的规模，用于减少“瓶颈效应”的影响。

步骤3)对于文本，将文本语义和颜色信息相关联，得到与文本语义相关的文本配色信息p_t；

所述的文本包含一个词或者多个词的文本数据。

具体是指将文本输入到文本配色生成网络TPN中，得到符合文本语义的5个颜色的RGB值，作为文本配色信息p_t。由文本配色生成网络TPN具体是采用文献《Bahng H,Yoo S,Cho W,et al.Coloring with Words:Guiding Image Colorization Through Text-basedPalette Generation[C]//Proceedings of the European Conference on ComputerVision(ECCV).2018:431-447.》中的方法实施，文本配色网络TPN在文本配色数据库PAT上训练。

步骤4)将步骤3)得到的文本配色信息映射到步骤2)中获得的训练好的编码器-解码器网络的一个颜色表征向量所在的编码器中，得到文本颜色表征向量；结合文本颜色表征向量和图像内容表征向量，生成彩色图像作为上色结果。

所述的步骤2)中，编码器-解码器网络包括内容信息编码器E_ct、颜色信息编码器E_cr、配色信息编码器E_p和解码器D，然后每一次迭代的步骤具体包括：

2.1)将步骤1)提到的彩色图像x_c、灰度图像x_g输入到编码器-解码器网络中处理得到内容表征向量、颜色表征向量和配色颜色表征向量；

2.2)将彩色图像内容表征向量c_{t_c}、灰度图像内容表征向量c_{t_g}、彩色图像颜色表征向量c_{r_c}、灰度图像颜色表征向量c_{r_g}、彩色图像配色颜色表征向量

分别组合地输入到解码器D中，得到多幅中间图像；

2.3)将步骤2.2)中得到的图像，再输入到编码器中得到重构表征向量；再将重构表征向量再输入到解码器D中，得到输出图像；

2.4)根据步骤2.2)和步骤2.3)的结果，分别计算图像重构损失

表征重构损失

KL损失

分布限制

和生成对抗损失

2.5)将步骤2.4)中得到的生成对抗损失、重构损失、表征限制损失综合计算，使用Adam优化器进行训练并更新网络参数，并开始下一次迭代；经过1000000次迭代后，获得训练好的编码器-解码器网络。

所述步骤1)中的图像配色信息p_i由占彩色图像各个像素点的所有颜色中出现数量前5位的颜色的RGB值组成。

所述的步骤2)中，具体为：

2.1)彩色图像x_c、灰度图像x_g分别通过内容信息编码器E_ct输出得到彩色图像内容表征向量c_{t_c}和灰度图像内容表征向量c_{t_g}，彩色图像x_c、灰度图像x_g分别通过颜色信息编码器E_cr得到彩色图像颜色表征向量c_{r_c}和灰度图像颜色表征向量c_{r_g}，同时将图像配色信息p_i输入到配色信息编码器E_p中，得到彩色图像配色颜色表征向量

2.2)将彩色图像内容表征向量c_{t_c}和彩色图像颜色表征向量c_{r_c}共同组合输入到解码器D中输出得到重构的第一中间彩色图像

将彩色图像内容表征向量c_{t_c}和灰度图像颜色表征向量c_{r_g}共同组合输入到解码器D中输出得到第一中间灰度图像x_cg，将灰度图像内容表征向量c_{t_g}和彩色图像颜色表征向量c_{r_c}共同组合输入到解码器D中输出得到第二中间彩色图像x_gc，将灰度图像内容表征向量c_{t_g}和灰色图像颜色表征向量c_{t_g}共同组合输入到解码器D中输出得到重构的第二中间灰度图像

将灰度图像内容表征向量c_{t_g}和彩色图像配色颜色表征向量

共同组合输入到解码器D中输出得到第三中间彩色图像x_gp；

2.3)将第一中间彩色图像

第二中间彩色图像x_gc和第三中间彩色图像x_gp输入到彩色图像鉴别器D_c中，将第一中间灰度图像x_cg、第二中间灰度图像

输入到灰度图像鉴别器D_g中；

将第一中间灰度图像x_cg再分别输入到内容信息编码器E_ct和颜色信息编码器E_cr中得到重构彩色图像内容表征向量

重构灰度图像颜色表征向量

将第二中间彩色图像x_gc再分别输入到内容信息编码器E_ct和颜色信息编码器E_cr中得到重构灰度图像内容表征向量

和重构彩色图像颜色表征向量

将第三中间彩色图像x_gp再分别输入到内容信息编码器E_ct和颜色信息编码器E_cr中得到重构灰度图像内容表征向量

和重构彩色图像配色颜色表征向量

将重构彩色图像内容表征向量

和重构彩色图像颜色表征向量

再输入到解码器中得到彩色输出图像x_cgc，将重构灰度图像内容表征向量

和重构灰度图像颜色表征向量

再输入到解码器中得到灰度输出图像x_gcg；

2.4)采用以下方式计算重构损失、分布限制损失等各个损失值，使得彩色图像配色信息p_i的颜色表征向量

与彩色图像颜色表征向量c_{r_c}在向量空间的距离相近；并且灰度图像的颜色表征向量c_{r_g}不包含任何信息。

2.4.1)图像重构损失包含重构原始图像和交叉重构。具体是指：给定图像，网络应能够在编码和解码后重构原图像；彩色图像和灰度图像的内容一致，内容表征向量包含信息相同，应不含颜色信息，交叉组合彩色图像和灰度图像的表征，解码得到图像。所述的图像重构损失

计算为：

其中，

表示第一中间彩色图像

与原始的彩色图像x_c之间的距离；

表示第二中间灰度图像

与原始的灰度图像x_g之间的距离；

表示第一中间灰度图像x_cg与原始的灰度图像x_g之间的距离；

表示第二中间彩色图像x_gc与原始的彩色图像x_c之间的距离；

表示第三中间彩色图像x_gp与彩色图像x_c之间的距离；

上述五种距离

均采用相同方式计算获得，均采用使用L1范数损失函数方式来计算；

2.4.2)表征重构损失

是指在给定向量空间里内容表征向量和颜色表征向量的组合，经过解码和再编码之后，信息不会丢失，仍然能够得到原来的表征数据。所述的表征重构损失

计算为：

其中，

表示彩色图像内容表征向量c_{t_c}的重构损失，

表示彩色图像颜色表征向量c_{r_c}的重构损失，

表示灰度图像内容表征向量c_{t_g}的重构损失，

表示灰度图像颜色表征向量c_{r_g}的重构损失，

表示彩色图像配色颜色表征向量

的重构损失；

上述五种重构损失

均采用相同方式计算获得，以彩色图像颜色表征向量c_{r_c}的重构损失

为例说明计算为：

其中，D表示解码器，解码灰度图像内容信息表征向量c_{t_g}和彩色图像颜色表征向量c_{r_c}得到第二中间彩色图像x_gc；再使用颜色信息编码器E_cr编码第二中间彩色图像x_gc，得到重构彩色图像颜色表征向量

使用L1范数损失函数计算重构彩色图像颜色表征向量

与原始的彩色图像内容表征向量c_{r_c}之间的距离，

表示统计平均值；

2.4.3)针对KL损失，颜色信息编码器E_cr采用VAE的思想，将编码器的输出限制为标准正态分布，通过对标准正态分布进行采样即可得到颜色的向量表征数据。计算图像颜色表征向量分布

与标准正态分布

之间的KL散度作为KL损失

计算为：

其中，表示图像颜色表征向量μ表示图像颜色信息分布的均值，σ²表示图像颜色信息分布的平方差；

2.4.4)为了联合文本信息，本发明提出了配色信息作为“桥梁”的结合方法。使用图像的配色信息p_i辅助训练，使得配色编码器E_p能够将文本生成的配色信息p_t也能够映射到彩色图像颜色表征向量c_{r_c}所在正态分布。此外，灰度图像不含颜色信息，为了避免噪声影响编码器的训练，灰度图像的颜色表征向量应不包含任何信息。所述的分布限制损失针对配色信息，所述的分布限制损失计算如下：

其中，E_p(p_i)表示配色编码器E_p编码图像配色信息p_i而得到彩色图像配色颜色表征向量

再使用L1范数损失函数计算彩色图像配色颜色表征向量

与彩色图像颜色表征向量c_{r_c}之间的距离；

E_cr(x_g)表示颜色信息编码器E_cr编码灰度图像x_g而得到灰度图像颜色表征向量c_{r_g}，再使用L1范数损失函数计算灰度图像颜色表征向量c_{r_g}与0向量之间的距离；

表示统计平均值；

2.4.5)本发明提出的框架中解码器D将颜色表征向量和内容表征向量解码，试图生成“以假乱真”的图像，扮演着生成器的角色。彩色图像鉴别器D_c区分重构的彩色图像与真实彩色图像，而灰度图像鉴别器D_g区分合成灰度图像与真实灰度图像。在彩色图像鉴别器D_c和灰度图像鉴别器D_g处理过程中，计算生成对抗损失：

其中，

表示彩色图像鉴别器D_c鉴别第一中间彩色图像

的生成对抗损失子函数，

表示灰度图像鉴别器D_g鉴别第二中间灰度图像

的生成对抗损失子函数，

表示灰度图像鉴别器D_g鉴别第一中间灰度图像x_cg的生成对抗损失子函数，

表示彩色图像鉴别器D_c鉴别第二中间彩色图像x_gc的生成对抗损失子函数，

表示彩色图像鉴别器D_c鉴别第三中间彩色图像x_gp的生成对抗损失子函数；

上述五种生成对抗损失子函数

均采用相同方式计算获得，以第三中间彩色图像x_gp为例，生成对抗损失子函数

计算为：

其中，

表示训练解码器D时最小化损失函数，训练彩色图像鉴别器D_c时最大化损失函数，D(c_{t_g},c_{r_p})表示由解码器D生成的第三中间彩色图像x_gp，D_c(*)表示彩色图像鉴别损失，使用sigmoid函数计算，

表示统计平均值；

2.5)综合图像重构损失

表征重构损失

KL损失

分布限制

和生成对抗损失

获得总体损失函数，总体损失函数为：

其中，λ_i表示图像重构损失

的权重，λ_l表示表征重构损失

的权重，λ_k表示KL损失

的权重，λ_d表示分布限制损失

的权重，λ_a表示生成对抗损失

的权重，实验中分别取λ_i＝10、λ_l＝2、λ_k＝3、λ_d＝3、λ_a＝2。

所述步骤3)中的文本配色信息p_t是文本配色生成网络TPN根据输入的文本生成的符合文本语义的5个颜色的RGB值。

所述步骤4)具体为：

对于文本数据，将文本生成的文本配色信息p_t输入到步骤2)中训练获得的编码器-解码器网络中的配色信息编码器E_p中，得到文本配色颜色表征向量

对于待测的灰度图像，将灰度图像输入到步骤2)中训练获得的编码器-解码器网络中的内容信息编码器E_ct中，得到灰度图像内容表征向量c_{t_g}；

然后将文本配色颜色表征向量

与灰度图像的内容表征向量c_{t_g}输入到解码器D中，输出得到内容信息与灰度图像相同且颜色信息符合文本语义信息的上色图像。

文本的语义能够与图像的颜色信息结合起来。取决于TPN生成了与文本语义相关的文本配色p_t，以及本发明在步骤2)中将图像配色信息p_i通过配色信息编码器E_p映射到彩色图像的颜色表征向量c_{r_c}所在空间，得到

这样能使配色颜色表征向量作为颜色表征参与重构图像，从而文本配色颜色表征向量

也能作为颜色表征向量参与重构图像。

所述步骤2)中，内容信息编码器E_ct是由连续三个卷积层和连续四个残差块依次连接构成，颜色信息编码器E_cr是由五个卷积层依次连接构成，配色信息编码器E_p是由四个卷积层依次连接构成，解码器D是由连续四个残差块和连续三个卷积层依次连接构成，结构与内容信息编码器E_ct对称。

本发明将文本语义信息与图像上色任务结合起来，并且解决了图像上色方法依赖于复杂的人工标记图像或者寻找参考图像的问题。本发明使用文本配色生成网络，根据输入文本，生成符合文本语义的多种颜色，作为配色信息，指导图像上色。通过学习图像的解耦表征，将图像内容信息和颜色信息映射到向量空间的不同位置，得到图像内容表征向量和颜色表征向量。同时把文本的颜色信息也映射到图像颜色信息所在位置，得到文本配色的颜色表征向量。组合图像的内容表征向量和文本的颜色表征向量，即可重构出保留原始图像内容，颜色符合文本语义的彩色图像。

本发明的有益效果是：

1.本发明能够处理文本信息，根据不同的文本，生成多种不同与文本语义相关的上色结果。使用彩色和灰度的图像对来训练网络，提取彩色图像的配色信息p_i训练编码器E_p，作为图像与文本信息结合的桥梁。

2.本发明使用学习图像解耦表征的方式来进行图像上色，不需要额外的标注信息和选择与目标图像相近的参考图像。

3.本发明能够生成高质量的上色结果。在编码-解码的过程中，通过图像重构和表征重构来限制模型能够保留图像重构的关键信息，生成高质量的彩色图像；并且引入生成对抗损失来使得重构出的图像与真实的图像更接近。

附图说明

图1为本发明所提出的方法的结构图，其中(a)为网络架构示意图，(b)为、步骤2)中提到的训练网络结构示意图，(c)为步骤3)、步骤4)、步骤5)中提到的结构示意图。

图2为本发明所提出的方法，用于训练网络的各项损失函数的示意图。

图3为本发明所提出的方法与现有最先进算法的实验结果比较示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明采用两个计算机视觉领域常用的数据库MIR Flickr25K和CUB-200-2011验证本发明的有效性。MIR Flickr25K由25000幅社交图像网站Flickr的图像构成，20000幅用于训练，5000幅用于测试。CUB-200-2011是一个鸟类图像数据库，包含200中不同鸟类，共11788幅图像，180类图像用于训练，20类图像用于测试。本发明将数据库中的图像进行预处理，得到灰度图像，使用成对的彩色图像和灰度图像的形式训练网络，使用灰度图像进行测试。本发明中使用的文本数据有一个或多个词组成，来自于文本配色数据库PAT。以MIRFlickr25K数据库作为实施例来说明本发明的具体实施方式。下面结合附图及具体实施例对本发明作进一步详细说明。

一、图像预处理阶段

本发明使用PIL(Python Image Library)函数库中的convert函数将RGB格式的图像转化到CIE Lab空间，保存图像灰度层L作为灰度图像参与网络训练。原始的彩色图像和得到的灰度图像被裁减成256×256像素的图像。使用python函数库colorgram中的extract_colors函数统计所有像素点的颜色，相同颜色值进行统计数量，提取像素点颜色数量占比前5位的颜色，按照顺序保存其RGB值作为图像的配色信息p_i，用于辅助训练。

二、解码器、编码器网络结构和处理

如图1(a)所示，本发明提出的架构中包含内容信息编码器E_ct、颜色信息编码器E_cr、配色信息编码器E_p、解码器D、彩色图像鉴别器D_c和灰度图像鉴别器D_c。其中的内容编码器和解码器是由结构对称的残差块和卷积层组成的。鉴别器D_c和鉴别器D_g用于区分真实图像和重建图像。

其中：

内容信息编码器E_ct是由连续三个卷积层和连续四个残差块依次连接构成。

颜色信息编码器E_cr是由五个卷积层依次连接构成。

配色信息编码器E_p是由四个卷积层依次连接构成。

解码器D是由连续四个残差块和连续三个卷积层依次连接构成，结构与内容信息编码器E_ct对称。

然后利用编码器和解码器构建解码器、编码器网络结构进行以下处理：

2.1)彩色图像x_c、灰度图像x_g分别通过内容信息编码器E_ct输出得到彩色图像内容表征向量c_{t_c}和灰度图像内容表征向量c_{t_g}，彩色图像x_c、灰度图像x_g分别通过颜色信息编码器E_cr得到彩色图像颜色表征向量c_{r_c}和灰度图像颜色表征向量c_{r_g}，同时将图像配色信息p_i输入到配色信息编码器E_p中，得到彩色图像配色颜色表征向量c_{r_p}；

将灰度图像内容表征向量c_{t_g}和彩色图像配色颜色表征向量

共同组合输入到解码器D中输出得到第三中间彩色图像x_gp；

2.3)将第一中间彩色图像

输入到灰度图像鉴别器D_g中；

重构灰度图像颜色表征向量

和重构彩色图像颜色表征向量

和重构彩色图像配色颜色表征向量

将重构彩色图像内容表征向量

和重构彩色图像颜色表征向量

和重构灰度图像颜色表征向量

再输入到解码器中得到灰度输出图像x_gcg。

三、损失函数

损失函数用于更新网络的参数。损失函数的设计包含以下原则：

解耦图像内容信息和颜色信息，内容表征向量中应不含颜色信息，颜色表征向量中也应不含内容信息；为了保证输出结果的质量，编码得到的表征中应尽可能多的包含关键信息；为了将文本信息映射到图像颜色的向量空间，用于辅助训练的图像配色p_i得到的颜色表征向量分布应与图像颜色表征向量c_{r_c}分布一致。

参照以上原则，本发明网络的损失函数包括图像重构损失

表征重构损失

KL损失

分布限制

和生成对抗损失

各类损失的示意图见图2。

1)图像重构损失

计算为：

其中，

表示第一中间彩色图像

与原始的彩色图像x_c之间的距离；

表示第二中间灰度图像

与原始的灰度图像x_g之间的距离；

表示第一中间灰度图像x_cg与原始的灰度图像x_g之间的距离；

表示第二中间彩色图像x_gc与原始的彩色图像x_c之间的距离；

表示第三中间彩色图像x_gp与彩色图像x_c之间的距离；

上述五种距离

以距离

举例，具体计算为：

其中，D表示解码器，解码灰度图像内容信息c_{t_g}和彩色图像配色的颜色表征向量

组合得到第三中间彩色图像x_gp，

表示统计平均值。

2)表征重构损失

计算为：

其中，

表示彩色图像内容表征向量c_{t_c}的重构损失，

表示彩色图像颜色表征向量c_{r_c}的重构损失，

表示灰度图像内容表征向量c_{t_g}的重构损失，

表示灰度图像颜色表征向量c_{r_g}的重构损失，

表示彩色图像配色颜色表征向量

的重构损失；

上述五种重构损失

为例说明计算为：

使用L1范数损失函数计算重构彩色图像颜色表征向量

与原始的彩色图像内容表征向量c_{r_c}之间的距离，

表示统计平均值。

3)计算图像颜色表征向量c_{r_c}的分布

与标准正态分布

之间的KL散度作为KL损失

计算为：

其中，μ表示图像颜色信息分布的均值，σ²表示图像颜色信息分布的平方差。

4)分布限制损失计算如下：

再使用L1范数损失函数计算彩色图像配色颜色表征向量

与彩色图像颜色表征向量c_{r_c}之间的距离；

表示统计平均值。

5)在彩色图像鉴别器D_c和灰度图像鉴别器D_g处理过程中，计算生成对抗损失：

其中，

表示彩色图像鉴别器D_c鉴别第一中间彩色图像

的生成对抗损失子函数，

表示灰度图像鉴别器D_g鉴别第二中间灰度图像

的生成对抗损失子函数，

上述五种生成对抗损失子函数

计算为：

其中，

表示训练解码器D时最小化损失函数

训练彩色图像鉴别器D_c时最大化函数

D(c_{t_g},c_{r_p})表示由解码器D生成的第三中间彩色图像x_gp，其余项生成对抗损失子函数定义与x_gp类似，D_c(*)表示彩色图像的鉴别损失，使用sigmoid函数计算，

表示统计平均值。

综合图像重构损失

表征重构损失

KL损失

分布限制

和生成对抗损失

获得总体损失函数，总体损失函数为：

其中，λ_i表示图像重构损失

的权重，λ_l表示表征重构损失

的权重，λ_k表示KL损失

的权重，λ_d表示分布限制损失

的权重，λ_a表示生成对抗损失

本实施例中使用Adam优化器更新网络参数，在20000幅图像训练集上迭代100000次，获得训练好的编码器-解码器网络。

四、图像文本指导上色

如附图1(c)所示，具体为：

4.1、将文本输入到文本配色生成网络TPN中，得到符合文本语义的5个颜色的RGB值，作为与文本语义相关的文本配色信息p_t；

4.2、对于待测的彩色图像对应的文本，将文本生成的文本配色信息p_t输入到步骤2)中训练获得的编码器-解码器网络中的配色信息编码器E_p中，即将文本配色信息p_t映射到图像的颜色表征向量所在的空间，得到文本配色颜色表征向量

4.3、对于待测的彩色图像，处理成灰度图像，将灰度图像输入到步骤2)中训练获得的编码器-解码器网络中的内容信息编码器E_ct中，得到灰度图像内容表征向量c_{t_g}；

4.4、然后将文本配色颜色表征向量

本发明中对比了现有最先进的方法，结果如附图3所示。其中真实配色是指文本与配色数据库PAT中，文本所对应的真实配色，作为本发明方法与对比方法结果的参考。可以看出，对比方法的结果中图像整体的色调一致，不能区分图像的内容，因而上色结果不够自然；本发明方法能够根据图像内容生成不同区域颜色不同的上色结果，更加自然。并且对比方法的结果中图像的颜色与文本生成的配色有差异，上色过程中不能准确的将配色信息映射到图像中；而本发明方法的上色结果能准确反映配色信息，更符合文本的语义。

Claims

1.一种图像解耦表征下的文本指导图像上色方法，其特征在于：该方法的以下步骤：

步骤1)对于每幅原始的彩色图像x_c，生成原始的灰度图像x_g，提取彩色图像中的图像配色信息p_i，图像配色信息p_i用于辅助训练；

步骤2)构建编码器-解码器网络作为学习图像解耦表征的网络，利用图像配色信息p_i和彩色图像x_c、灰度图像x_g一起处理输入训练编码器-解码器网络，并且通过颜色表征向量和内容表征向量重构图像；

2.2)将彩色图像内容表征向量c_{t_c}、灰度图像内容表征向量c_{t_g}、彩色图像颜色表征向量c_{r_c}、灰度图像颜色表征向量c_{r_g}、彩色图像配色颜色表征向量c_{r_pi}分别组合地输入到解码器D中，得到多幅中间图像；

2.4)根据步骤2.2)和步骤2.3)的结果，分别计算图像重构损失

表征重构损失

KL损失

分布限制损失

和生成对抗损失

2.5)将步骤2.4)中得到的生成对抗损失、重构损失、表征限制损失综合计算，使用Adam优化器进行训练并更新网络参数，并开始下一次迭代；经过1000000次迭代后，获得训练好的编码器-解码器网络；

步骤4)将步骤3)得到的文本配色信息映射到步骤2)中获得的训练好的编码器-解码器网络的一个颜色表征向量所在的编码器中，得到文本颜色表征向量；结合文本颜色表征向量和图像内容表征向量，生成上色结果。

2.根据权利要求1所述的一种图像解耦表征下的文本指导图像上色方法，其特征在于：所述步骤1)中的图像配色信息p_i由占彩色图像各个像素点的所有颜色中出现数量前5位的颜色的RGB值组成。

3.根据权利要求1所述的一种图像解耦表征下的文本指导图像上色方法，其特征在于：所述的步骤2)中，具体为：

2.1)彩色图像x_c、灰度图像x_g分别通过内容信息编码器E_ct输出得到彩色图像内容表征向量c_{t_c}和灰度图像内容表征向量c_{t_g}，彩色图像x_c、灰度图像x_g分别通过颜色信息编码器E_cr得到彩色图像颜色表征向量c_{r_c}和灰度图像颜色表征向量c_{r_g}，同时将图像配色信息p_i输入到配色信息编码器E_p中，得到彩色图像配色颜色表征向量c_{r_pi}；

将灰度图像内容表征向量c_{t_g}和彩色图像配色颜色表征向量

共同组合输入到解码器D中输出得到第三中间彩色图像x_gp；

2.3)将第一中间彩色图像

输入到灰度图像鉴别器D_g中；

重构灰度图像颜色表征向量

和重构彩色图像颜色表征向量

和重构彩色图像配色颜色表征向量

将重构彩色图像内容表征向量

和重构彩色图像颜色表征向量

和重构灰度图像颜色表征向量

再输入到解码器中得到灰度输出图像x_gcg；

2.4)采用以下方式计算各个损失值，使得彩色图像配色信息p_i的颜色表征向量

与彩色图像颜色表征向量c_{r_c}在向量空间的距离相近；

2.4.1)所述的图像重构损失

计算为：

其中，

表示第一中间彩色图像

与原始的彩色图像x_c之间的距离；

表示第二中间灰度图像

与原始的灰度图像x_g之间的距离；

表示第一中间灰度图像x_cg与原始的灰度图像x_g之间的距离；

表示第二中间彩色图像x_gc与原始的彩色图像x_c之间的距离；

表示第三中间彩色图像x_gp与彩色图像x_c之间的距离；

上述五种距离

2.4.2)所述的表征重构损失

计算为：

其中，

表示彩色图像内容表征向量c_{t_c}的重构损失，

表示彩色图像颜色表征向量c_{r_c}的重构损失，

表示灰度图像内容表征向量c_{t_g}的重构损失，

表示灰度图像颜色表征向量c_{r_g}的重构损失，

表示彩色图像配色颜色表征向量

的重构损失；

上述五种重构损失

为例说明计算为：

使用L1范数损失函数计算重构彩色图像颜色表征向量

与原始的彩色图像内容表征向量c_{r_c}之间的距离，

表示统计平均值；

2.4.3)计算图像颜色表征向量分布

与标准正态分布

之间的KL散度作为KL损失

计算为：

其中，图像颜色表征向量μ表示图像颜色信息分布的均值，σ²表示图像颜色信息分布的平方差；

2.4.4)所述的分布限制损失计算如下：

再使用L1范数损失函数计算彩色图像配色颜色表征向量

与彩色图像颜色表征向量c_{r_c}之间的距离；

表示统计平均值；

2.4.5)在彩色图像鉴别器D_c和灰度图像鉴别器D_g处理过程中，计算生成对抗损失：

其中，

表示彩色图像鉴别器D_c鉴别第一中间彩色图像

的生成对抗损失子函数，

表示灰度图像鉴别器D_g鉴别第二中间灰度图像

的生成对抗损失子函数，

上述五种生成对抗损失子函数

计算为：

其中，

表示统计平均值；

2.5)综合图像重构损失

表征重构损失

KL损失

分布限制

和生成对抗损失

获得总体损失函数，总体损失函数为：

其中，λ_i表示图像重构损失

的权重，λ_l表示表征重构损失

的权重，λ_k表示KL损失

的权重，λ_d表示分布限制损失

的权重，λ_a表示生成对抗损失

的权重。

4.根据权利要求1所述的一种图像解耦表征下的文本指导图像上色方法，其特征在于：所述步骤3)中的文本配色信息p_t是文本配色生成网络TPN根据输入的文本生成的符合文本语义的5个颜色的RGB值。

5.根据权利要求1所述的一种图像解耦表征下的文本指导图像上色方法，其特征在于：所述步骤4)具体为：

然后将文本配色颜色表征向量

6.根据权利要求1或3所述的一种图像解耦表征下的文本指导图像上色方法，其特征在于：所述步骤2)中，内容信息编码器E_ct是由连续三个卷积层和连续四个残差块依次连接构成，颜色信息编码器E_cr是由五个卷积层依次连接构成，配色信息编码器E_p是由四个卷积层依次连接构成，解码器D是由连续四个残差块和连续三个卷积层依次连接构成，结构与内容信息编码器E_ct对称。