CN110570484B - 一种图像解耦表征下的文本指导图像上色方法 - Google Patents

一种图像解耦表征下的文本指导图像上色方法 Download PDF

Info

Publication number
CN110570484B
CN110570484B CN201910740824.5A CN201910740824A CN110570484B CN 110570484 B CN110570484 B CN 110570484B CN 201910740824 A CN201910740824 A CN 201910740824A CN 110570484 B CN110570484 B CN 110570484B
Authority
CN
China
Prior art keywords
image
color
vector
loss
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910740824.5A
Other languages
English (en)
Other versions
CN110570484A (zh
Inventor
孔祥维
王鑫鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910740824.5A priority Critical patent/CN110570484B/zh
Publication of CN110570484A publication Critical patent/CN110570484A/zh
Application granted granted Critical
Publication of CN110570484B publication Critical patent/CN110570484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像解耦表征下的文本指导图像上色方法。对于每幅彩色图像,生成灰度图像,提取彩色图像中的图像配色信息;构建编码器‑解码器网络作为学习图像解耦表征的网络,利用图像配色信息和彩色图像、灰度图像处理输入训练编码器‑解码器网络,并且通过颜色表征向量和内容表征向量重构图像;将文本语义和颜色信息相关联,得到与文本语义相关的文本配色信息;将文本配色信息映射到训练后网络的颜色表征向量所在的编码器中,得到文本颜色表征向量;结合文本颜色表征向量和图像内容表征向量,生成上色结果。本发明将文本语义信息与图像上色任务结合起来,并且解决了图像上色方法依赖于复杂的人工标记图像或者寻找参考图像的问题。

Description

一种图像解耦表征下的文本指导图像上色方法
技术领域
本发明涉及了一种图像解耦表征下的文本指导图像上色方法。本发明涉深度学习,图像处理,学习图像解耦表征等技术。
背景技术
色彩是图像中最重要的组成部分之一,能够给人留下深刻的印象,对于表达信息至关重要。比如商家常常根据不同的季节,来设计不同配色的营销海报。此外,经过验证,图像颜色对于图像分类等任务的性能有很大影响。然而,由于成像设备和光照的限制,很多图像的色彩不尽人意,甚至没有颜色。因而图像上色是图像处理领域很重要的研究课题。
图像上色任务通常由专业人士手动完成,非常复杂且耗时。随着深度学习的兴起,许多基于深度网络的图像上色方法致力于减轻人力的负担并更有效地执行这些任务。这些方法可以分为三类:基于涂鸦着色,基于示例着色和基于学习着色。基于涂鸦的方法根据在图像不同区域标注的颜色来对于整体图像上色,仍然需要手工工作和专业技能来提供可靠的标注。基于示例的方法通过匹配全局颜色的统计信息,将颜色信息从参考图像传送到目标灰度图像,颜色分布的结构性较差,并且上色结果取决于选择的参考图像。基于学习的方法通过线性***解决着色问题,无需人为干预,但是这种方法对一个灰度图像只能生成一种结果。并且这种端到端的学习式方法是一种黑盒模型,人们无法得知生成上色结果的来龙去脉,可解释性较差。
此外,在互联网海量的数据中,图文多模数据是一种很重要的数据形式。结合图像和文本数据,利用其多模数据的互补性可以消除歧义和不确定性,获得更准确的数据理解。文本数据在表达语义上更明确具体,并且具有更好的可解释性,但是在图像上色任务中,文本信息很少被考虑进来。人类能够很容易理解文本并将其与颜色对应起来,但是对于机器来说并不容易。不同模式的数据之间存在语义“鸿沟”,由文本直接生成彩色图像是比较困难的,如何跨过图像-文本间的语义“鸿沟”,将文本的语义信息用于指导灰度图像的上色任务也是本发明要解决的技术问题之一。
本发明中使用学习图像的解耦表征的方法来实现图像的上色,能够产生不同的上色结果,并且具有一定的可解释性。本发明中提出的模型是一种编码-解码结构的模型,存在“瓶颈”现象,即图像的信息会在编码和解码的过程中丢失。为了重构出高质量的彩色图像,要尽可能保留图像的关键信息,这也是本发明要解决的问题之一。
本发明中要解决的问题包括:减少人力的消耗;提高上色结果的颜色结构性和图像质量;增加上色结果的多样性;结合文本信息,提高方法的可解释性,生成符合文本语义的上色结果。
发明内容
本发明的目的在于解决现有图像上色方法忽略文本信息,依赖于人工标注、选择参考图像,或者上色结果结构性差、多样性低的问题的技术问题,提供一种图像解耦表征下的文本指导图像上色方法。
本发明是通过以下技术方案来实现的:
步骤1)对于数据库中的每幅原始的彩色图像xc,生成原始的灰度图像xg,提取彩色图像中的图像配色信息pi,图像配色信息pi用于辅助训练;
步骤2)构建编码器-解码器网络作为学习图像解耦表征的网络,利用图像配色信息pi和彩色图像xc、灰度图像xg一起处理输入训练编码器-解码器网络,使能够将图像的颜色信息和内容信息映射到在向量空间进行表征,并且通过颜色表征向量和内容表征向量重构图像;
本发明所设计的编码器-解码器网络在较高分辨率下会丢失细节。通常使用跳连来解决它,然而,跳连对学习解耦表征具有不利影响。本发明中增加了潜在表征的规模,用于减少“瓶颈效应”的影响。
步骤3)对于文本,将文本语义和颜色信息相关联,得到与文本语义相关的文本配色信息pt
所述的文本包含一个词或者多个词的文本数据。
具体是指将文本输入到文本配色生成网络TPN中,得到符合文本语义的5个颜色的RGB值,作为文本配色信息pt。由文本配色生成网络TPN具体是采用文献《Bahng H,Yoo S,Cho W,et al.Coloring with Words:Guiding Image Colorization Through Text-basedPalette Generation[C]//Proceedings of the European Conference on ComputerVision(ECCV).2018:431-447.》中的方法实施,文本配色网络TPN在文本配色数据库PAT上训练。
步骤4)将步骤3)得到的文本配色信息映射到步骤2)中获得的训练好的编码器-解码器网络的一个颜色表征向量所在的编码器中,得到文本颜色表征向量;结合文本颜色表征向量和图像内容表征向量,生成彩色图像作为上色结果。
所述的步骤2)中,编码器-解码器网络包括内容信息编码器Ect、颜色信息编码器Ecr、配色信息编码器Ep和解码器D,然后每一次迭代的步骤具体包括:
2.1)将步骤1)提到的彩色图像xc、灰度图像xg输入到编码器-解码器网络中处理得到内容表征向量、颜色表征向量和配色颜色表征向量;
2.2)将彩色图像内容表征向量ct_c、灰度图像内容表征向量ct_g、彩色图像颜色表征向量cr_c、灰度图像颜色表征向量cr_g、彩色图像配色颜色表征向量
Figure BDA00021638700900000310
分别组合地输入到解码器D中,得到多幅中间图像;
2.3)将步骤2.2)中得到的图像,再输入到编码器中得到重构表征向量;再将重构表征向量再输入到解码器D中,得到输出图像;
2.4)根据步骤2.2)和步骤2.3)的结果,分别计算图像重构损失
Figure BDA0002163870090000031
表征重构损失
Figure BDA0002163870090000032
KL损失
Figure BDA0002163870090000033
分布限制
Figure BDA0002163870090000034
和生成对抗损失
Figure BDA0002163870090000035
2.5)将步骤2.4)中得到的生成对抗损失、重构损失、表征限制损失综合计算,使用Adam优化器进行训练并更新网络参数,并开始下一次迭代;经过1000000次迭代后,获得训练好的编码器-解码器网络。
所述步骤1)中的图像配色信息pi由占彩色图像各个像素点的所有颜色中出现数量前5位的颜色的RGB值组成。
所述的步骤2)中,具体为:
2.1)彩色图像xc、灰度图像xg分别通过内容信息编码器Ect输出得到彩色图像内容表征向量ct_c和灰度图像内容表征向量ct_g,彩色图像xc、灰度图像xg分别通过颜色信息编码器Ecr得到彩色图像颜色表征向量cr_c和灰度图像颜色表征向量cr_g,同时将图像配色信息pi输入到配色信息编码器Ep中,得到彩色图像配色颜色表征向量
Figure BDA00021638700900000311
2.2)将彩色图像内容表征向量ct_c和彩色图像颜色表征向量cr_c共同组合输入到解码器D中输出得到重构的第一中间彩色图像
Figure BDA0002163870090000036
将彩色图像内容表征向量ct_c和灰度图像颜色表征向量cr_g共同组合输入到解码器D中输出得到第一中间灰度图像xcg,将灰度图像内容表征向量ct_g和彩色图像颜色表征向量cr_c共同组合输入到解码器D中输出得到第二中间彩色图像xgc,将灰度图像内容表征向量ct_g和灰色图像颜色表征向量ct_g共同组合输入到解码器D中输出得到重构的第二中间灰度图像
Figure BDA0002163870090000037
将灰度图像内容表征向量ct_g和彩色图像配色颜色表征向量
Figure BDA00021638700900000312
共同组合输入到解码器D中输出得到第三中间彩色图像xgp
2.3)将第一中间彩色图像
Figure BDA0002163870090000038
第二中间彩色图像xgc和第三中间彩色图像xgp输入到彩色图像鉴别器Dc中,将第一中间灰度图像xcg、第二中间灰度图像
Figure BDA0002163870090000039
输入到灰度图像鉴别器Dg中;
将第一中间灰度图像xcg再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构彩色图像内容表征向量
Figure BDA0002163870090000041
重构灰度图像颜色表征向量
Figure BDA0002163870090000042
将第二中间彩色图像xgc再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构灰度图像内容表征向量
Figure BDA0002163870090000043
和重构彩色图像颜色表征向量
Figure BDA0002163870090000044
将第三中间彩色图像xgp再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构灰度图像内容表征向量
Figure BDA0002163870090000045
和重构彩色图像配色颜色表征向量
Figure BDA0002163870090000046
将重构彩色图像内容表征向量
Figure BDA00021638700900000430
和重构彩色图像颜色表征向量
Figure BDA0002163870090000047
再输入到解码器中得到彩色输出图像xcgc,将重构灰度图像内容表征向量
Figure BDA0002163870090000048
和重构灰度图像颜色表征向量
Figure BDA0002163870090000049
再输入到解码器中得到灰度输出图像xgcg
2.4)采用以下方式计算重构损失、分布限制损失等各个损失值,使得彩色图像配色信息pi的颜色表征向量
Figure BDA00021638700900000431
与彩色图像颜色表征向量cr_c在向量空间的距离相近;并且灰度图像的颜色表征向量cr_g不包含任何信息。
2.4.1)图像重构损失包含重构原始图像和交叉重构。具体是指:给定图像,网络应能够在编码和解码后重构原图像;彩色图像和灰度图像的内容一致,内容表征向量包含信息相同,应不含颜色信息,交叉组合彩色图像和灰度图像的表征,解码得到图像。所述的图像重构损失
Figure BDA00021638700900000410
计算为:
Figure BDA00021638700900000411
其中,
Figure BDA00021638700900000412
表示第一中间彩色图像
Figure BDA00021638700900000413
与原始的彩色图像xc之间的距离;
Figure BDA00021638700900000414
表示第二中间灰度图像
Figure BDA00021638700900000415
与原始的灰度图像xg之间的距离;
Figure BDA00021638700900000416
表示第一中间灰度图像xcg与原始的灰度图像xg之间的距离;
Figure BDA00021638700900000417
表示第二中间彩色图像xgc与原始的彩色图像xc之间的距离;
Figure BDA00021638700900000418
表示第三中间彩色图像xgp与彩色图像xc之间的距离;
上述五种距离
Figure BDA00021638700900000419
均采用相同方式计算获得,均采用使用L1范数损失函数方式来计算;
2.4.2)表征重构损失
Figure BDA00021638700900000420
是指在给定向量空间里内容表征向量和颜色表征向量的组合,经过解码和再编码之后,信息不会丢失,仍然能够得到原来的表征数据。所述的表征重构损失
Figure BDA00021638700900000421
计算为:
Figure BDA00021638700900000422
其中,
Figure BDA00021638700900000423
表示彩色图像内容表征向量ct_c的重构损失,
Figure BDA00021638700900000424
表示彩色图像颜色表征向量cr_c的重构损失,
Figure BDA00021638700900000425
表示灰度图像内容表征向量ct_g的重构损失,
Figure BDA00021638700900000426
表示灰度图像颜色表征向量cr_g的重构损失,
Figure BDA00021638700900000427
表示彩色图像配色颜色表征向量
Figure BDA00021638700900000432
的重构损失;
上述五种重构损失
Figure BDA00021638700900000428
均采用相同方式计算获得,以彩色图像颜色表征向量cr_c的重构损失
Figure BDA00021638700900000429
为例说明计算为:
Figure BDA0002163870090000051
其中,D表示解码器,解码灰度图像内容信息表征向量ct_g和彩色图像颜色表征向量cr_c得到第二中间彩色图像xgc;再使用颜色信息编码器Ecr编码第二中间彩色图像xgc,得到重构彩色图像颜色表征向量
Figure BDA0002163870090000052
使用L1范数损失函数计算重构彩色图像颜色表征向量
Figure BDA0002163870090000053
与原始的彩色图像内容表征向量cr_c之间的距离,
Figure BDA0002163870090000054
表示统计平均值;
2.4.3)针对KL损失,颜色信息编码器Ecr采用VAE的思想,将编码器的输出限制为标准正态分布,通过对标准正态分布进行采样即可得到颜色的向量表征数据。计算图像颜色表征向量分布
Figure BDA0002163870090000055
与标准正态分布
Figure BDA0002163870090000056
之间的KL散度作为KL损失
Figure BDA0002163870090000057
计算为:
Figure BDA0002163870090000058
其中,表示图像颜色表征向量μ表示图像颜色信息分布的均值,σ2表示图像颜色信息分布的平方差;
2.4.4)为了联合文本信息,本发明提出了配色信息作为“桥梁”的结合方法。使用图像的配色信息pi辅助训练,使得配色编码器Ep能够将文本生成的配色信息pt也能够映射到彩色图像颜色表征向量cr_c所在正态分布。此外,灰度图像不含颜色信息,为了避免噪声影响编码器的训练,灰度图像的颜色表征向量应不包含任何信息。所述的分布限制损失针对配色信息,所述的分布限制损失计算如下:
Figure BDA0002163870090000059
其中,Ep(pi)表示配色编码器Ep编码图像配色信息pi而得到彩色图像配色颜色表征向量
Figure BDA00021638700900000514
再使用L1范数损失函数计算彩色图像配色颜色表征向量
Figure BDA00021638700900000515
与彩色图像颜色表征向量cr_c之间的距离;
Ecr(xg)表示颜色信息编码器Ecr编码灰度图像xg而得到灰度图像颜色表征向量cr_g,再使用L1范数损失函数计算灰度图像颜色表征向量cr_g与0向量之间的距离;
Figure BDA00021638700900000510
表示统计平均值;
2.4.5)本发明提出的框架中解码器D将颜色表征向量和内容表征向量解码,试图生成“以假乱真”的图像,扮演着生成器的角色。彩色图像鉴别器Dc区分重构的彩色图像与真实彩色图像,而灰度图像鉴别器Dg区分合成灰度图像与真实灰度图像。在彩色图像鉴别器Dc和灰度图像鉴别器Dg处理过程中,计算生成对抗损失:
Figure BDA00021638700900000511
其中,
Figure BDA00021638700900000512
表示彩色图像鉴别器Dc鉴别第一中间彩色图像
Figure BDA00021638700900000513
的生成对抗损失子函数,
Figure BDA0002163870090000061
表示灰度图像鉴别器Dg鉴别第二中间灰度图像
Figure BDA0002163870090000062
的生成对抗损失子函数,
Figure BDA0002163870090000063
表示灰度图像鉴别器Dg鉴别第一中间灰度图像xcg的生成对抗损失子函数,
Figure BDA0002163870090000064
表示彩色图像鉴别器Dc鉴别第二中间彩色图像xgc的生成对抗损失子函数,
Figure BDA0002163870090000065
表示彩色图像鉴别器Dc鉴别第三中间彩色图像xgp的生成对抗损失子函数;
上述五种生成对抗损失子函数
Figure BDA0002163870090000066
均采用相同方式计算获得,以第三中间彩色图像xgp为例,生成对抗损失子函数
Figure BDA0002163870090000067
计算为:
Figure BDA0002163870090000068
其中,
Figure BDA0002163870090000069
表示训练解码器D时最小化损失函数,训练彩色图像鉴别器Dc时最大化损失函数,D(ct_g,cr_p)表示由解码器D生成的第三中间彩色图像xgp,Dc(*)表示彩色图像鉴别损失,使用sigmoid函数计算,
Figure BDA00021638700900000610
表示统计平均值;
2.5)综合图像重构损失
Figure BDA00021638700900000611
表征重构损失
Figure BDA00021638700900000612
KL损失
Figure BDA00021638700900000613
分布限制
Figure BDA00021638700900000614
和生成对抗损失
Figure BDA00021638700900000615
获得总体损失函数,总体损失函数为:
Figure BDA00021638700900000616
其中,λi表示图像重构损失
Figure BDA00021638700900000617
的权重,λl表示表征重构损失
Figure BDA00021638700900000618
的权重,λk表示KL损失
Figure BDA00021638700900000619
的权重,λd表示分布限制损失
Figure BDA00021638700900000620
的权重,λa表示生成对抗损失
Figure BDA00021638700900000621
的权重,实验中分别取λi=10、λl=2、λk=3、λd=3、λa=2。
所述步骤3)中的文本配色信息pt是文本配色生成网络TPN根据输入的文本生成的符合文本语义的5个颜色的RGB值。
所述步骤4)具体为:
对于文本数据,将文本生成的文本配色信息pt输入到步骤2)中训练获得的编码器-解码器网络中的配色信息编码器Ep中,得到文本配色颜色表征向量
Figure BDA00021638700900000624
对于待测的灰度图像,将灰度图像输入到步骤2)中训练获得的编码器-解码器网络中的内容信息编码器Ect中,得到灰度图像内容表征向量ct_g
然后将文本配色颜色表征向量
Figure BDA00021638700900000625
与灰度图像的内容表征向量ct_g输入到解码器D中,输出得到内容信息与灰度图像相同且颜色信息符合文本语义信息的上色图像。
文本的语义能够与图像的颜色信息结合起来。取决于TPN生成了与文本语义相关的文本配色pt,以及本发明在步骤2)中将图像配色信息pi通过配色信息编码器Ep映射到彩色图像的颜色表征向量cr_c所在空间,得到
Figure BDA00021638700900000622
这样能使配色颜色表征向量作为颜色表征参与重构图像,从而文本配色颜色表征向量
Figure BDA00021638700900000623
也能作为颜色表征向量参与重构图像。
所述步骤2)中,内容信息编码器Ect是由连续三个卷积层和连续四个残差块依次连接构成,颜色信息编码器Ecr是由五个卷积层依次连接构成,配色信息编码器Ep是由四个卷积层依次连接构成,解码器D是由连续四个残差块和连续三个卷积层依次连接构成,结构与内容信息编码器Ect对称。
本发明将文本语义信息与图像上色任务结合起来,并且解决了图像上色方法依赖于复杂的人工标记图像或者寻找参考图像的问题。本发明使用文本配色生成网络,根据输入文本,生成符合文本语义的多种颜色,作为配色信息,指导图像上色。通过学习图像的解耦表征,将图像内容信息和颜色信息映射到向量空间的不同位置,得到图像内容表征向量和颜色表征向量。同时把文本的颜色信息也映射到图像颜色信息所在位置,得到文本配色的颜色表征向量。组合图像的内容表征向量和文本的颜色表征向量,即可重构出保留原始图像内容,颜色符合文本语义的彩色图像。
本发明的有益效果是:
1.本发明能够处理文本信息,根据不同的文本,生成多种不同与文本语义相关的上色结果。使用彩色和灰度的图像对来训练网络,提取彩色图像的配色信息pi训练编码器Ep,作为图像与文本信息结合的桥梁。
2.本发明使用学习图像解耦表征的方式来进行图像上色,不需要额外的标注信息和选择与目标图像相近的参考图像。
3.本发明能够生成高质量的上色结果。在编码-解码的过程中,通过图像重构和表征重构来限制模型能够保留图像重构的关键信息,生成高质量的彩色图像;并且引入生成对抗损失来使得重构出的图像与真实的图像更接近。
附图说明
图1为本发明所提出的方法的结构图,其中(a)为网络架构示意图,(b)为、步骤2)中提到的训练网络结构示意图,(c)为步骤3)、步骤4)、步骤5)中提到的结构示意图。
图2为本发明所提出的方法,用于训练网络的各项损失函数的示意图。
图3为本发明所提出的方法与现有最先进算法的实验结果比较示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
本发明采用两个计算机视觉领域常用的数据库MIR Flickr25K和CUB-200-2011验证本发明的有效性。MIR Flickr25K由25000幅社交图像网站Flickr的图像构成,20000幅用于训练,5000幅用于测试。CUB-200-2011是一个鸟类图像数据库,包含200中不同鸟类,共11788幅图像,180类图像用于训练,20类图像用于测试。本发明将数据库中的图像进行预处理,得到灰度图像,使用成对的彩色图像和灰度图像的形式训练网络,使用灰度图像进行测试。本发明中使用的文本数据有一个或多个词组成,来自于文本配色数据库PAT。以MIRFlickr25K数据库作为实施例来说明本发明的具体实施方式。下面结合附图及具体实施例对本发明作进一步详细说明。
一、图像预处理阶段
本发明使用PIL(Python Image Library)函数库中的convert函数将RGB格式的图像转化到CIE Lab空间,保存图像灰度层L作为灰度图像参与网络训练。原始的彩色图像和得到的灰度图像被裁减成256×256像素的图像。使用python函数库colorgram中的extract_colors函数统计所有像素点的颜色,相同颜色值进行统计数量,提取像素点颜色数量占比前5位的颜色,按照顺序保存其RGB值作为图像的配色信息pi,用于辅助训练。
二、解码器、编码器网络结构和处理
如图1(a)所示,本发明提出的架构中包含内容信息编码器Ect、颜色信息编码器Ecr、配色信息编码器Ep、解码器D、彩色图像鉴别器Dc和灰度图像鉴别器Dc。其中的内容编码器和解码器是由结构对称的残差块和卷积层组成的。鉴别器Dc和鉴别器Dg用于区分真实图像和重建图像。
其中:
内容信息编码器Ect是由连续三个卷积层和连续四个残差块依次连接构成。
颜色信息编码器Ecr是由五个卷积层依次连接构成。
配色信息编码器Ep是由四个卷积层依次连接构成。
解码器D是由连续四个残差块和连续三个卷积层依次连接构成,结构与内容信息编码器Ect对称。
然后利用编码器和解码器构建解码器、编码器网络结构进行以下处理:
2.1)彩色图像xc、灰度图像xg分别通过内容信息编码器Ect输出得到彩色图像内容表征向量ct_c和灰度图像内容表征向量ct_g,彩色图像xc、灰度图像xg分别通过颜色信息编码器Ecr得到彩色图像颜色表征向量cr_c和灰度图像颜色表征向量cr_g,同时将图像配色信息pi输入到配色信息编码器Ep中,得到彩色图像配色颜色表征向量cr_p
2.2)将彩色图像内容表征向量ct_c和彩色图像颜色表征向量cr_c共同组合输入到解码器D中输出得到重构的第一中间彩色图像
Figure BDA0002163870090000081
将彩色图像内容表征向量ct_c和灰度图像颜色表征向量cr_g共同组合输入到解码器D中输出得到第一中间灰度图像xcg,将灰度图像内容表征向量ct_g和彩色图像颜色表征向量cr_c共同组合输入到解码器D中输出得到第二中间彩色图像xgc,将灰度图像内容表征向量ct_g和灰色图像颜色表征向量ct_g共同组合输入到解码器D中输出得到重构的第二中间灰度图像
Figure BDA0002163870090000091
将灰度图像内容表征向量ct_g和彩色图像配色颜色表征向量
Figure BDA00021638700900000929
共同组合输入到解码器D中输出得到第三中间彩色图像xgp
2.3)将第一中间彩色图像
Figure BDA0002163870090000092
第二中间彩色图像xgc和第三中间彩色图像xgp输入到彩色图像鉴别器Dc中,将第一中间灰度图像xcg、第二中间灰度图像
Figure BDA0002163870090000093
输入到灰度图像鉴别器Dg中;
将第一中间灰度图像xcg再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构彩色图像内容表征向量
Figure BDA0002163870090000094
重构灰度图像颜色表征向量
Figure BDA0002163870090000095
将第二中间彩色图像xgc再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构灰度图像内容表征向量
Figure BDA0002163870090000096
和重构彩色图像颜色表征向量
Figure BDA0002163870090000097
将第三中间彩色图像xgp再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构灰度图像内容表征向量
Figure BDA0002163870090000098
和重构彩色图像配色颜色表征向量
Figure BDA0002163870090000099
将重构彩色图像内容表征向量
Figure BDA00021638700900000910
和重构彩色图像颜色表征向量
Figure BDA00021638700900000911
再输入到解码器中得到彩色输出图像xcgc,将重构灰度图像内容表征向量
Figure BDA00021638700900000912
和重构灰度图像颜色表征向量
Figure BDA00021638700900000913
再输入到解码器中得到灰度输出图像xgcg
三、损失函数
损失函数用于更新网络的参数。损失函数的设计包含以下原则:
解耦图像内容信息和颜色信息,内容表征向量中应不含颜色信息,颜色表征向量中也应不含内容信息;为了保证输出结果的质量,编码得到的表征中应尽可能多的包含关键信息;为了将文本信息映射到图像颜色的向量空间,用于辅助训练的图像配色pi得到的颜色表征向量分布应与图像颜色表征向量cr_c分布一致。
参照以上原则,本发明网络的损失函数包括图像重构损失
Figure BDA00021638700900000914
表征重构损失
Figure BDA00021638700900000915
KL损失
Figure BDA00021638700900000916
分布限制
Figure BDA00021638700900000917
和生成对抗损失
Figure BDA00021638700900000918
各类损失的示意图见图2。
1)图像重构损失
Figure BDA00021638700900000919
计算为:
Figure BDA00021638700900000920
其中,
Figure BDA00021638700900000921
表示第一中间彩色图像
Figure BDA00021638700900000922
与原始的彩色图像xc之间的距离;
Figure BDA00021638700900000923
表示第二中间灰度图像
Figure BDA00021638700900000924
与原始的灰度图像xg之间的距离;
Figure BDA00021638700900000925
表示第一中间灰度图像xcg与原始的灰度图像xg之间的距离;
Figure BDA00021638700900000926
表示第二中间彩色图像xgc与原始的彩色图像xc之间的距离;
Figure BDA00021638700900000927
表示第三中间彩色图像xgp与彩色图像xc之间的距离;
上述五种距离
Figure BDA00021638700900000928
均采用相同方式计算获得,均采用使用L1范数损失函数方式来计算;
以距离
Figure BDA0002163870090000101
举例,具体计算为:
Figure BDA0002163870090000102
其中,D表示解码器,解码灰度图像内容信息ct_g和彩色图像配色的颜色表征向量
Figure BDA00021638700900001025
组合得到第三中间彩色图像xgp
Figure BDA0002163870090000103
表示统计平均值。
2)表征重构损失
Figure BDA0002163870090000104
计算为:
Figure BDA0002163870090000105
其中,
Figure BDA0002163870090000106
表示彩色图像内容表征向量ct_c的重构损失,
Figure BDA0002163870090000107
表示彩色图像颜色表征向量cr_c的重构损失,
Figure BDA0002163870090000108
表示灰度图像内容表征向量ct_g的重构损失,
Figure BDA0002163870090000109
表示灰度图像颜色表征向量cr_g的重构损失,
Figure BDA00021638700900001010
表示彩色图像配色颜色表征向量
Figure BDA00021638700900001026
的重构损失;
上述五种重构损失
Figure BDA00021638700900001011
均采用相同方式计算获得,以彩色图像颜色表征向量cr_c的重构损失
Figure BDA00021638700900001012
为例说明计算为:
Figure BDA00021638700900001013
其中,D表示解码器,解码灰度图像内容信息表征向量ct_g和彩色图像颜色表征向量cr_c得到第二中间彩色图像xgc;再使用颜色信息编码器Ecr编码第二中间彩色图像xgc,得到重构彩色图像颜色表征向量
Figure BDA00021638700900001014
使用L1范数损失函数计算重构彩色图像颜色表征向量
Figure BDA00021638700900001015
与原始的彩色图像内容表征向量cr_c之间的距离,
Figure BDA00021638700900001016
表示统计平均值。
3)计算图像颜色表征向量cr_c的分布
Figure BDA00021638700900001017
与标准正态分布
Figure BDA00021638700900001018
之间的KL散度作为KL损失
Figure BDA00021638700900001019
计算为:
Figure BDA00021638700900001020
其中,μ表示图像颜色信息分布的均值,σ2表示图像颜色信息分布的平方差。
4)分布限制损失计算如下:
Figure BDA00021638700900001021
其中,Ep(pi)表示配色编码器Ep编码图像配色信息pi而得到彩色图像配色颜色表征向量
Figure BDA00021638700900001023
再使用L1范数损失函数计算彩色图像配色颜色表征向量
Figure BDA00021638700900001024
与彩色图像颜色表征向量cr_c之间的距离;
Ecr(xg)表示颜色信息编码器Ecr编码灰度图像xg而得到灰度图像颜色表征向量cr_g,再使用L1范数损失函数计算灰度图像颜色表征向量cr_g与0向量之间的距离;
Figure BDA00021638700900001022
表示统计平均值。
5)在彩色图像鉴别器Dc和灰度图像鉴别器Dg处理过程中,计算生成对抗损失:
Figure BDA0002163870090000111
其中,
Figure BDA0002163870090000112
表示彩色图像鉴别器Dc鉴别第一中间彩色图像
Figure BDA0002163870090000113
的生成对抗损失子函数,
Figure BDA0002163870090000114
表示灰度图像鉴别器Dg鉴别第二中间灰度图像
Figure BDA0002163870090000115
的生成对抗损失子函数,
Figure BDA0002163870090000116
表示灰度图像鉴别器Dg鉴别第一中间灰度图像xcg的生成对抗损失子函数,
Figure BDA0002163870090000117
表示彩色图像鉴别器Dc鉴别第二中间彩色图像xgc的生成对抗损失子函数,
Figure BDA0002163870090000118
表示彩色图像鉴别器Dc鉴别第三中间彩色图像xgp的生成对抗损失子函数;
上述五种生成对抗损失子函数
Figure BDA0002163870090000119
均采用相同方式计算获得,以第三中间彩色图像xgp为例,生成对抗损失子函数
Figure BDA00021638700900001110
计算为:
Figure BDA00021638700900001111
其中,
Figure BDA00021638700900001112
表示训练解码器D时最小化损失函数
Figure BDA00021638700900001113
训练彩色图像鉴别器Dc时最大化函数
Figure BDA00021638700900001114
D(ct_g,cr_p)表示由解码器D生成的第三中间彩色图像xgp,其余项生成对抗损失子函数定义与xgp类似,Dc(*)表示彩色图像的鉴别损失,使用sigmoid函数计算,
Figure BDA00021638700900001115
表示统计平均值。
综合图像重构损失
Figure BDA00021638700900001116
表征重构损失
Figure BDA00021638700900001117
KL损失
Figure BDA00021638700900001118
分布限制
Figure BDA00021638700900001119
和生成对抗损失
Figure BDA00021638700900001120
获得总体损失函数,总体损失函数为:
Figure BDA00021638700900001121
其中,λi表示图像重构损失
Figure BDA00021638700900001122
的权重,λl表示表征重构损失
Figure BDA00021638700900001123
的权重,λk表示KL损失
Figure BDA00021638700900001124
的权重,λd表示分布限制损失
Figure BDA00021638700900001125
的权重,λa表示生成对抗损失
Figure BDA00021638700900001126
的权重,实验中分别取λi=10、λl=2、λk=3、λd=3、λa=2。
本实施例中使用Adam优化器更新网络参数,在20000幅图像训练集上迭代100000次,获得训练好的编码器-解码器网络。
四、图像文本指导上色
如附图1(c)所示,具体为:
4.1、将文本输入到文本配色生成网络TPN中,得到符合文本语义的5个颜色的RGB值,作为与文本语义相关的文本配色信息pt
4.2、对于待测的彩色图像对应的文本,将文本生成的文本配色信息pt输入到步骤2)中训练获得的编码器-解码器网络中的配色信息编码器Ep中,即将文本配色信息pt映射到图像的颜色表征向量所在的空间,得到文本配色颜色表征向量
Figure BDA00021638700900001128
4.3、对于待测的彩色图像,处理成灰度图像,将灰度图像输入到步骤2)中训练获得的编码器-解码器网络中的内容信息编码器Ect中,得到灰度图像内容表征向量ct_g
4.4、然后将文本配色颜色表征向量
Figure BDA00021638700900001127
与灰度图像的内容表征向量ct_g输入到解码器D中,输出得到内容信息与灰度图像相同且颜色信息符合文本语义信息的上色图像。
本发明中对比了现有最先进的方法,结果如附图3所示。其中真实配色是指文本与配色数据库PAT中,文本所对应的真实配色,作为本发明方法与对比方法结果的参考。可以看出,对比方法的结果中图像整体的色调一致,不能区分图像的内容,因而上色结果不够自然;本发明方法能够根据图像内容生成不同区域颜色不同的上色结果,更加自然。并且对比方法的结果中图像的颜色与文本生成的配色有差异,上色过程中不能准确的将配色信息映射到图像中;而本发明方法的上色结果能准确反映配色信息,更符合文本的语义。

Claims (6)

1.一种图像解耦表征下的文本指导图像上色方法,其特征在于:该方法的以下步骤:
步骤1)对于每幅原始的彩色图像xc,生成原始的灰度图像xg,提取彩色图像中的图像配色信息pi,图像配色信息pi用于辅助训练;
步骤2)构建编码器-解码器网络作为学习图像解耦表征的网络,利用图像配色信息pi和彩色图像xc、灰度图像xg一起处理输入训练编码器-解码器网络,并且通过颜色表征向量和内容表征向量重构图像;
所述的步骤2)中,编码器-解码器网络包括内容信息编码器Ect、颜色信息编码器Ecr、配色信息编码器Ep和解码器D,然后每一次迭代的步骤具体包括:
2.1)将步骤1)提到的彩色图像xc、灰度图像xg输入到编码器-解码器网络中处理得到内容表征向量、颜色表征向量和配色颜色表征向量;
2.2)将彩色图像内容表征向量ct_c、灰度图像内容表征向量ct_g、彩色图像颜色表征向量cr_c、灰度图像颜色表征向量cr_g、彩色图像配色颜色表征向量cr_pi分别组合地输入到解码器D中,得到多幅中间图像;
2.3)将步骤2.2)中得到的图像,再输入到编码器中得到重构表征向量;再将重构表征向量再输入到解码器D中,得到输出图像;
2.4)根据步骤2.2)和步骤2.3)的结果,分别计算图像重构损失
Figure FDA0003132944620000011
表征重构损失
Figure FDA0003132944620000012
KL损失
Figure FDA0003132944620000013
分布限制损失
Figure FDA0003132944620000014
和生成对抗损失
Figure FDA0003132944620000015
2.5)将步骤2.4)中得到的生成对抗损失、重构损失、表征限制损失综合计算,使用Adam优化器进行训练并更新网络参数,并开始下一次迭代;经过1000000次迭代后,获得训练好的编码器-解码器网络;
步骤3)对于文本,将文本语义和颜色信息相关联,得到与文本语义相关的文本配色信息pt
步骤4)将步骤3)得到的文本配色信息映射到步骤2)中获得的训练好的编码器-解码器网络的一个颜色表征向量所在的编码器中,得到文本颜色表征向量;结合文本颜色表征向量和图像内容表征向量,生成上色结果。
2.根据权利要求1所述的一种图像解耦表征下的文本指导图像上色方法,其特征在于:所述步骤1)中的图像配色信息pi由占彩色图像各个像素点的所有颜色中出现数量前5位的颜色的RGB值组成。
3.根据权利要求1所述的一种图像解耦表征下的文本指导图像上色方法,其特征在于:所述的步骤2)中,具体为:
2.1)彩色图像xc、灰度图像xg分别通过内容信息编码器Ect输出得到彩色图像内容表征向量ct_c和灰度图像内容表征向量ct_g,彩色图像xc、灰度图像xg分别通过颜色信息编码器Ecr得到彩色图像颜色表征向量cr_c和灰度图像颜色表征向量cr_g,同时将图像配色信息pi输入到配色信息编码器Ep中,得到彩色图像配色颜色表征向量cr_pi
2.2)将彩色图像内容表征向量ct_c和彩色图像颜色表征向量cr_c共同组合输入到解码器D中输出得到重构的第一中间彩色图像
Figure FDA0003132944620000021
将彩色图像内容表征向量ct_c和灰度图像颜色表征向量cr_g共同组合输入到解码器D中输出得到第一中间灰度图像xcg,将灰度图像内容表征向量ct_g和彩色图像颜色表征向量cr_c共同组合输入到解码器D中输出得到第二中间彩色图像xgc,将灰度图像内容表征向量ct_g和灰色图像颜色表征向量ct_g共同组合输入到解码器D中输出得到重构的第二中间灰度图像
Figure FDA0003132944620000022
将灰度图像内容表征向量ct_g和彩色图像配色颜色表征向量
Figure FDA0003132944620000023
共同组合输入到解码器D中输出得到第三中间彩色图像xgp
2.3)将第一中间彩色图像
Figure FDA0003132944620000024
第二中间彩色图像xgc和第三中间彩色图像xgp输入到彩色图像鉴别器Dc中,将第一中间灰度图像xcg、第二中间灰度图像
Figure FDA0003132944620000025
输入到灰度图像鉴别器Dg中;
将第一中间灰度图像xcg再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构彩色图像内容表征向量
Figure FDA0003132944620000026
重构灰度图像颜色表征向量
Figure FDA0003132944620000027
将第二中间彩色图像xgc再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构灰度图像内容表征向量
Figure FDA0003132944620000028
和重构彩色图像颜色表征向量
Figure FDA0003132944620000029
将第三中间彩色图像xgp再分别输入到内容信息编码器Ect和颜色信息编码器Ecr中得到重构灰度图像内容表征向量
Figure FDA00031329446200000210
和重构彩色图像配色颜色表征向量
Figure FDA00031329446200000211
将重构彩色图像内容表征向量
Figure FDA00031329446200000212
和重构彩色图像颜色表征向量
Figure FDA00031329446200000213
再输入到解码器中得到彩色输出图像xcgc,将重构灰度图像内容表征向量
Figure FDA00031329446200000214
和重构灰度图像颜色表征向量
Figure FDA00031329446200000215
再输入到解码器中得到灰度输出图像xgcg
2.4)采用以下方式计算各个损失值,使得彩色图像配色信息pi的颜色表征向量
Figure FDA00031329446200000216
与彩色图像颜色表征向量cr_c在向量空间的距离相近;
2.4.1)所述的图像重构损失
Figure FDA00031329446200000217
计算为:
Figure FDA00031329446200000218
其中,
Figure FDA00031329446200000219
表示第一中间彩色图像
Figure FDA00031329446200000220
与原始的彩色图像xc之间的距离;
Figure FDA00031329446200000221
表示第二中间灰度图像
Figure FDA00031329446200000222
与原始的灰度图像xg之间的距离;
Figure FDA00031329446200000223
表示第一中间灰度图像xcg与原始的灰度图像xg之间的距离;
Figure FDA0003132944620000031
表示第二中间彩色图像xgc与原始的彩色图像xc之间的距离;
Figure FDA0003132944620000032
表示第三中间彩色图像xgp与彩色图像xc之间的距离;
上述五种距离
Figure FDA0003132944620000033
均采用相同方式计算获得,均采用使用L1范数损失函数方式来计算;
2.4.2)所述的表征重构损失
Figure FDA0003132944620000034
计算为:
Figure FDA0003132944620000035
其中,
Figure FDA0003132944620000036
表示彩色图像内容表征向量ct_c的重构损失,
Figure FDA0003132944620000037
表示彩色图像颜色表征向量cr_c的重构损失,
Figure FDA0003132944620000038
表示灰度图像内容表征向量ct_g的重构损失,
Figure FDA0003132944620000039
表示灰度图像颜色表征向量cr_g的重构损失,
Figure FDA00031329446200000310
表示彩色图像配色颜色表征向量
Figure FDA00031329446200000311
的重构损失;
上述五种重构损失
Figure FDA00031329446200000312
均采用相同方式计算获得,以彩色图像颜色表征向量cr_c的重构损失
Figure FDA00031329446200000313
为例说明计算为:
Figure FDA00031329446200000314
其中,D表示解码器,解码灰度图像内容信息表征向量ct_g和彩色图像颜色表征向量cr_c得到第二中间彩色图像xgc;再使用颜色信息编码器Ecr编码第二中间彩色图像xgc,得到重构彩色图像颜色表征向量
Figure FDA00031329446200000315
使用L1范数损失函数计算重构彩色图像颜色表征向量
Figure FDA00031329446200000316
与原始的彩色图像内容表征向量cr_c之间的距离,
Figure FDA00031329446200000317
表示统计平均值;
2.4.3)计算图像颜色表征向量分布
Figure FDA00031329446200000318
与标准正态分布
Figure FDA00031329446200000319
之间的KL散度作为KL损失
Figure FDA00031329446200000320
计算为:
Figure FDA00031329446200000321
其中,图像颜色表征向量μ表示图像颜色信息分布的均值,σ2表示图像颜色信息分布的平方差;
2.4.4)所述的分布限制损失计算如下:
Figure FDA00031329446200000322
其中,Ep(pi)表示配色编码器Ep编码图像配色信息pi而得到彩色图像配色颜色表征向量
Figure FDA00031329446200000323
再使用L1范数损失函数计算彩色图像配色颜色表征向量
Figure FDA00031329446200000324
与彩色图像颜色表征向量cr_c之间的距离;
Ecr(xg)表示颜色信息编码器Ecr编码灰度图像xg而得到灰度图像颜色表征向量cr_g,再使用L1范数损失函数计算灰度图像颜色表征向量cr_g与0向量之间的距离;
Figure FDA00031329446200000325
表示统计平均值;
2.4.5)在彩色图像鉴别器Dc和灰度图像鉴别器Dg处理过程中,计算生成对抗损失:
Figure FDA0003132944620000041
其中,
Figure FDA0003132944620000042
表示彩色图像鉴别器Dc鉴别第一中间彩色图像
Figure FDA0003132944620000043
的生成对抗损失子函数,
Figure FDA0003132944620000044
表示灰度图像鉴别器Dg鉴别第二中间灰度图像
Figure FDA0003132944620000045
的生成对抗损失子函数,
Figure FDA0003132944620000046
表示灰度图像鉴别器Dg鉴别第一中间灰度图像xcg的生成对抗损失子函数,
Figure FDA0003132944620000047
表示彩色图像鉴别器Dc鉴别第二中间彩色图像xgc的生成对抗损失子函数,
Figure FDA0003132944620000048
表示彩色图像鉴别器Dc鉴别第三中间彩色图像xgp的生成对抗损失子函数;
上述五种生成对抗损失子函数
Figure FDA0003132944620000049
均采用相同方式计算获得,以第三中间彩色图像xgp为例,生成对抗损失子函数
Figure FDA00031329446200000410
计算为:
Figure FDA00031329446200000411
其中,
Figure FDA00031329446200000412
表示训练解码器D时最小化损失函数,训练彩色图像鉴别器Dc时最大化损失函数,D(ct_g,cr_p)表示由解码器D生成的第三中间彩色图像xgp,Dc(*)表示彩色图像鉴别损失,使用sigmoid函数计算,
Figure FDA00031329446200000413
表示统计平均值;
2.5)综合图像重构损失
Figure FDA00031329446200000414
表征重构损失
Figure FDA00031329446200000415
KL损失
Figure FDA00031329446200000416
分布限制
Figure FDA00031329446200000417
和生成对抗损失
Figure FDA00031329446200000418
获得总体损失函数,总体损失函数为:
Figure FDA00031329446200000419
其中,λi表示图像重构损失
Figure FDA00031329446200000420
的权重,λl表示表征重构损失
Figure FDA00031329446200000421
的权重,λk表示KL损失
Figure FDA00031329446200000422
的权重,λd表示分布限制损失
Figure FDA00031329446200000423
的权重,λa表示生成对抗损失
Figure FDA00031329446200000424
的权重。
4.根据权利要求1所述的一种图像解耦表征下的文本指导图像上色方法,其特征在于:所述步骤3)中的文本配色信息pt是文本配色生成网络TPN根据输入的文本生成的符合文本语义的5个颜色的RGB值。
5.根据权利要求1所述的一种图像解耦表征下的文本指导图像上色方法,其特征在于:所述步骤4)具体为:
对于文本数据,将文本生成的文本配色信息pt输入到步骤2)中训练获得的编码器-解码器网络中的配色信息编码器Ep中,得到文本配色颜色表征向量
Figure FDA00031329446200000425
对于待测的灰度图像,将灰度图像输入到步骤2)中训练获得的编码器-解码器网络中的内容信息编码器Ect中,得到灰度图像内容表征向量ct_g
然后将文本配色颜色表征向量
Figure FDA00031329446200000426
与灰度图像的内容表征向量ct_g输入到解码器D中,输出得到内容信息与灰度图像相同且颜色信息符合文本语义信息的上色图像。
6.根据权利要求1或3所述的一种图像解耦表征下的文本指导图像上色方法,其特征在于:所述步骤2)中,内容信息编码器Ect是由连续三个卷积层和连续四个残差块依次连接构成,颜色信息编码器Ecr是由五个卷积层依次连接构成,配色信息编码器Ep是由四个卷积层依次连接构成,解码器D是由连续四个残差块和连续三个卷积层依次连接构成,结构与内容信息编码器Ect对称。
CN201910740824.5A 2019-08-12 2019-08-12 一种图像解耦表征下的文本指导图像上色方法 Active CN110570484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910740824.5A CN110570484B (zh) 2019-08-12 2019-08-12 一种图像解耦表征下的文本指导图像上色方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910740824.5A CN110570484B (zh) 2019-08-12 2019-08-12 一种图像解耦表征下的文本指导图像上色方法

Publications (2)

Publication Number Publication Date
CN110570484A CN110570484A (zh) 2019-12-13
CN110570484B true CN110570484B (zh) 2021-09-24

Family

ID=68775212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910740824.5A Active CN110570484B (zh) 2019-08-12 2019-08-12 一种图像解耦表征下的文本指导图像上色方法

Country Status (1)

Country Link
CN (1) CN110570484B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062865B (zh) * 2020-03-18 2020-07-03 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN111696026B (zh) * 2020-05-06 2023-06-23 华南理工大学 基于l0正则项的可逆灰度图算法、计算设备
CN113554733B (zh) * 2021-07-28 2022-02-01 北京大学 基于语言的解耦合条件注入灰度图像彩色化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7343037B1 (en) * 2004-02-04 2008-03-11 Microsoft Corporation Dynamic, locally-adaptive, lossless palettization of color and grayscale images
CN107564087A (zh) * 2017-09-11 2018-01-09 南京大学 一种基于屏幕的三维线状符号渲染方法
CN108182672A (zh) * 2014-05-28 2018-06-19 皇家飞利浦有限公司 用于对hdr图像进行编码的方法和装置以及用于使用这样的编码图像的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10543425B2 (en) * 2017-05-16 2020-01-28 Sony Interactive Entertainment America Llc Systems and methods for detecting and displaying a boundary associated with player movement

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7343037B1 (en) * 2004-02-04 2008-03-11 Microsoft Corporation Dynamic, locally-adaptive, lossless palettization of color and grayscale images
CN108182672A (zh) * 2014-05-28 2018-06-19 皇家飞利浦有限公司 用于对hdr图像进行编码的方法和装置以及用于使用这样的编码图像的方法和装置
CN107564087A (zh) * 2017-09-11 2018-01-09 南京大学 一种基于屏幕的三维线状符号渲染方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Nonlinear Discrete Cross-Modal Hashing for Visual-Textual Data;Dekui Ma 等;《IEEE MultiMedia》;20170510;第24卷(第2期);56-65 *
基于对抗生成网络的反射去除算法;周乐;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180715(第07期);I138-1375 *

Also Published As

Publication number Publication date
CN110570484A (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
CN109190722B (zh) 基于满文字符图片的字体风格迁移变换方法
CN108537742B (zh) 一种基于生成对抗网络的遥感图像全色锐化方法
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN110570484B (zh) 一种图像解耦表征下的文本指导图像上色方法
CN110472688A (zh) 图像描述的方法及装置、图像描述模型的训练方法及装置
CN111428071B (zh) 一种基于多模态特征合成的零样本跨模态检索方法
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
US20180365594A1 (en) Systems and methods for generative learning
CN110349229A (zh) 一种图像描述方法及装置
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN114255159A (zh) 手写文本图像生成方法、装置、电子设备和存储介质
CN113448477A (zh) 交互式图像编辑方法、装置、可读存储介质及电子设备
CN110705459A (zh) 数理化公式自动识别方法及装置、模型训练方法及装置
CN113140020A (zh) 一种基于伴随监督生成对抗网络的文本生成图像的方法
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN114444488B (zh) 一种少样本机器阅读理解方法、***、设备及存储介质
CN113792541B (zh) 一种引入互信息正则化器的方面级情感分析方法
CN115496134A (zh) 基于多模态特征融合的交通场景视频描述生成方法和装置
CN109886105A (zh) 基于多任务学习的价格牌识别方法、***及存储介质
CN114896969A (zh) 一种基于深度学习的方面词提取方法
Reddy et al. Effect of image colourspace on performance of convolution neural networks
CN114944002A (zh) 文本描述辅助的姿势感知的人脸表情识别方法
CN114330237A (zh) 一种基于嵌套编-解码网络的中文字体生成方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant