CN112991493B - 基于vae-gan和混合密度网络的灰度图像着色方法 - Google Patents

基于vae-gan和混合密度网络的灰度图像着色方法 Download PDF

Info

Publication number
CN112991493B
CN112991493B CN202110380496.XA CN202110380496A CN112991493B CN 112991493 B CN112991493 B CN 112991493B CN 202110380496 A CN202110380496 A CN 202110380496A CN 112991493 B CN112991493 B CN 112991493B
Authority
CN
China
Prior art keywords
vae
distribution
gan
image
color
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110380496.XA
Other languages
English (en)
Other versions
CN112991493A (zh
Inventor
王恺
刘文顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110380496.XA priority Critical patent/CN112991493B/zh
Publication of CN112991493A publication Critical patent/CN112991493A/zh
Application granted granted Critical
Publication of CN112991493B publication Critical patent/CN112991493B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/40Filling a planar surface by adding surface attributes, e.g. colour or texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Color Image Communication Systems (AREA)

Abstract

本发明公开了一种基于VAE‑GAN和混合密度网络的灰度图像着色方法,首先构建VAE‑GAN模型,将数据集中的彩色图像变换到Lab色彩空间,并得到灰度图像;利用VAE‑GAN学习彩色图像的ab通道颜色域表征;然后构建混合密度网络模型,以灰度图像为输入,ab通道颜色域表征为标签,学习混合高斯分布。在实际应用时,先将待测灰度图像输入到训练好的混合密度网络模型,混合密度网络模型输出对应的混合分布系数,从混合分布系数中采样出对应的颜色域表征,然后使用训练好的VAE‑GAN模型的解码器对该颜色域表征进行解码,得到灰度图像的着色结果。本发明通过综合VAE‑GAN和混合密度网络,有效改进了图像着色的质量。

Description

基于VAE-GAN和混合密度网络的灰度图像着色方法
技术领域
本发明涉及计算机视觉技术领域,特别是一种改进的基于VAE-GAN和混合密度网络的灰度图像着色方法。
背景技术
随着多媒体技术和数字经济的蓬勃发展,图像和视频已经成为人们日常生活中不可缺少的信息传播的载体。图像着色作为计算机视觉的一个重要研究领域,在工业生产、医疗、教育、交通等各个环节都有着广泛的应用。例如,在早起的影视行业,由于设备和技术的限制,只能拍摄和录制黑白或灰度的视频或图像,这些缺乏色彩的图像或视频往往不够生动活泼,不能满足现今人们的观赏需求,因此需要进行视频或图像的着色重制;又如在动画制作行业,动画作品的产生往往是由动画作者首先绘制出不带颜色的线稿图像,而后才由美术师进行着色处理,而着色过程通常严重依赖人力,效率低下。当今以深度学习为代表的人工智能技术方兴未艾,在计算机视觉、自然语言处理等领域都带来了巨大的突破,因此,灰度图像着色也可以通过这个技术进行解决。
然而,目前图像着色的技术仍有一定的缺陷:基于参考图像的着色方法需要人为寻找合适的参考图像,着色效果严重依赖于所选取的参考图像的质量;基于着色线索的着色方法则需要人为给定部分像素的颜色作为标记信息,以扩展到整幅图像完成着色,标记信息的多寡则需要根据图像结构的复杂程度进行确定,这个过程相对而言费时费力;而基于深度学习的自动图像着色方法通常只能给出一种着色结果,甚至给出的着色结果存在着颜色溢出等问题,并不能满足实际生产生活的需要。
好的灰度图像自动着色算法需要考虑到着色的多样性和着色的结构一致性,而如何设计一种合适的方法实现无参考条件下的着色多样性和结构一致性,是目前亟待解决的技术问题。
发明内容
本发明的第一目的在于解决现有技术存在的着色结果单一、着色的结构一致性无法保证的问题,提出一种基于VAE-GAN(变分自编码器-生成对抗网络)和混合密度网络(MixtureDensityNetwork,MDN)的灰度图像着色方法,可以有效地改进图像着色的主客观质量。
本发明的第二目的在于提出一种基于VAE-GAN和混合密度网络的灰度图像着色装置。
本发明的第三目的在于提出一种计算机可读存储介质。
本发明的第四目的在于提出一种计算设备。
本发明的第一目的通过下述技术方案实现:一种基于VAE-GAN和混合密度网络的灰度图像着色方法,包括如下步骤:
S1、将数据集中的彩色图像由RGB色彩空间变换到Lab色彩空间,并得到灰度图像;
S2、构建VAE-GAN模型,令VAE-GAN学习数据集中彩色图像的ab通道颜色域表征,并将学习到的ab通道颜色域表征保存;
S3、构建混合密度网络模型,以步骤S1得到的灰度图像作为模型输入,以保存的ab通道颜色域表征作为标签,令混合密度网络模型学习混合高斯分布作为颜色域表征的多模态分布;
S4、对于待测的灰度图像,先将灰度图像输入到训练好的混合密度网络模型,混合密度网络模型输出对应的混合分布系数,从混合分布系数中采样出对应的颜色域表征,然后使用训练好的VAE-GAN模型的解码器对该颜色域表征进行解码,得到灰度图像的着色结果,也即灰度图像对应的彩色图像。
优选的,VAE的编码器同时作为GAN的生成器,VAE-GAN模型分为三个部分:编码器、解码器、判别器。
更进一步的,VAE-GAN模型采用随机梯度下降方法,以Kullback-Leibler散度和对抗损失作为损失函数对编码器、解码器、判别器交替训练。
更进一步的,在训练编码器时,其损失函数为Kullback-Leibler散度与判别器上计算的感知损失之和:
其中,p(z)表示隐变量z的先验分布,设定为协方差矩阵是单位矩阵的高斯分布N(0,I);为近似的后验分布,设定为以协方差矩阵是对角矩阵的高斯分布N(z|μ(x),∑(x));x表示数据集中图像样本的颜色域;Dl(x)为x在判别器上其中一层得到的特征图;pθ(Dl(x)|z)表示当隐变量为z时,x在判别器上的特征图所服从的分布,设定为协方差固定的高斯分布/>DKL()表示Kullback-Leibler散度;
表示在分布/>下的数学期望;J为VAE编码器得到的隐变量的维度,j为维度的序号;μj和σj则分别为隐变量z的后验分布所表达的高斯分布的均值和标准差;/>为隐变量z解码得到的结果;
在训练解码器时,其损失函数为Kullback-Leibler散度与对抗损失之和:
其中,Ez~p(z)()表示在分布p(z)下的数学期望;G(z)表示解码器对隐变量z进行解码得到的输出;D()表示判别器的输出;
在训练判别器时,其损失函数为对抗损失:
其中,Ex~p(x)()表示在真实数据分布下的数学期望。
优选的,在步骤S3构建混合密度网络模型的过程中,将高斯分布数量设为K,k表示第k个高斯分布,每个高斯分布的维度即为VAE-GAN模型的隐变量维度J,每个高斯分布的协方差矩阵I设为单位矩阵,当输入灰度图像g时,混合密度网络模型所表示的分布为:
混合密度网络模型的输出为每个高斯分布的概率系数πk以及每个高斯分布N(μk,Ι)的均值μk
将负对数似然作为混合密度网络模型的损失函数,表示为:
其中,p(g)为灰度图像服从的分布;p(z|x,g)为灰度图像g所对应的真实图像的颜色域表征z服从的后验分布;Eg~p(g),z~p(z|x,g)为在真实灰度图像分布和真实颜色域表征下的数学期望;
采用随机梯度下降算法对混合密度网络进行训练,更新其参数。
更进一步的,在步骤S4对待测的灰度图像进行着色的过程中,首先使用混合密度网络得到每个高斯分布的概率系数πk以及每个高斯分布的均值μk,基于该概率系数和均值进行随机采样,采样出其中一个高斯分布Npp,I),然后从该高斯分布中采样得到最终的ab通道颜色域表征zp;再将ab通道颜色域表征zp输入到VAE-GAN的解码器进行解码,得到最终的ab通道颜色域。
本发明的第二目的通过下述技术方案实现:一种基于VAE-GAN和混合密度网络的灰度图像着色装置,包括依次连接的色彩空间变换模块、VAE-GAN模型生成模块、混合密度网络模型生成模块和着色模块,VAE-GAN模型生成模块还与色彩空间变换模块和着色模块相连接;
其中,色彩空间变换模块,用于将数据集中的彩色图像由RGB色彩空间变换到Lab色彩空间,并得到灰度图像;
VAE-GAN模型生成模块,用于构建VAE-GAN模型,令VAE-GAN学习数据集中彩色图像的ab通道颜色域表征,并将学习到的ab通道颜色域表征保存;
混合密度网络模型生成模块,用于构建混合密度网络模型,以色彩空间变换模块得到的灰度图像作为模型输入,以保存的ab通道颜色域表征作为标签,令混合密度网络模型学习混合高斯分布作为颜色域表征的多模态分布;
着色模块,用于将待测的灰度图像输入到训练好的混合密度网络模型,混合密度网络模型输出对应的混合分布系数,从混合分布系数中采样出对应的颜色域表征,再使用训练好的VAE-GAN模型的解码器对该颜色域表征进行解码,得到灰度图像的着色结果,也即灰度图像对应的彩色图像。
本发明的第三目的通过下述技术方案实现:一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现本发明第一目的所述的基于VAE-GAN和混合密度网络的灰度图像着色方法。
本发明的第四目的通过下述技术方案实现:一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现本发明第一目的所述的基于VAE-GAN和混合密度网络的灰度图像着色方法。
本发明相对于现有技术具有如下的优点及效果:
本发明通过使用混合密度网络,可以学习到多模态颜色域表征,实现多样化的着色;通过将VAE和GAN相结合,在变分自编码器VAE的训练过程中,以对抗生成网络GAN的特征表达差异代替传统VAE中的重建损失,增强了VAE提取颜色域特征的能力;同时引入了GAN的对抗训练,使得解码器合成的颜色域更清晰准确,能够改善着色的一致性,着色结果更为饱和自然,抑制颜色溢出等现象,使得着色结果更真实生动多样,改善了着色质量。
附图说明
图1为本发明基于VAE-GAN和混合密度网络的灰度图像着色方法的流程图。
图2为本发明VAE-GAN模型和混合密度网络模型的示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
本实施例提供了一种基于VAE-GAN和混合密度网络的灰度图像着色方法,如图1所示,包括如下步骤:
S1、将数据集中的彩色图像由RGB色彩空间变换到Lab色彩空间,并得到灰度图像。这里,本实施例先将图像缩放为统一的64×64大小,再进行色彩空间转换。
S2、构建VAE-GAN模型,令VAE-GAN学习数据集中彩色图像的ab通道颜色域表征,并将学习到的ab通道颜色域表征保存。
如图2所示,VAE-GAN模型包括两个主要部分:VAE部分和GAN部分。其中,VAE主要作用是通过对输入的色彩域进行重构,得到色彩域的特征,而传统的VAE模型由于在训练过程中使用了逐像素误差平方的重构损失,造成在生成样本的模糊效应。通过引入GAN的对抗损失,使得VAE重构结果更为清晰,降低着色过程中的颜色溢出效应,提高着色的质量。
VAE可以分为编码器和解码器,GAN可以分为生成器和判别器,本实施例的VAE-GAN其实是把VAE的编码器和GAN的生成器共用,所以VAE-GAN模型分为三个部分:编码器(E)、解码器(G)、判别器(D)。
编码器用于将颜色域转换为高斯分布隐变量的均值和方差,随后解码器则通过采样随机噪声,使用均值和方差得到高斯分布随机变量进行重构,以恢复图像的颜色域。由于VAE的编码器同时作为GAN的生成器,因此VAE-GAN模型可以通过生成出来的颜色域和原始彩色图像颜色域的对抗训练,提升解码器重构颜色域的能力。
在本实施例中,编码器的网络结构为5层卷积神经网络,从64×64×2的输入开始,使用3×3大小、步长为2的卷积核进行卷积,初始输出通道数设为64;后面的卷积层均为3×3大小,输出通道数为前一层两倍的形式;同时每一层卷积层后接batchnormalization归一化和ReLU激活函数。编码器的最后一层为全连接层,输出128维的隐变量,其中64维表示后验分布的均值μ,另外64维则表示后验分布的标准差σ。
解码器的网络结构为5层转置卷积神经网络,首先采样出均匀分布的随机噪声ε,利用编码器得到的均值和方差得到后验分布的隐变量z=σ·ε+μ;得到隐变量z后,采用全连接层转换为4×4×64的特征图,随后再进行3×3,步长为2的转置卷积,逐步提升特征图的大小。所有转置卷积均为3×3大小,输出通道数为前一层的一半的形式,采用Batchnormalization归一化和ReLU激活函数。最后使用tanh作为激活函数得到64×64×2的重构颜色域通道。
判别器的网络结构为7层卷积神经网络,其输入为64×64×2的颜色域通道,所有卷积神经网络均采用3×3大小、步长为2的卷积层,初始输出通道为32,后续所有卷积层均为3×3大小,输出通道数为前一层两倍,最后为输出单元为1的全连接层,后接sigmoid激活函数。
这里,VAE-GAN模型采用随机梯度下降方法,以Kullback-Leibler散度和对抗损失作为损失函数对编码器、解码器、判别器交替训练,更新网络的参数。
具体来说,在训练编码器时,其损失函数为Kullback-Leibler散度与判别器上计算的感知损失之和:
其中,p(z)表示隐变量z的先验分布,设定为协方差矩阵是单位矩阵的高斯分布N(0,I);为近似的后验分布,设定为协方差矩阵是对角矩阵的高斯分布N(z|μ(x),∑(x));x表示数据集中图像样本的颜色域;Dl(x)为x在判别器上其中一层得到的特征图;pθ(Dl(x)|z)表示当隐变量为z时,x在判别器上的特征图所服从的分布,设定为协方差固定的高斯分布/>DKL()表示Kullback-Leibler散度;
表示在分布/>下的数学期望;J为VAE编码器得到的隐变量的维度,j为维度的序号;μj和σj则分别为隐变量z的后验分布所表达的高斯分布的均值和标准差;/>为隐变量z解码得到的结果。
在训练解码器时,其损失函数为Kullback-Leibler散度与对抗损失之和:
其中,Ez~p(z)()表示在分布p(z)下的数学期望;G(z)表示解码器对隐变量z进行解码得到的输出;D()表示判别器的输出。
在训练判别器时,其损失函数为对抗损失:
其中,Ex~p(x)()表示在真实数据分布下的数学期望。
S3、构建混合密度网络模型,以步骤S1得到的灰度图作为模型输入,以保存的ab通道颜色域表征作为标签,令混合密度网络模型学习混合高斯分布来作为颜色域表征的多模态分布。
这里,设定高斯分布的数量为K,k表示第k个高斯分布,每个高斯分布的维度即为VAE-GAN模型的特征维度J,协方差矩阵I设为单位矩阵,当输入灰度图像g时,混合密度网络模型所表示的分布为:
混合密度网络模型的输出为每个高斯分布的概率系数πk以及每个高斯分布N(μk,Ι)的均值μk
在本实施例中,所设定的高斯分布的数量K=8,高斯分布均为64维。混合密度网络模型的网络结构为7层卷积神经网络,输入为数据集中的彩色图像所对应的灰度图像,大小为64×64×1,所有卷积神经网络均采用3×3、步长为2的卷积层,batchnormalization归一化和ReLU激活函数,且最后采用大小分别是4096和520的全连接层,得到高斯分布的概率系数和每个高斯分布的均值。
并且,在混合密度网络模型训练的过程中,将负对数似然作为混合密度网络模型的损失函数,采用随机梯度下降算法对混合密度网络进行训练,更新其参数。损失函数表示为:
其中,p(g)为灰度图像服从的分布;p(z|x,g)为灰度图像g所对应的真实图像(即彩色图像)的颜色域表征z服从的后验分布;Eg~p(g),z~p(z|x,g)为在真实灰度图像分布和真实颜色域表征下的数学期望。
S4、对于待测的灰度图像,先将灰度图像输入到训练好的混合密度网络模型,混合密度网络模型输出对应的混合分布系数,从混合分布系数中采样出对应的颜色域表征。
具体来说,混合密度网络先得到每个高斯分布的概率系数πk以及每个高斯分布的均值μk。在本实施例中,对于输入的灰度图像g,其颜色域的分布可以表示为:
然后根据得到的概率系数πk(k=1-8)和均值μk,利用随机模拟从中采样出某个分量p,再从该分量所代表的高斯分布Npp,I)中采样出变量zp,作为待测的灰度图像的ab通道颜色域表征。
之后,再将ab通道颜色域表征zp输入到训练好的VAE-GAN模型,通过VAE-GAN模型的解码器对该颜色域表征进行解码,得到最终的着色输出,即灰度图像的着色结果,也可以说是灰度图像对应的Lab彩色图像。
实施例2
本实施例提供了一种基于VAE-GAN和混合密度网络的灰度图像着色装置,可实现实施例1中的灰度图像着色方法。该装置包括依次连接的色彩空间变换模块、VAE-GAN模型生成模块、混合密度网络模型生成模块和着色模块,VAE-GAN模型生成模块还与色彩空间变换模块和着色模块相连接。
其中,色彩空间变换模块,用于将数据集中的彩色图像由RGB色彩空间变换到Lab色彩空间,并得到灰度图像;
VAE-GAN模型生成模块,用于构建VAE-GAN模型,令VAE-GAN学习数据集中彩色图像的ab通道颜色域表征,并将学习到的ab通道颜色域表征保存;
混合密度网络模型生成模块,用于构建混合密度网络模型,以色彩空间变换模块得到的灰度图像作为模型输入,以保存的ab通道颜色域表征作为标签,令混合密度网络模型学习混合高斯分布作为颜色域表征的多模态分布;
着色模块,用于将待测的灰度图像输入到训练好的混合密度网络模型,混合密度网络模型输出对应的混合分布系数,从混合分布系数中采样出对应的颜色域表征,再使用训练好的VAE-GAN模型的解码器对该颜色域表征进行解码,得到灰度图像的着色结果,也即灰度图像对应的彩色图像。
在此需要说明的是,本实施例的装置仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例3
本实施例提供了一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现实施例1中的基于VAE-GAN和混合密度网络的灰度图像着色方法,具体为:
S1、将数据集中的彩色图像由RGB色彩空间变换到Lab色彩空间,并得到灰度图像;
S2、构建VAE-GAN模型,令VAE-GAN学习数据集中彩色图像的ab通道颜色域表征,并将学习到的ab通道颜色域表征保存;
S3、构建混合密度网络模型,以步骤S1得到的灰度图像作为模型输入,以保存的ab通道颜色域表征作为标签,令混合密度网络模型学习混合高斯分布来作为颜色域表征的多模态分布;
S4、对于待测的灰度图像,先将灰度图像输入到训练好的混合密度网络模型,混合密度网络模型输出对应的混合分布系数,从混合分布系数中采样出对应的颜色域表征,然后再使用训练好的VAE-GAN模型的解码器对该颜色域表征进行解码,得到灰度图像的着色结果,也即灰度图像对应的彩色图像。
本实施例中的计算机可读存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
实施例4
本实施例提供了一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例1中的基于VAE-GAN和混合密度网络的灰度图像着色方法,具体为:
S1、将数据集中的彩色图像由RGB色彩空间变换到Lab色彩空间,并得到灰度图像;
S2、构建VAE-GAN模型,令VAE-GAN学习数据集中彩色图像的ab通道颜色域表征,并将学习到的ab通道颜色域表征保存;
S3、构建混合密度网络模型,以步骤S1得到的灰度图像作为模型输入,以保存的ab通道颜色域表征作为标签,令混合密度网络模型学习混合高斯分布来作为颜色域表征的多模态分布;
S4、对于待测的灰度图像,先将灰度图像输入到训练好的混合密度网络模型,混合密度网络模型输出对应的混合分布系数,从混合分布系数中采样出对应的颜色域表征,然后再使用训练好的VAE-GAN模型的解码器对该颜色域表征进行解码,得到灰度图像的着色结果,也即灰度图像对应的彩色图像。
本实施例中所述的计算设备可以是台式电脑、笔记本电脑、智能手机、平板电脑或其他具有处理器功能的终端设备。
以上仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明创造的保护范围之内。

Claims (6)

1.一种基于VAE-GAN和混合密度网络的灰度图像着色方法,其特征在于,包括如下步骤:
S1、将数据集中的彩色图像由RGB色彩空间变换到Lab色彩空间,并得到灰度图像;
S2、构建VAE-GAN模型,令VAE-GAN学习数据集中彩色图像的ab通道颜色域表征,并将学习到的ab通道颜色域表征保存;
S3、构建混合密度网络模型,以步骤S1得到的灰度图像作为模型输入,以保存的ab通道颜色域表征作为标签,令混合密度网络模型学习混合高斯分布作为颜色域表征的多模态分布;
S4、对于待测的灰度图像,先将灰度图像输入到训练好的混合密度网络模型,混合密度网络模型输出对应的混合分布系数,从混合分布系数中采样出对应的颜色域表征,然后使用训练好的VAE-GAN模型的解码器对该颜色域表征进行解码,得到灰度图像的着色结果,也即灰度图像对应的彩色图像;
其中,VAE的编码器同时作为GAN的生成器,VAE-GAN模型分为三个部分:编码器、解码器、判别器;
VAE-GAN模型采用随机梯度下降方法,以Kullback-Leibler散度和对抗损失作为损失函数对编码器、解码器、判别器交替训练;
在训练编码器时,其损失函数为Kullback-Leibler散度与判别器上计算的感知损失之和:
其中,p(z)表示隐变量z的先验分布,设定为协方差矩阵是单位矩阵的高斯分布Ν(0,I);为近似的后验分布,设定为协方差矩阵是对角矩阵的高斯分布N(z|μ(x),∑(x));x表示数据集中图像样本的颜色域;Dl(x)为x在判别器上其中一层得到的特征图;pθ(Dl(x)|z)表示当隐变量为z时,x在判别器上的特征图所服从的分布,设定为协方差固定的高斯分布/>DKL()表示Kullback-Leibler散度;
表示在分布/>下的数学期望;J为VAE编码器得到的隐变量的维度,j为维度的序号;μj和σj分别为隐变量z的后验分布所表达的高斯分布的均值和标准差;/>为隐变量z解码得到的结果;
在训练解码器时,其损失函数为判别器上计算的感知损失与对抗损失之和:
其中,Ez~p(z)()表示在分布p(z)下的数学期望;G(z)表示解码器对隐变量z进行解码得到的输出;D()表示判别器的输出;
在训练判别器时,其损失函数为对抗损失:
其中,Ex~p(x)()表示在真实数据分布下的数学期望。
2.根据权利要求1所述的灰度图像着色方法,其特征在于,在步骤S3构建混合密度网络模型的过程中,将高斯分布数量设为K,k表示第k个高斯分布,每个高斯分布的维度即为VAE-GAN模型的隐变量维度J,每个高斯分布的协方差矩阵I设为单位矩阵,当输入灰度图像g时,混合密度网络模型所表示的分布为:
混合密度网络模型的输出为每个高斯分布的概率系数πk以及每个高斯分布N(μk,Ι)的均值μk
将负对数似然作为混合密度网络模型的损失函数,表示为:
其中,p(g)为灰度图像服从的分布;p(z|x,g)为灰度图像g所对应的真实图像的颜色域表征z服从的后验分布;Eg~p(g),z~p(z|x,g)为在真实灰度图像分布和真实颜色域表征下的数学期望;
采用随机梯度下降算法对混合密度网络进行训练,更新其参数。
3.根据权利要求2所述的灰度图像着色方法,其特征在于,在步骤S4对待测的灰度图像进行着色的过程中,首先使用混合密度网络得到每个高斯分布的概率系数πk以及每个高斯分布的均值μk,基于该概率系数和均值进行随机采样,采样出其中一个高斯分布Νpp,I),然后从该高斯分布中采样得到最终的ab通道颜色域表征zp;再将ab通道颜色域表征zp输入到VAE-GAN的解码器进行解码,得到最终的ab通道颜色域。
4.一种基于VAE-GAN和混合密度网络的灰度图像着色装置,其特征在于,包括依次连接的色彩空间变换模块、VAE-GAN模型生成模块、混合密度网络模型生成模块和着色模块,VAE-GAN模型生成模块还与色彩空间变换模块和着色模块相连接;
其中,色彩空间变换模块,用于将数据集中的彩色图像由RGB色彩空间变换到Lab色彩空间,并得到灰度图像;
VAE-GAN模型生成模块,用于构建VAE-GAN模型,令VAE-GAN学习数据集中彩色图像的ab通道颜色域表征,并将学习到的ab通道颜色域表征保存;
混合密度网络模型生成模块,用于构建混合密度网络模型,以色彩空间变换模块得到的灰度图像作为模型输入,以保存的ab通道颜色域表征作为标签,令混合密度网络模型学习混合高斯分布作为颜色域表征的多模态分布;
着色模块,用于将待测的灰度图像输入到训练好的混合密度网络模型,混合密度网络模型输出对应的混合分布系数,从混合分布系数中采样出对应的颜色域表征,再使用训练好的VAE-GAN模型的解码器对该颜色域表征进行解码,得到灰度图像的着色结果,也即灰度图像对应的彩色图像;
其中,VAE的编码器同时作为GAN的生成器,VAE-GAN模型分为三个部分:编码器、解码器、判别器;
VAE-GAN模型采用随机梯度下降方法,以Kullback-Leibler散度和对抗损失作为损失函数对编码器、解码器、判别器交替训练;
在训练编码器时,其损失函数为Kullback-Leibler散度与判别器上计算的感知损失之和:
其中,p(z)表示隐变量z的先验分布,设定为协方差矩阵是单位矩阵的高斯分布Ν(0,I);为近似的后验分布,设定为协方差矩阵是对角矩阵的高斯分布N(z|μ(x),∑(x));x表示数据集中图像样本的颜色域;Dl(x)为x在判别器上其中一层得到的特征图;pθ(Dl(x)|z)表示当隐变量为z时,x在判别器上的特征图所服从的分布,设定为协方差固定的高斯分布/>DKL()表示Kullback-Leibler散度;
表示在分布/>下的数学期望;J为VAE编码器得到的隐变量的维度,j为维度的序号;μj和σj分别为隐变量z的后验分布所表达的高斯分布的均值和标准差;/>为隐变量z解码得到的结果;
在训练解码器时,其损失函数为判别器上计算的感知损失与对抗损失之和:
其中,Ez~p(z)()表示在分布p(z)下的数学期望;G(z)表示解码器对隐变量z进行解码得到的输出;D()表示判别器的输出;
在训练判别器时,其损失函数为对抗损失:
其中,Ex~p(x)()表示在真实数据分布下的数学期望。
5.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1至3中任一项所述的基于VAE-GAN和混合密度网络的灰度图像着色方法。
6.一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1至3中任一项所述的基于VAE-GAN和混合密度网络的灰度图像着色方法。
CN202110380496.XA 2021-04-09 2021-04-09 基于vae-gan和混合密度网络的灰度图像着色方法 Active CN112991493B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110380496.XA CN112991493B (zh) 2021-04-09 2021-04-09 基于vae-gan和混合密度网络的灰度图像着色方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110380496.XA CN112991493B (zh) 2021-04-09 2021-04-09 基于vae-gan和混合密度网络的灰度图像着色方法

Publications (2)

Publication Number Publication Date
CN112991493A CN112991493A (zh) 2021-06-18
CN112991493B true CN112991493B (zh) 2023-07-18

Family

ID=76339537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110380496.XA Active CN112991493B (zh) 2021-04-09 2021-04-09 基于vae-gan和混合密度网络的灰度图像着色方法

Country Status (1)

Country Link
CN (1) CN112991493B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822951B (zh) * 2021-06-25 2023-05-30 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及存储介质
CN113674231B (zh) * 2021-08-11 2022-06-07 宿迁林讯新材料有限公司 基于图像增强的轧制过程中氧化铁皮检测方法与***
CN114820863B (zh) * 2022-07-01 2022-09-09 锐创软件技术(启东)有限公司 基于色彩均匀编码的智能配色方法及***
CN115690288B (zh) * 2022-11-03 2023-05-16 北京大学 一种由颜色标符指导的自动着色算法及装置
CN116168137B (zh) * 2023-04-21 2023-07-11 湖南马栏山视频先进技术研究院有限公司 一种基于神经辐射场的新视角合成方法、装置及存储器

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110992275A (zh) * 2019-11-18 2020-04-10 天津大学 一种基于生成对抗网络的细化单幅图像去雨方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830912B (zh) * 2018-05-04 2021-04-16 北京航空航天大学 一种深度特征对抗式学习的交互式灰度图像着色方法
US11593660B2 (en) * 2018-09-18 2023-02-28 Insilico Medicine Ip Limited Subset conditioning using variational autoencoder with a learnable tensor train induced prior
CN113808061A (zh) * 2019-04-28 2021-12-17 深圳市商汤科技有限公司 一种图像处理方法及装置
US20220301227A1 (en) * 2019-09-11 2022-09-22 Google Llc Image colorization using machine learning
CN111625608B (zh) * 2020-04-20 2023-04-07 中国地质大学(武汉) 一种基于gan模型根据遥感影像生成电子地图的方法、***

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110992275A (zh) * 2019-11-18 2020-04-10 天津大学 一种基于生成对抗网络的细化单幅图像去雨方法

Also Published As

Publication number Publication date
CN112991493A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112991493B (zh) 基于vae-gan和混合密度网络的灰度图像着色方法
CN110599409B (zh) 基于多尺度卷积组与并行的卷积神经网络图像去噪方法
CN109410239B (zh) 一种基于条件生成对抗网络的文本图像超分辨率重建方法
CN108875935B (zh) 基于生成对抗网络的自然图像目标材质视觉特征映射方法
CN113240580A (zh) 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法
CN109948692B (zh) 基于多颜色空间卷积神经网络及随机森林的计算机生成图片检测方法
CN115063318A (zh) 自适应频率分解的低光照图像增强方法与相关设备
US20240054605A1 (en) Methods and systems for wavelet domain-based normalizing flow super-resolution image reconstruction
CN107862344B (zh) 一种图像分类方法
Wei et al. Universal deep network for steganalysis of color image based on channel representation
CN113052768A (zh) 一种处理图像的方法、终端及计算机可读存储介质
CN114881879A (zh) 一种基于亮度补偿残差网络的水下图像增强方法
Lin Comparative Analysis of Pix2Pix and CycleGAN for image-to-image translation
Rao et al. UMFA: a photorealistic style transfer method based on U-Net and multi-layer feature aggregation
CN109242879A (zh) 基于深度卷积神经网络的脑部胶质瘤核磁图像分割方法
CN117078505A (zh) 一种基于结构线提取的图像卡通化方法
CN107221019B (zh) 图表转换方法及装置
CN116109510A (zh) 一种基于结构和纹理对偶生成的人脸图像修复方法
CN113436094B (zh) 一种基于多视角注意力机制的灰度图像自动上色方法
CN114897884A (zh) 基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法
CN115496843A (zh) 一种基于gan的局部写实感漫画风格迁移***及方法
CN117115453B (zh) 目标图像生成方法、装置及计算机可读存储介质
CN116310660B (zh) 一种增强样本的生成方法及装置
CN118196231B (zh) 一种基于概念分割的终身学习文生图方法
CN118154894A (zh) 分层显著性引导视觉特征提取模型建立及质量评价方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant