CN112991493B

CN112991493B - 基于vae-gan和混合密度网络的灰度图像着色方法

Info

Publication number: CN112991493B
Application number: CN202110380496.XA
Authority: CN
Inventors: 王恺; 刘文顺
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2023-07-18
Anticipated expiration: 2041-04-09
Also published as: CN112991493A

Abstract

本发明公开了一种基于VAE‑GAN和混合密度网络的灰度图像着色方法，首先构建VAE‑GAN模型，将数据集中的彩色图像变换到Lab色彩空间，并得到灰度图像；利用VAE‑GAN学习彩色图像的ab通道颜色域表征；然后构建混合密度网络模型，以灰度图像为输入，ab通道颜色域表征为标签，学习混合高斯分布。在实际应用时，先将待测灰度图像输入到训练好的混合密度网络模型，混合密度网络模型输出对应的混合分布系数，从混合分布系数中采样出对应的颜色域表征，然后使用训练好的VAE‑GAN模型的解码器对该颜色域表征进行解码，得到灰度图像的着色结果。本发明通过综合VAE‑GAN和混合密度网络，有效改进了图像着色的质量。

Description

基于VAE-GAN和混合密度网络的灰度图像着色方法

技术领域

本发明涉及计算机视觉技术领域，特别是一种改进的基于VAE-GAN和混合密度网络的灰度图像着色方法。

背景技术

随着多媒体技术和数字经济的蓬勃发展，图像和视频已经成为人们日常生活中不可缺少的信息传播的载体。图像着色作为计算机视觉的一个重要研究领域，在工业生产、医疗、教育、交通等各个环节都有着广泛的应用。例如，在早起的影视行业，由于设备和技术的限制，只能拍摄和录制黑白或灰度的视频或图像，这些缺乏色彩的图像或视频往往不够生动活泼，不能满足现今人们的观赏需求，因此需要进行视频或图像的着色重制；又如在动画制作行业，动画作品的产生往往是由动画作者首先绘制出不带颜色的线稿图像，而后才由美术师进行着色处理，而着色过程通常严重依赖人力，效率低下。当今以深度学习为代表的人工智能技术方兴未艾，在计算机视觉、自然语言处理等领域都带来了巨大的突破，因此，灰度图像着色也可以通过这个技术进行解决。

然而，目前图像着色的技术仍有一定的缺陷：基于参考图像的着色方法需要人为寻找合适的参考图像，着色效果严重依赖于所选取的参考图像的质量；基于着色线索的着色方法则需要人为给定部分像素的颜色作为标记信息，以扩展到整幅图像完成着色，标记信息的多寡则需要根据图像结构的复杂程度进行确定，这个过程相对而言费时费力；而基于深度学习的自动图像着色方法通常只能给出一种着色结果，甚至给出的着色结果存在着颜色溢出等问题，并不能满足实际生产生活的需要。

好的灰度图像自动着色算法需要考虑到着色的多样性和着色的结构一致性，而如何设计一种合适的方法实现无参考条件下的着色多样性和结构一致性，是目前亟待解决的技术问题。

发明内容

本发明的第一目的在于解决现有技术存在的着色结果单一、着色的结构一致性无法保证的问题，提出一种基于VAE-GAN(变分自编码器-生成对抗网络)和混合密度网络(MixtureDensityNetwork，MDN)的灰度图像着色方法，可以有效地改进图像着色的主客观质量。

本发明的第二目的在于提出一种基于VAE-GAN和混合密度网络的灰度图像着色装置。

本发明的第三目的在于提出一种计算机可读存储介质。

本发明的第四目的在于提出一种计算设备。

本发明的第一目的通过下述技术方案实现：一种基于VAE-GAN和混合密度网络的灰度图像着色方法，包括如下步骤：

S1、将数据集中的彩色图像由RGB色彩空间变换到Lab色彩空间，并得到灰度图像；

S2、构建VAE-GAN模型，令VAE-GAN学习数据集中彩色图像的ab通道颜色域表征，并将学习到的ab通道颜色域表征保存；

S3、构建混合密度网络模型，以步骤S1得到的灰度图像作为模型输入，以保存的ab通道颜色域表征作为标签，令混合密度网络模型学习混合高斯分布作为颜色域表征的多模态分布；

S4、对于待测的灰度图像，先将灰度图像输入到训练好的混合密度网络模型，混合密度网络模型输出对应的混合分布系数，从混合分布系数中采样出对应的颜色域表征，然后使用训练好的VAE-GAN模型的解码器对该颜色域表征进行解码，得到灰度图像的着色结果，也即灰度图像对应的彩色图像。

优选的，VAE的编码器同时作为GAN的生成器，VAE-GAN模型分为三个部分：编码器、解码器、判别器。

更进一步的，VAE-GAN模型采用随机梯度下降方法，以Kullback-Leibler散度和对抗损失作为损失函数对编码器、解码器、判别器交替训练。

更进一步的，在训练编码器时，其损失函数为Kullback-Leibler散度与判别器上计算的感知损失之和：

其中，p(z)表示隐变量z的先验分布，设定为协方差矩阵是单位矩阵的高斯分布N(0,I)；为近似的后验分布，设定为以协方差矩阵是对角矩阵的高斯分布N(z|μ(x),∑(x))；x表示数据集中图像样本的颜色域；D_l(x)为x在判别器上其中一层得到的特征图；p_θ(D_l(x)|z)表示当隐变量为z时，x在判别器上的特征图所服从的分布，设定为协方差固定的高斯分布/>D_KL()表示Kullback-Leibler散度；

表示在分布/>下的数学期望；J为VAE编码器得到的隐变量的维度，j为维度的序号；μ_j和σ_j则分别为隐变量z的后验分布所表达的高斯分布的均值和标准差；/>为隐变量z解码得到的结果；

在训练解码器时，其损失函数为Kullback-Leibler散度与对抗损失之和：

其中，E_z～p(z)()表示在分布p(z)下的数学期望；G(z)表示解码器对隐变量z进行解码得到的输出；D()表示判别器的输出；

在训练判别器时，其损失函数为对抗损失：

其中，E_x～p(x)()表示在真实数据分布下的数学期望。

优选的，在步骤S3构建混合密度网络模型的过程中，将高斯分布数量设为K，k表示第k个高斯分布，每个高斯分布的维度即为VAE-GAN模型的隐变量维度J，每个高斯分布的协方差矩阵I设为单位矩阵，当输入灰度图像g时，混合密度网络模型所表示的分布为：

混合密度网络模型的输出为每个高斯分布的概率系数π_k以及每个高斯分布N(μ_k,Ι)的均值μ_k；

将负对数似然作为混合密度网络模型的损失函数，表示为：

其中，p(g)为灰度图像服从的分布；p(z|x,g)为灰度图像g所对应的真实图像的颜色域表征z服从的后验分布；E_{g～p(g),z～p(z|x,g)}为在真实灰度图像分布和真实颜色域表征下的数学期望；

采用随机梯度下降算法对混合密度网络进行训练，更新其参数。

更进一步的，在步骤S4对待测的灰度图像进行着色的过程中，首先使用混合密度网络得到每个高斯分布的概率系数π_k以及每个高斯分布的均值μ_k，基于该概率系数和均值进行随机采样，采样出其中一个高斯分布N_p(μ_p,I)，然后从该高斯分布中采样得到最终的ab通道颜色域表征z_p；再将ab通道颜色域表征z_p输入到VAE-GAN的解码器进行解码，得到最终的ab通道颜色域。

本发明的第二目的通过下述技术方案实现：一种基于VAE-GAN和混合密度网络的灰度图像着色装置，包括依次连接的色彩空间变换模块、VAE-GAN模型生成模块、混合密度网络模型生成模块和着色模块，VAE-GAN模型生成模块还与色彩空间变换模块和着色模块相连接；

其中，色彩空间变换模块，用于将数据集中的彩色图像由RGB色彩空间变换到Lab色彩空间，并得到灰度图像；

VAE-GAN模型生成模块，用于构建VAE-GAN模型，令VAE-GAN学习数据集中彩色图像的ab通道颜色域表征，并将学习到的ab通道颜色域表征保存；

混合密度网络模型生成模块，用于构建混合密度网络模型，以色彩空间变换模块得到的灰度图像作为模型输入，以保存的ab通道颜色域表征作为标签，令混合密度网络模型学习混合高斯分布作为颜色域表征的多模态分布；

着色模块，用于将待测的灰度图像输入到训练好的混合密度网络模型，混合密度网络模型输出对应的混合分布系数，从混合分布系数中采样出对应的颜色域表征，再使用训练好的VAE-GAN模型的解码器对该颜色域表征进行解码，得到灰度图像的着色结果，也即灰度图像对应的彩色图像。

本发明的第三目的通过下述技术方案实现：一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现本发明第一目的所述的基于VAE-GAN和混合密度网络的灰度图像着色方法。

本发明的第四目的通过下述技术方案实现：一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现本发明第一目的所述的基于VAE-GAN和混合密度网络的灰度图像着色方法。

本发明相对于现有技术具有如下的优点及效果：

本发明通过使用混合密度网络，可以学习到多模态颜色域表征，实现多样化的着色；通过将VAE和GAN相结合，在变分自编码器VAE的训练过程中，以对抗生成网络GAN的特征表达差异代替传统VAE中的重建损失，增强了VAE提取颜色域特征的能力；同时引入了GAN的对抗训练，使得解码器合成的颜色域更清晰准确，能够改善着色的一致性，着色结果更为饱和自然，抑制颜色溢出等现象，使得着色结果更真实生动多样，改善了着色质量。

附图说明

图1为本发明基于VAE-GAN和混合密度网络的灰度图像着色方法的流程图。

图2为本发明VAE-GAN模型和混合密度网络模型的示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

本实施例提供了一种基于VAE-GAN和混合密度网络的灰度图像着色方法，如图1所示，包括如下步骤：

S1、将数据集中的彩色图像由RGB色彩空间变换到Lab色彩空间，并得到灰度图像。这里，本实施例先将图像缩放为统一的64×64大小，再进行色彩空间转换。

S2、构建VAE-GAN模型，令VAE-GAN学习数据集中彩色图像的ab通道颜色域表征，并将学习到的ab通道颜色域表征保存。

如图2所示，VAE-GAN模型包括两个主要部分：VAE部分和GAN部分。其中，VAE主要作用是通过对输入的色彩域进行重构，得到色彩域的特征，而传统的VAE模型由于在训练过程中使用了逐像素误差平方的重构损失，造成在生成样本的模糊效应。通过引入GAN的对抗损失，使得VAE重构结果更为清晰，降低着色过程中的颜色溢出效应，提高着色的质量。

VAE可以分为编码器和解码器，GAN可以分为生成器和判别器，本实施例的VAE-GAN其实是把VAE的编码器和GAN的生成器共用，所以VAE-GAN模型分为三个部分：编码器(E)、解码器(G)、判别器(D)。

编码器用于将颜色域转换为高斯分布隐变量的均值和方差，随后解码器则通过采样随机噪声，使用均值和方差得到高斯分布随机变量进行重构，以恢复图像的颜色域。由于VAE的编码器同时作为GAN的生成器，因此VAE-GAN模型可以通过生成出来的颜色域和原始彩色图像颜色域的对抗训练，提升解码器重构颜色域的能力。

在本实施例中，编码器的网络结构为5层卷积神经网络，从64×64×2的输入开始，使用3×3大小、步长为2的卷积核进行卷积，初始输出通道数设为64；后面的卷积层均为3×3大小，输出通道数为前一层两倍的形式；同时每一层卷积层后接batchnormalization归一化和ReLU激活函数。编码器的最后一层为全连接层，输出128维的隐变量，其中64维表示后验分布的均值μ，另外64维则表示后验分布的标准差σ。

解码器的网络结构为5层转置卷积神经网络，首先采样出均匀分布的随机噪声ε，利用编码器得到的均值和方差得到后验分布的隐变量z＝σ·ε+μ；得到隐变量z后，采用全连接层转换为4×4×64的特征图，随后再进行3×3，步长为2的转置卷积，逐步提升特征图的大小。所有转置卷积均为3×3大小，输出通道数为前一层的一半的形式，采用Batchnormalization归一化和ReLU激活函数。最后使用tanh作为激活函数得到64×64×2的重构颜色域通道。

判别器的网络结构为7层卷积神经网络，其输入为64×64×2的颜色域通道，所有卷积神经网络均采用3×3大小、步长为2的卷积层，初始输出通道为32，后续所有卷积层均为3×3大小，输出通道数为前一层两倍，最后为输出单元为1的全连接层，后接sigmoid激活函数。

这里，VAE-GAN模型采用随机梯度下降方法，以Kullback-Leibler散度和对抗损失作为损失函数对编码器、解码器、判别器交替训练，更新网络的参数。

具体来说，在训练编码器时，其损失函数为Kullback-Leibler散度与判别器上计算的感知损失之和：

其中，p(z)表示隐变量z的先验分布，设定为协方差矩阵是单位矩阵的高斯分布N(0,I)；为近似的后验分布，设定为协方差矩阵是对角矩阵的高斯分布N(z|μ(x),∑(x))；x表示数据集中图像样本的颜色域；D_l(x)为x在判别器上其中一层得到的特征图；p_θ(D_l(x)|z)表示当隐变量为z时，x在判别器上的特征图所服从的分布，设定为协方差固定的高斯分布/>D_KL()表示Kullback-Leibler散度；

表示在分布/>下的数学期望；J为VAE编码器得到的隐变量的维度，j为维度的序号；μ_j和σ_j则分别为隐变量z的后验分布所表达的高斯分布的均值和标准差；/>为隐变量z解码得到的结果。

其中，E_z～p(z)()表示在分布p(z)下的数学期望；G(z)表示解码器对隐变量z进行解码得到的输出；D()表示判别器的输出。

在训练判别器时，其损失函数为对抗损失：

其中，E_x～p(x)()表示在真实数据分布下的数学期望。

S3、构建混合密度网络模型，以步骤S1得到的灰度图作为模型输入，以保存的ab通道颜色域表征作为标签，令混合密度网络模型学习混合高斯分布来作为颜色域表征的多模态分布。

这里，设定高斯分布的数量为K，k表示第k个高斯分布，每个高斯分布的维度即为VAE-GAN模型的特征维度J，协方差矩阵I设为单位矩阵，当输入灰度图像g时，混合密度网络模型所表示的分布为：

混合密度网络模型的输出为每个高斯分布的概率系数π_k以及每个高斯分布N(μ_k,Ι)的均值μ_k。

在本实施例中，所设定的高斯分布的数量K＝8，高斯分布均为64维。混合密度网络模型的网络结构为7层卷积神经网络，输入为数据集中的彩色图像所对应的灰度图像，大小为64×64×1，所有卷积神经网络均采用3×3、步长为2的卷积层，batchnormalization归一化和ReLU激活函数，且最后采用大小分别是4096和520的全连接层，得到高斯分布的概率系数和每个高斯分布的均值。

并且，在混合密度网络模型训练的过程中，将负对数似然作为混合密度网络模型的损失函数，采用随机梯度下降算法对混合密度网络进行训练，更新其参数。损失函数表示为：

其中，p(g)为灰度图像服从的分布；p(z|x,g)为灰度图像g所对应的真实图像(即彩色图像)的颜色域表征z服从的后验分布；E_{g～p(g),z～p(z|x,g)}为在真实灰度图像分布和真实颜色域表征下的数学期望。

S4、对于待测的灰度图像，先将灰度图像输入到训练好的混合密度网络模型，混合密度网络模型输出对应的混合分布系数，从混合分布系数中采样出对应的颜色域表征。

具体来说，混合密度网络先得到每个高斯分布的概率系数π_k以及每个高斯分布的均值μ_k。在本实施例中，对于输入的灰度图像g，其颜色域的分布可以表示为：

然后根据得到的概率系数π_k(k＝1-8)和均值μ_k，利用随机模拟从中采样出某个分量p，再从该分量所代表的高斯分布N_p(μ_p,I)中采样出变量z_p，作为待测的灰度图像的ab通道颜色域表征。

之后，再将ab通道颜色域表征z_p输入到训练好的VAE-GAN模型，通过VAE-GAN模型的解码器对该颜色域表征进行解码，得到最终的着色输出，即灰度图像的着色结果，也可以说是灰度图像对应的Lab彩色图像。

实施例2

本实施例提供了一种基于VAE-GAN和混合密度网络的灰度图像着色装置，可实现实施例1中的灰度图像着色方法。该装置包括依次连接的色彩空间变换模块、VAE-GAN模型生成模块、混合密度网络模型生成模块和着色模块，VAE-GAN模型生成模块还与色彩空间变换模块和着色模块相连接。

在此需要说明的是，本实施例的装置仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例3

本实施例提供了一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现实施例1中的基于VAE-GAN和混合密度网络的灰度图像着色方法，具体为：

S3、构建混合密度网络模型，以步骤S1得到的灰度图像作为模型输入，以保存的ab通道颜色域表征作为标签，令混合密度网络模型学习混合高斯分布来作为颜色域表征的多模态分布；

S4、对于待测的灰度图像，先将灰度图像输入到训练好的混合密度网络模型，混合密度网络模型输出对应的混合分布系数，从混合分布系数中采样出对应的颜色域表征，然后再使用训练好的VAE-GAN模型的解码器对该颜色域表征进行解码，得到灰度图像的着色结果，也即灰度图像对应的彩色图像。

本实施例中的计算机可读存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、U盘、移动硬盘等介质。

实施例4

本实施例提供了一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现实施例1中的基于VAE-GAN和混合密度网络的灰度图像着色方法，具体为：

本实施例中所述的计算设备可以是台式电脑、笔记本电脑、智能手机、平板电脑或其他具有处理器功能的终端设备。

以上仅为本发明创造的较佳实施例而已，并不用以限制本发明创造，凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明创造的保护范围之内。

Claims

1.一种基于VAE-GAN和混合密度网络的灰度图像着色方法，其特征在于，包括如下步骤：

S4、对于待测的灰度图像，先将灰度图像输入到训练好的混合密度网络模型，混合密度网络模型输出对应的混合分布系数，从混合分布系数中采样出对应的颜色域表征，然后使用训练好的VAE-GAN模型的解码器对该颜色域表征进行解码，得到灰度图像的着色结果，也即灰度图像对应的彩色图像；

其中，VAE的编码器同时作为GAN的生成器，VAE-GAN模型分为三个部分：编码器、解码器、判别器；

VAE-GAN模型采用随机梯度下降方法，以Kullback-Leibler散度和对抗损失作为损失函数对编码器、解码器、判别器交替训练；

在训练编码器时，其损失函数为Kullback-Leibler散度与判别器上计算的感知损失之和：

其中，p(z)表示隐变量z的先验分布，设定为协方差矩阵是单位矩阵的高斯分布Ν(0,I)；为近似的后验分布，设定为协方差矩阵是对角矩阵的高斯分布N(z|μ(x),∑(x))；x表示数据集中图像样本的颜色域；D_l(x)为x在判别器上其中一层得到的特征图；p_θ(D_l(x)|z)表示当隐变量为z时，x在判别器上的特征图所服从的分布，设定为协方差固定的高斯分布/>D_KL()表示Kullback-Leibler散度；

表示在分布/>下的数学期望；J为VAE编码器得到的隐变量的维度，j为维度的序号；μ_j和σ_j分别为隐变量z的后验分布所表达的高斯分布的均值和标准差；/>为隐变量z解码得到的结果；

在训练解码器时，其损失函数为判别器上计算的感知损失与对抗损失之和：

在训练判别器时，其损失函数为对抗损失：

其中，E_x～p(x)()表示在真实数据分布下的数学期望。

2.根据权利要求1所述的灰度图像着色方法，其特征在于，在步骤S3构建混合密度网络模型的过程中，将高斯分布数量设为K，k表示第k个高斯分布，每个高斯分布的维度即为VAE-GAN模型的隐变量维度J，每个高斯分布的协方差矩阵I设为单位矩阵，当输入灰度图像g时，混合密度网络模型所表示的分布为：

将负对数似然作为混合密度网络模型的损失函数，表示为：

3.根据权利要求2所述的灰度图像着色方法，其特征在于，在步骤S4对待测的灰度图像进行着色的过程中，首先使用混合密度网络得到每个高斯分布的概率系数π_k以及每个高斯分布的均值μ_k，基于该概率系数和均值进行随机采样，采样出其中一个高斯分布Ν_p(μ_p,I)，然后从该高斯分布中采样得到最终的ab通道颜色域表征z_p；再将ab通道颜色域表征z_p输入到VAE-GAN的解码器进行解码，得到最终的ab通道颜色域。

4.一种基于VAE-GAN和混合密度网络的灰度图像着色装置，其特征在于，包括依次连接的色彩空间变换模块、VAE-GAN模型生成模块、混合密度网络模型生成模块和着色模块，VAE-GAN模型生成模块还与色彩空间变换模块和着色模块相连接；

着色模块，用于将待测的灰度图像输入到训练好的混合密度网络模型，混合密度网络模型输出对应的混合分布系数，从混合分布系数中采样出对应的颜色域表征，再使用训练好的VAE-GAN模型的解码器对该颜色域表征进行解码，得到灰度图像的着色结果，也即灰度图像对应的彩色图像；

在训练判别器时，其损失函数为对抗损失：

其中，E_x～p(x)()表示在真实数据分布下的数学期望。

5.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1至3中任一项所述的基于VAE-GAN和混合密度网络的灰度图像着色方法。

6.一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1至3中任一项所述的基于VAE-GAN和混合密度网络的灰度图像着色方法。