CN112001427A

CN112001427A - 一种基于类比学习的图像转化方法和装置

Info

Publication number: CN112001427A
Application number: CN202010771876.1A
Authority: CN
Inventors: 王蕊; 梁栋; 操晓春
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-11-27
Anticipated expiration: 2040-08-04
Also published as: CN112001427B

Abstract

本发明提出了一种基于类比学习的图像转化方法和装置。本方法首先将待转换的两类非配对的图像整理为源图像集合和目标图像集合，然后构造图像转化网络，然后使用类比损失函数作为训练过程损失函数的一部分，然后对源图像进行图像转化。本方法通过使用类比损失函数，一方面保证了生成图像和源图像跨类别的差异，另一方面也保证了任意两个源图像之间的差异可以保留到生成图像中；基于共享权重的生成式对抗网络结构，让中间的隐变量可以在相同的度量空间中进行类比。同时，共享权重还可以减少模型学习参数，提高运行速度。本发明能够使用非配对图像训练图像转化网络，并获得真实的目标图像。

Description

一种基于类比学习的图像转化方法和装置

技术领域

本发明属于计算机视觉技术领域，具体来说是一种利用类比学习和非配对的数据，实现图像转化的方法和装置。

背景技术

图像转化是图像处理领域较为常见的问题。一些基础的计算机视觉任务也可以转化为图像转化问题来解决。例如图像上色，可以理解为灰度图像和彩色图像之间的转化；照片和简笔画之间的转化可以利用在图像检索中；图像分割、像超分辨率和图像去噪声都可以看作图像转化的某种特殊情况。

图像转化算法按照算法理论的不同可以分为两类：基于变分自编码器的方法和基于生成式对抗网络的方法。

变分自编码器与自编码器相似，二者都是训练两个神经网络——编码器和解码器——分别将图像编码到特征空间的隐变量中，再解码到图像空间。对于自编码器来说，由于每张图像都对应一个特定的隐变量，所以它只能重建出训练过的图像，无法进行丰富的变化。变分自编码器假设特征空间的隐变量服从高维高斯分布，不再直接将编码器输出的隐变量当作解码器的输入，而是在这个高维高斯分布中采样出的一个隐变量。因此，只要变化隐变量的采样，就可以得到不同的生成图像。但是由于这类方法将隐空间定义为了简单的高维高斯，难以表示复杂的细节特征，所以生成的图像大多模糊。

生成式对抗网络是一种用来生成服从某个特定分布样本的模型。它由生成器和判别器两部分组成，并利用迭代优化的方法分别优化这两个对抗的部分，从而提高生成图像的质量。基于cGAN的方法解决了使用配对图像进行训练的图像转化任务，生成器将输入的图像转化为目标图像，同时判别器则判别生成图像的真伪。而在通常情况下，获得大量成对的训练图像是很费时费力的。而没有成对的训练图像，cGAN的判别器就只能判断输出图像的风格是否正确，无法判断其内容是否与输入图像一致。CycleGAN为了解决这一问题，利用非配对的图像数据设计了重建损失函数。其基本思想是，将原图先转化为目标图像再转化回去得到的重建图像应该与原图一致。但这种方法是利用间接的约束保证图像内容的一致性，通常会导致生成的图像缺乏多样性。

发明内容

本发明针对非配对的图像数据，提出了一种基于类比学习的图像转化方法和装置，保证了生成图像和源图像跨类别的差异，将任意两个源图像之间的差异可以保留到生成图像中，生成的目标图像可保留源图像的内容并具有丰富的多样性。

本发明采用的技术方案如下：

一种基于类比学习的图像转化方法，包括以下步骤：

1)整理数据集：本专利使用非配对图像数据。收集需要进行转换的两类图像，分别记为源图像集合和目标图像集合。值得注意的是，这两组图像不需要根据内容一一配对；

2)构造图像转化网络：基于生成式对抗网络构造图像转化网络，该图像转化网络中使用权重共享策略，损失函数包括生成对抗损失函数、重建损失函数和类比损失函数；

3)使用数据训练网络：利用非配对图像数据和迭代训练的方法对所述图像转化网络进行训练；

4)使用训练好的网络进行图像转化：将待转化的源图像输入到训练好的图像转化网络，得到转化后的目标图像。

进一步地，步骤1)图像转化算法有极为广泛的应用场景。例如图像分割任务，源图像是待分割的图像，目标图像是分割结果标签。为了下文叙述方便，将源图像的集合记为X，目标图像的集合记为Y。本发明设计神经网络算法以实现图像转化任务。所述神经网络算法基于生成式对抗网络，包括两个生成器和两个判别器。两组生成式对抗网络分别用来实现源图像到目标图像转化，负责的生成器为G:X→Y，以及目标图像到源图像转化，负责的生成器为F:Y→X。这两个生成器除第一层和最后一层权重不共享外，其他的网络共享权重。

进一步地，步骤2)使用全卷积网络构造生成式对抗网络(图像转化网络)的生成器和判别器，其中生成器是编码器-解码器的结构。

进一步地，损失函数包含三个方面：

L＝λ_GANL_GAN+λ_CycL_Cyc+λ_AnaL_Ana

其中，λ_GAN,λ_Cyc,λ_Ana是平衡参数，参数设置通过网格搜索策略获得，其中λ_GAN＝1,λ_Cyc＝20,λ_Ana＝20；L_GAN是对抗损失函数，对于G和D为一组生成器和判别器，表达式如下：

L_GAN＝log D(y)+log(1-D(G(x)))，x∈X，y∈Y

L_Cyc是重建损失函数，约束重建的图像与原图相同，表达式如下：

L_Cyc＝||(F(G(x))-x||+||(G((F(y))-y||

L_Ana是类比损失函数，为了类比两张图像的差异，本发明将两张源图像p,q分别输入两个生成器中，得到两个输出图像u,v。为保持两张源图像间的细节差异到生成图像中，本方法约束p-q与u-v之间的差异相近；同时，为约束类别间的差异，本方法约束p-u与q-v之间的差异相近，表达式如下：

其中，vec(·)表示将矩阵拉成向量，<·,·>表示向量乘积。

进一步地，步骤3)所述迭代训练是指生成器和判别器交替迭代训练；当输入一组数据时，先固定判别器，利用随机梯度下降算法优化生成器；进行一次迭代后，再固定生成器，利用随机梯度下降算法优化判别器；如此循环训练直到网络参数收敛。

进一步地，步骤4)使用上述训练得到的生成器进行测试，输入一张源图像到生成器中，即可得到一张目标图像。

一种基于类比学习的图像转化装置，基于上述方法，包括：

非配对图像数据集构造模块，负责按照图像类别的差别，收集非配对的图像数据集，构造两类图像分别的源图像集合和目标图像集合；

图像转化网络模块，基于生成式对抗网络构造的图像转化网络，该图像转化网络包含用于源图像与目标图像相互转化的生成器和判别器，该图像转化网络的损失函数包含对抗损失函数、重建损失函数和类比损失函数，负责将源图像转化为目标图像；

图像转化网络训练模块，负责利用源图像集合和目标图像集合对所述图像转化网络进行训练，所述图像转化网络采用所述对抗损失函数、重建损失函数和类比损失函数约束生成图像保留源图像的内容和丰富的多样性。

本发明利用类比学***行四边形类比方法。既保证了生成图像和源图像跨类别的差异，也保证了任意两个源图像之间的差异可以保留到生成图像中。因此源图像中的细节和不同得以保留到生成图像中，提高了生成图像的多样性。模型类比是指在学习两个源图像的特征表达时，利用共享权重的方式，让中间的隐变量可以在相同的度量空间中进行类比。同时，共享权重还可以减少模型学习参数，提高运行速度。

与现有的技术相比，本发明的优点在于：

1、基于生成式对抗网络进行改进，设计了图像转化网络。

2、调整并采用特征类比损失函数，使用类比损失函数作为训练过程损失函数的一部分，对源图像进行图像转化，通过使用类比损失函数，一方面保证了生成图像和源图像跨类别的差异，另一方面也保证了任意两个源图像之间的差异可以保留到生成图像中，有利于网络训练，解决了生成图像缺失细节和多样性的问题。

3、采用类比的模型结构，将中间的隐变量归一化到相同的度量空间中进行类比。同时还减少了模型学习参数，提高运行速度。

附图说明

图1：非配对图像数据示意图；

图2：生成式对抗网络及重建损失函数示意图；

图3：类比学习原理示意图；

图4：图像转化网络架构图；

图5：图像转化结果实例图。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步详细说明。

本实施例通过本发明提出的一种基于类比学习的图像转化装置来实现本发明提出的一种基于类比学习的图像转化方法，本***包括以下模块：

非配对图像数据集构造模块，负责按照图像类别的差别，收集两类图像分别记为源图像集合和目标图像集合；

图像转化网络训练模块，负责利用源图像集合和目标图像集合对所述图像转化网络进行训练；所述图像转化网络采用所述对抗损失函数、重建损失函数、类比损失函数约束生成图像保留源图像的内容和丰富的多样性。

以下对本发明的图像转化方法进行详细说明，本方法分为训练和测试两个阶段。训练阶段的步骤如下：

1)整理数据集。

图像转化解决方法按照使用的数据集不同可以分为两种：基于配对图像的方法和基于非配对图像的方法。配对图像数据集如图1左侧所示，这些方法需要源图像与目标图像按照内容两两配对，每一个二元组中包括相同内容的源图像和目标图像。为了解决成对图像获取成本过大的问题，本发明研究非配对的图像转化。如图1右侧所示，所述数据集由源图像集X和目标图像集Y组成。

进一步地，训练中用到的源图像和目标图像需要统一缩放为256x256像素。模型需要足够多的数据进行训练，一般两组图像分别需要有至少1000张图像。

2)构造训练网络。

所述训练网络主要由特征类比和模型类比两部分组成。

2.1)在特征类比方法中，本发明利用了三个损失函数来约束图像的特征表达，它们分别是对抗损失函数、重建损失函数、类比损失函数：

2.1.1)对抗损失函数：

对抗损失函数是生成式对抗网络(Ian Goodfellow,Jean Pouget-Abadie,MehdiMirza,Bing Xu,David WardeFarley,Sherjil Ozair,Aaron Courville,and YoshuaBengio.2014.“Generative Adversarial Nets.”In NIPS 27,pp,2672–2680.)的核心损失函数。该步骤借鉴生成式对抗网络思想，如图2，对源图像集合X到目标图像集合Y的转化和Y到X的转化分别构造了两组类比的生成对抗网络。在每组生成式对抗网络中，生成器的目标是生成出尽量真实的图像，以欺骗判别器；判别器的目标是学习真实图像和生成图像之间的不同以区别输入图像的真伪。其对抗损失函数为：

L_GAN＝log D(y)+log(1-D(G(x)))，x∈X，y∈Y

其中G表示生成器，D表示判别器。

2.1.2)重建损失函数：

基于CycleGAN模型(Zhu,Jun-Yan,Taesung Park,Phillip Isola,and AlexeiA.Efros.2017.“Unpaired Image-to-Image Translation Using Cycle-ConsistentAdversarial Networks.”In ICCV 2017,pp.2242–2251.)，重建损失函数的根本思想是，将源图像先转化为目标图像再转化回去，得到的重建图像应该与原图一致。如图2，构造了两组重建损失函数：

L_Cyc＝||(F(G(x))-x||+||(G((F(y))-y||

其中G网络用来实现源图像到目标图像的转化，F实现目标图像到源图像的转化。

2.1.3)类比损失函数：

由于上述两个损失函数是利用间接的约束保证图像内容的一致性，通常会导致生成的图像缺乏多样性。为了提高生成图像的多样性和保留更多源图像中的细节，所述类比损失函数直接约束生成图像要与源图像的内容相似。如图3所示，该损失函数基于一个平行四边形类比规则，即“p之于q，恰如u之于v”。一方面保证了生成图像和源图像跨类别的差异，同时另一方面也保证了任意两个源图像之间的差异可以保留到生成图像中。具体来说，对于X集合中的两张图像p和q，该损失函数约束它们之间的差异在生成图像u和v之中也能同样保持，即p-q＝u-v；同时对于源图像和生成图像，该损失函数约束这对图像之间的差异可以保留在任意两个样本之中，即p-u＝q-v。

进一步地，所述类比损失函数正则化后的公式如下：

2.2)在模型类比方法中，基于多任务学习方法(Caruana,Rich.1998.“MultitaskLearning.”Learning to Learn,95–133.)，本发明采用共享权重的方式，让中间的隐变量可以在相同的度量空间中进行类比。同时，共享权重还可以减少模型学习参数，提高运行速度。

进一步地，如图4所示，所述训练网络使用全卷积网络(Evan Shelhamer,JonathanLong,and Trevor Darrell.2017.“Fully convolutional networks for semanticsegmentation,”PAMI,2017,pp.640–651.)构造生成器和判别器。其中生成器是编码器–解码器的结构。用Ck表示通道数为k步幅为2的卷积(Convolution)-批规范化(BatchNorm)-激活函数(ReLU)的模块，CDk表示通道数为k步幅为1/2的卷积(Convolution)-批规范化(BatchNorm)-临时删除(Dropout)-激活函数(ReLU)的模块。那么编码器的网络结构可以表示为C64-C128-C256-C512-C512-C512-C512-C512，解码器的网络结构可以表示为CD512-CD512-CD512-C512-C256-C128-C64，判别器可以表示为C64-C128-C256-C512。

进一步地，步骤2.2)所述模型类比是指模型的生成器除第一层和最后一层权重不共享外，其他的网络共享权重。

3)使用网络进行训练。

训练中，生成器和判别器都使用随机初始化的参数，首先固定判别器，训练生成器，直到判别器不能区分生成器输出的图像和真实图像之间的差异。这一步通常需要二到四次随机梯度下降迭代。再固定生成器，训练判别器，直到判别器可以区分生成的图像和真实图像。这通常需要一次随机梯度下降迭代。交替进行这两步优化，生成器和判别器可以互相竞争学习，最终生成器可以输出真实的图像。

测试阶段的步骤如下：

测试图像被统一缩放为256x256像素，使用上述训练得到的生成器进行测试。输入一张源图像到生成器中，即可得到一张目标图像。

本发明提出的基于类比学习的图像转化方法，其测试环境及实验结果为：

(1)测试环境：

***环境：CentOS 7；

硬件环境：内存：64GB，GPU：TITAN XP，硬盘：256GB；

(2)实验数据：

1)油画-中国画图像转化任务：使用公开数据库Oil-Chinese(http://www.cs.mun.ca/～yz7241/dataset/)。其中训练数据包括油画图像1177张，中国画图像1175张。测试数据包括油画、中国画各47张。

2)素描-照片图像转化任务：使用公开数据库CUFSF(http://mmlab.ie.cuhk.edu.hk/archive/cufsf/)。其中训练数据包括素描图像和照片各995张。测试数据包括素描、照片各199张。进一步地，为了可以与使用配对图像的算法进行比较，本数据集中的图像按照内容两两配对。值得注意的是，本算法没有使用数据集中的配对信息。

训练优化方法：RMSProp

评估方法：问卷调查。从生成的所有图像中随机选出4张图像进行问卷调查，列出所有对比方法和本发明的结果，受测者需要选出最真实的一张图像。共回收了243张有效问卷。记录受测者选择对应方法结果所占百分比，这个百分比越大说明越多受测者认为这个方法生成的图像更真实。

(3)实验结果：

为说明本发明的效果，使用相同的数据集对本发明与现有主流的图像转化方法效果进行对比。可视化效果如图5所示。

现有主流方案和本发明测试对比结果如下面表1所示：

表1.现有方法和本发明的测试结果对比

序号	方法	Sketch-to-Photo	Photo-to-Sketch	Oil-to-Chinese
					1	GAN	0.94％	3.95％	-
2	cGAN	16.92％	1.13％	-
					3	CycleGAN	10.15％	12.97％	10.29％
4	本发明(AnaGAN)	71.99％	81.95％	89.71％

其中GAN和cGAN是针对配对图像的图像转化方法。从表中可以清楚的看到，本发明所涉及到的图像转化网络比现有的基于配对图像数据的图像转化方法GAN和cGAN的真实性有很大提升，并且比基于非配对图像数据的方法CycleGAN也有较大提升。其中GAN方法参见“Ian Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu,David WardeFarley,Sherjil Ozair,Aaron Courville,and Yoshua Bengio.2014.“Generative AdversarialNets.”In NIPS 27,pp,2672–2680.”cGAN方法参见“Isola,Phillip,Jun-Yan Zhu,TinghuiZhou,and Alexei A.Efros.2017.“Image-to-Image Translation with ConditionalAdversarial Networks.”In CVPR 2017,5967–5976.”CycleGAN方法参见“Zhu,Jun-Yan,Taesung Park,Phillip Isola,and Alexei A.Efros.2017.“Unpaired Image-to-ImageTranslation Using Cycle-Consistent Adversarial Networks.”In ICCV 2017,pp.2242–2251.”

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于类比学习的图像转化方法，其特征在于，包括以下步骤：

根据非配对的图像数据集，构造源图像集合和目标图像集合；

基于生成式对抗网络构造图像转化网络，该图像转化网络包含用于源图像与目标图像相互转化的生成器和判别器，该图像转化网络的损失函数包含对抗损失函数、重建损失函数和类比损失函数；

利用所述源图像集合和目标图像集合对所述图像转化网络进行训练，所述图像转化网络采用所述对抗损失函数、重建损失函数和类比损失函数进行约束；

训练完成后，将待转化的源图像输入到训练完成的图像转化网络，实现图像转化。

2.如权利要求1所述的方法，其特征在于，将源图像和目标图像统一缩放为256x256像素，该两组图像分别包含至少1000张图像。

3.如权利要求1所述的方法，其特征在于，使用全卷积神经网络作为基础卷积神经网络结构，级联得到生成器和判别器，该生成器由编码器和解码器构成。

4.如权利要求3所述的方法，其特征在于，设Ck表示通道数为k步幅为2的卷积-批规范化-激活函数的模块，CDk表示通道数为k步幅为1/2的卷积-批规范化-临时删除-激活函数的模块，则所述编码器的网络结构为C64-C128-C256-C512-C512-C512-C512-C512，所述解码器的网络结构为CD512-CD512-CD512-C512-C256-C128-C64，所述判别器的网络结构为C64-C128-C256-C512，其中生成器的第一层和最后一层网络不共享权重，其他层的网络共享权重。

5.如权利要求1所述的方法，其特征在于，所述图像转化网络的损失函数L表示如下：

L＝λ_GANL_GAN+λ_CycL_Cyc+λ_AnaL_Ana；

其中，L_GAN为对抗损失函数，L_Cyc为重建损失函数，L_Ana为类比损失函数，λ_GAN，λ_Cyc，λ_Ana为平衡参数。

6.如权利要求5所述的方法，其特征在于，对抗损失函数L_GAN的表达式如下：

L_GAN＝log D(y)+log(1-D(G(x)))，x∈X，y∈Y；

其中，G和D为源图像到目标图像转化的一组生成器和判别器，X，Y为源图像集合和目标图像集合，x，y为源图像和目标图像；

对于重建损失函数L_Cyc，构造两组生成式对抗网络结构，分别用来实现源图像到目标图像转化和目标图像到源图像转化，表达式如下：

L_Cyc＝||(F(G(x))-x||+||(G(F(y))-y||；

其中，G和D为源图像到目标图像转化的一组生成器和判别器，F为目标图像到源图像转化的生成器，X，Y为源图像集合和目标图像集合，x，y为源图像和目标图像。

7.如权利要求5所述的方法，其特征在于，类比损失函数L_Ana的表达式如下：

其中，其中p，q分别为输入两个生成器中的源图像，u，v分别为得到的两个输出图像，vec(·)表示将矩阵拉成向量，<·，·>表示向量乘积。

8.如权利要求1所述的方法，其特征在于，对所述图像转化网络进行迭代训练，该迭代训练是指生成器和判别器交替迭代训练；当输入一组图像数据时，先固定判别器，利用随机梯度下降算法优化生成器，进行一次迭代后，再固定生成器，利用随机梯度下降算法优化判别器，如此循环训练直到网络参数收敛。

9.如权利要求1所述的方法，其特征在于，将待转化的源图像缩放为256x256像素，输入到训练完成的图像转化网络的生成器中，得到目标图像。

10.一种基于类比学习的图像转化装置，基于权利要求1-9任一项所述的方法，其特征在于，包括：

非配对图像数据集构造模块，负责收集非配对的图像数据集，构造源图像集合和目标图像集合；

图像转化网络训练模块，负责利用源图像集合和目标图像集合对图像转化网络进行训练，图像转化网络采用所述对抗损失函数、重建损失函数和类比损失函数进行约束。