CN114882220A

CN114882220A - 基于域自适应先验知识引导gan的图像生成方法及***

Info

Publication number: CN114882220A
Application number: CN202210548444.3A
Authority: CN
Inventors: 张凯; 史洋; 聂秀山; 逯天斌
Original assignee: Shandong Liju Robot Technology Co ltd
Current assignee: Shandong Liju Robot Technology Co ltd
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-08-09
Anticipated expiration: 2042-05-20
Also published as: CN114882220B

Abstract

本发明公开了一种基于域自适应先验知识引导生成对抗网络的图像生成方法及***，该方法包括：数据集准备、数据集预处理、训练源域网络模型中的源域生成器、训练目标域网络模型中的目标域生成器、图像增广、训练源域网络模型中的源域判决器和目标域网络模型中的目标域判决器。本发明提出的GAN中，生成器包括源域分支和目标域分支。源域分支用于学习大量与目标域相似数据的内容信息，利用BN层的仿射参数迁移和域混合技术，将源域的知识迁移到目标域中，解决了目标域数据有限的问题。为了进一步提升生成图像的质量，通过在目标域分支中引入空间自适应归一化模块，在目标域图像生成过程中引入主要目标的先验知识，提升了生成图像中目标的准确性。

Description

基于域自适应先验知识引导GAN的图像生成方法及***

技术领域

本发明涉及图像生成技术，属于计算机视觉、人工智能领域，特别涉及一种基于域自适应先验知识引导生成对抗网络的图像生成方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术，并不必然构成现有技术。

随着生成对抗网络(Generative Adversarial Networks，GAN)的提出，图像生成领域迎来研究热潮，基于GAN的图像生成模型已在风格迁移、图像修复、超分辨率、图像翻译等任务领域都取得令人满意的效果。

一般来说，GAN模型由两部分网络组成，其一是生成器子网络，用于生成图像，另一部分是判决器子网络，用于保证生成的图像与目标图像保持一致。网络的训练过程也是两个子网络相互博弈并共同优化的过程。GAN网络的复杂结构使得其参数较为庞大，因此训练GAN往往需要较为大量的数据。如果数据量不足，则将导致图像生成质量不高，生成图像模式崩溃(mode collapse)等问题。然而在某些特定任务中（例如医学图像生成），很难收集到大量的数据，将导致模型性能下降。

针对数据有限的情况，采用迁移学习是提升网络性能的一个有效思路。在迁移学习中，域自适应技术火热，该技术能够将源域训练数据和目标域数据在潜空间内的特征表示进行对齐。可以认为两个域的数据被网络提取出同样或相似的特征，因此大量的源域数据提取特征能有效帮助目标域数据的训练，从而提升在数据有限情况下训练出的模型的性能。

GAN在一定的训练策略下虽然能生成符合训练集图像分布的数据，但生成图像的质量难以保证，常会出现内容模糊等情况。这通常由于网络中的正则化方式不恰当引起。空间自适应归一化(Spatially-Adaptive Normalization，SPADE)一定程度解决了该问题，它通过对额外的语义分割标签进行卷积计算得到正则化层中的仿射参数。语义标签中具有实例的区域，会在网络提取的特征图中更加显著，从而加强了特征图的语义性，使得生成图像的结果更加逼真。

发明内容

为了解决成对数据及数据标签难以获得的问题，本发明提出一种基于域自适应的先验知识引导GAN的图像生成方法和***。本发明提出的GAN中，生成器包括两个分支，源域分支和目标域分支。源域分支用于学习大量与目标域相似数据的内容信息，利用批次正则化层的仿射参数迁移和域混合技术，将源域的知识迁移到目标域中，解决了目标域数据有限的问题。为了进一步提升生成图像的质量，通过在目标域分支中引入空间自适应归一化模块，在目标域图像生成过程中引入主要目标的先验知识，提升了生成图像中目标的准确性。为了提高重要目标区域在判别过程中的重要性，在判别器中引入空间自适应归一化模块，使其能够重点关注目标区域。

为实现上述内容，本发明采用如下技术方案：

本发明提供一种基于域自适应先验知识引导生成对抗网络的图像生成方法，包括以下步骤：

S1. 数据集准备：针对任务需求收集成对的图像和所述图像对应的语义分割标签，作为训练时的目标域数据；从互联网收集与目标域中翻译后的图像相似或相关的图像，不需要标签，作为训练时的源域数据；

S2. 数据集预处理：统一所述的目标域数据和源域数据中所有图像数据的尺寸；

S3. 训练源域网络模型中的源域生成器：使用所述的源域数据训练模型时，模型的输入为一个噪声向量，该噪声向量经过一个全连接层处理后，将新的向量重组成统一的尺寸，此时模型使用批次正则化（Batch Normalization）作为正则化层。

本发明的期望是使得网络能够生成一张相似于目标域中的翻译后图像。当网络具备这个能力时，可认为该网络保存了生成翻译后图像的内容信息。

S4. 训练目标域网络模型中的目标域生成器：使用所述的目标域数据训练模型时，模型接受的输入数据为待翻译图像和待翻译图像的语义分割标签，该语义分割标签用于为空间自适应归一化正则化做条件正则化，加强待翻译图像对生成的翻译后图像的约束；

S5. 图像增广：使用自适应判决器进行增强，输入自适应判决器前的图像经过随机的增强，自适应判决器只判决增强后的图像。这种方式可以扩宽图像的分布，提供更大的梯度帮助训练；

S6. 训练源域网络模型中的源域判决器和目标域网络模型中的目标域判决器：源域网络模型中的源域判决器与目标域网络模型中的目标域判决器不共享正则化层；训练目标域网络模型中的目标域判决器时，该目标域网络模型中的目标域判决器接受的是目标域真实图像或合成图像，和真实图像的语义分割标签，所述的语义分割标签同样用于空间自适应正则化层作条件正则化。以此来更加关注局部的目标。

优选地，在所述的数据集准备步骤中，收集的图像分为待翻译图像，待翻译图像语义分割标签，翻译后图像和翻译后图像语义分割标签，对应放置于四个文件夹中，作为目标域数据；使用与翻译后图像有关的公开数据集或从互联网上收集与翻译后图像相关的图像，作为源域图像，单独放置在一个文件夹中。

优选地，在所述的数据集预处理步骤中，为所述的目标域数据中每一组的四个数据设定好命名规则，方便成组。

优选地，在训练源域网络模型中的源域生成器的步骤中，所述的噪声向量经过一个全卷积层升维，成为一个65536维度的向量，然后将65536维度的向量转换成256*256维的矩阵，之后输入到卷积层中，卷积后的正则化使用批次正则化层；源域生成器生成图像的过程需要经过降采样后再上采样生成256*256的假源域图像；源域判决器接收的图像是真实源域图像或假的源域图像，但是源域判决器接收的图像是经过增强后的图像。

优选地，在所述的训练目标域网络模型中的目标域生成器步骤中，翻译前的图像和翻译后的图像并不处于同一分布，因此空间自适应正则化层不对目标域生成器的最后的上采样层进行约束，只在前面的下采样层和特征提取层进行约束。这样最后几层可以被目标域判决器更好的指导，从而使生成结果更接近翻译后图像，且保留翻译前图像的特征。由于源域具有大量数据，且批次正则化层可以学习到图像域的内容不变信息，因此训练时，将对应层的批次正则化层的仿射参数迁移到空间自适应归一化层中，帮助加强源域和目标域的联系。

优选地，在所述的训练目标域网络模型中的目标域生成器步骤中，目标域生成器接收待翻译图像和待翻译图像语义分割标签，待翻译图像的尺寸为256*256像素，不需要像训练源域网络时经过全连接层，直接进入卷积层网络；经过卷积后的特征图使用空间自适应归一化，在空间自适应归一化正则化中的特征图（feature map）基础正则化使用实例正则化（Instance Normalization）的计算方式，仿射变换则通过额外输入的待翻译图像语义分割标签进行，首先输入的待翻译图像语义分割标签经过一次卷积得到输出后，分别经过两个卷积得到两个张量，这两个张量作为仿射变换参数中的偏移量（β）和缩放量（γ），然后先用源域批次正则化层的仿射参数对特征图分布进行还原，之后用γ和β对特征图进行元素级的相乘和相加，得到最终输出；空间自适应归一化层只用在下采样和中间的卷积块中，上采样和源域网络模型共享批次正则化层，最终得到假目标域的翻译后图像。

优选地，在所述的图像增广的步骤中，采用自适应判决器增强，图像的增广变化发生在输入自适应判决器之前，而不是自适应生成器之前；图像送入到自适应判决器之前要随机经过颜色变化或随机遮挡的增广方式，采用的随机概率为安全值0.8；判决的图像都将是经过0.8概率增广后的图像。

优选地，在所述的训练源域网络模型中的源域判决器和目标域网络模型中的目标域判决器的步骤中，自适应判决器接收真实的翻译后图像或假的翻译后图像，和真实翻译后图像的语义分割标签；自适应判决器接收到的图像进入卷积层提取特征；真实翻译后图像的语义分割标签则用作空间自适应归一化层进行条件正则化；在自适应判决器中使用空间自适应归一化层能够使得自适应判决器关注关键的目标区域；最后得到判决结果。

本发明还提供一种基于域自适应先验知识引导生成对抗网络的图像生成***，包括数据集准备模块、数据集预处理模块、训练源域网络模块、训练目标域生成网络模块、图像增广模块和训练目标域判决网络模块，所述的数据集准备模块用于针对任务需求收集成对的图像和所述图像对应的语义分割标签，作为训练时的目标域数据；从互联网收集与目标域中翻译后的图像相似或相关的图像，不需要标签，作为训练时的源域数据；所述的数据集预处理模块用于统一所述的目标域数据和源域数据中所有图像数据的尺寸；所述的训练源域网络模块使用所述的源域数据训练模型，模型的输入为一个噪声向量，该噪声向量经过一个全连接层处理后，将新的向量重组成统一的图像尺寸，此时模型使用批次正则化层；所述的训练目标域生成网络模块使用所述的目标域数据训练模型，模型接受的输入数据为待翻译图像和待翻译图像的语义分割标签，该语义分割标签用于空间自适应归一化层做条件正则化，加强待翻译图像对生成的翻译后图像的约束；所述的图像增广模块使用自适应判决器进行增强，输入自适应判决器前的图像经过随机的增强，自适应判决器只判决增强后的图像；所述的训练目标域判决网络模块采用自适应判决器接收真实的翻译后图像或假的翻译后图像，和真实翻译后图像的语义分割标签；自适应判决器接收到的真实图像或合成图像进入卷积层提取特征；真实翻译后图像的语义分割标签则用作空间自适应归一化层进行条件正则化；在自适应判决器中使用空间自适应归一化层能够使得自适应判决器关注关键的目标区域。

与现有技术相比，本发明的有益效果是：

本发明基于GAN搭建图像生成模型，结合域自适应技术，帮助小样本情况下的图像生成。模型的训练过程具有两条线路同时训练，其中源域生成分支用于源域数据生成，源域数据都相似于翻译后的图像，对于该条线路的需求是生成一张逼真的图像，这张图像类似翻译后的图像。此时该条线路中保存了大量的生成图像所需的信息。线路二用于目标域图像翻译，模型接受待翻译图像作为输入，使用空间自适应归一化层注入待翻译图像的语义分割标签信息。通过这些额外的信息，帮助建立与翻译后图像之间的关系。由于线路一可以生成类似翻译后的图像，其批次正则化层仿射参数中保存了与翻译后图像分布相关的信息，因此迁移仿射参数帮助线路二贴近翻译后图像的分布。本发明将域自适应引入GAN网络，帮助提升小样本数据训练网络的能力。在实验中仅用160张图像即可达到生成逼真图像的目的。

附图说明

下面描述中的附图是为了更清晰地理解本发明实施例以及技术方案，应注意的是，本发明的示意性实施例及其说明仅用于解释本发明，并不构成对本发明的不当限定。

图1为本发明中一批数据训练模型的流程图。

图 2 为本发明所述的生成器的结构示意图。

图 3 为本发明所述的自适应判决器的结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的解释。除非另有说明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

S1.数据集准备：

收集与任务相关的图像数据，分为待翻译图像images_B，待翻译图像语义分割标签labels_B，翻译后图像images_A，翻译后图像语义分割标签labels_A，对应放置于四个文件夹中，这些数据作为目标域数据。使用与翻译后图像images_A有关的公开数据集或从互联网上收集与翻译后图像images_A相关的图像，作为源域图像source_images，单独放置在一个文件夹中。

S2.数据集预处理：

切割出图像主要区域，然后对图像数据进行尺寸变换，缩放到256*256大小，最后对图像进行归一化，归一化参数都是0.5。

S3. 训练源域网络模型中的源域生成器：

在源域数据上训练模型时，将模型设置为源域模式。源域生成器接收的输入是一个噪声向量，该噪声向量经过一个全卷积层升维，成为一个65536维度的向量，然后将65536维度的向量转换成256*256维的矩阵，之后输入到卷积层中，卷积后的正则化使用批次正则化。生成的过程需要经过降采样层，尺寸不变的卷积层，最后再上采样生成256*256的假源域图像（fake source_images）。源域判决器接收的图像是真实源域图像（real source_images）或合成的假源域图像（fake source_images），但是图像是经过增强后的图像，增强方式在S5中详细描述。源域判决器尽力区分输入的图像是真实图像还是合成的假图像。以此反馈交替更新源域生成器和源域判决器的参数。

S4. 训练目标域网络模型中的目标域生成器：

在目标域数据上训练网络时，目标域生成器接收待翻译图像images_B和待翻译图像语义分割标签labels_B，模型设置为目标域模式。待翻译图像Images_B的尺寸为256*256像素，不需要像训练源域网络时经过全连接层，直接进入卷积层网络。经过卷积后的特征图使用空间自适应归一化，在空间自适应归一化中使用的基础正则化为实例正则化的计算方式，仿射变换则通过额外输入的待翻译图像语义分割标签labels_B进行，首先输入的待翻译图像语义分割标签labels_B经过一次卷积得到输出后，分别经过两个卷积得到两个张量，这两个张量作为仿射变换参数中的缩放值（γ）和偏移值（β），然后先用源域模型中的批次正则化层的仿射参数对特征图分布进行还原，之后用γ和β对特征图进行元素级的相乘和相加，得到最终输出。空间自适应归一化层只用在下采样和中间的卷积块中，上采样和源域共享BN层（批次正则化层，Batch Normalization），最终得到假目标域的翻译后图像（fake images_A）。

S5.图像增广：

常规的增广的方式不适用于GAN网络，本发明采用专门针对GAN提出的自适应判决器增强。即图像的增广变化发生在输入自适应判决器之前，而不是自适应生成器之前。图像送入到自适应判决器之前要随机经过颜色变化，随机遮挡等增广方式。该方法原来设置的随机概率是根据过拟合程度自动调整的，但过拟合的判断标准不适用于本发明，本发明采用的随机概率为安全值0.8。判决的图像都将是经过0.8概率增广后的图像。

S6. 训练源域网络模型中的源域判决器和目标域网络模型中的目标域判决器：

判决器接收真实的翻译后图像（real images_A）或假的翻译后图像（fakeimages_B），和真实翻译后图像的语义分割标签Labels_A。模型同样设置为目标域模式。接收到的真实图像或假图像进入卷积层提取特征。Labels_A则用作空间自适应归一化层进行条件正则化，计算过程如S4所描述。在判决器中使用空间自适应归一化可以使得判决器关注关键的目标区域。最后得到输入图像是真实的翻译后图像还是假的翻译后图像。

本发明还提供一种基于域自适应先验知识引导生成对抗网络的图像生成***，包括数据集准备模块、数据集预处理模块、训练源域网络模块、训练目标域生成网络模块、图像增广模块和训练目标域判决网络模块，所述的数据集准备模块用于针对任务需求收集成对的图像和所述图像对应的语义分割标签，作为训练时的目标域数据；从互联网收集与目标域中翻译后的图像相似或相关的图像，不需要标签，作为训练时的源域数据；所述的数据集预处理模块用于统一所述的目标域数据和源域数据中所有图像数据的尺寸；所述的训练源域网络模块使用所述的源域数据训练模型，模型的输入为一个噪声向量，该噪声向量经过一个全连接层处理后，将新的向量重组成统一的图像尺寸，此时模型使用批次正则化作为正则化层；所述的训练目标域生成网络模块使用所述的目标域数据训练模型，模型接受的输入数据为待翻译图像和待翻译图像的语义分割标签，该语义分割标签用于空间自适应归一化层做条件正则化，加强待翻译图像对生成的翻译后图像的约束；所述的图像增广模块使用自适应判决器进行增强，输入自适应判决器前的图像经过随机的增强，自适应判决器只判决增强后的图像；所述的训练目标域判决网络模块采用自适应判决器接收真实的翻译后图像或假的翻译后图像，和真实翻译后图像的语义分割标签；判决器接收到的真实图像或假图像进入卷积层提取特征；真实翻译后图像的语义分割标签则用作空间自适应归一化层进行条件正则化；在自适应判决器中使用空间自适应归一化能够使得自适应判决器关注关键的目标区域。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于域自适应先验知识引导生成对抗网络的图像生成方法，其特征在于，包括以下步骤：

S3. 训练源域网络模型中的源域生成器：使用所述的源域数据训练模型时，模型的输入为一个噪声向量，该噪声向量经过一个全连接层处理后，将新的向量重组统一成图像的尺寸，此时模型使用批次正则化层；

S4. 训练目标域网络模型中的目标域生成器：使用所述的目标域数据训练模型时，模型接受的输入数据为待翻译图像和待翻译图像的语义分割标签，该语义分割标签用于空间自适应归一化层做条件正则化，加强待翻译图像对生成的翻译后图像的约束；

S5. 图像增广：使用自适应判决器进行增强，输入自适应判决器前的图像经过随机的增强，自适应判决器只判决增强后的图像；

S6. 训练源域网络模型中的源域判决器和目标域网络模型中的目标域判决器：源域网络模型中的源域判决器与目标域网络模型中的目标域判决器不共享正则化层；训练目标域判决网络时，目标域判决器接受的是目标域真实图像或合成图像，和真实图像的语义分割标签，所述的语义分割标签同样用于空间自适应归一化层作条件正则化；最后得到判决结果。

2.如权利要求1所述的基于域自适应先验知识引导生成对抗网络的图像生成方法，其特征在于，在所述的数据集准备步骤中，收集的图像分为待翻译图像，待翻译图像语义分割标签，翻译后图像和翻译后图像语义分割标签，对应放置于四个文件夹中，作为目标域数据；使用与翻译后图像有关的公开数据集或从互联网上收集与翻译后图像相关的图像，作为源域图像，单独放置在一个文件夹中。

3.如权利要求1所述的基于域自适应先验知识引导生成对抗网络的图像生成方法，其特征在于，在所述的训练源域网络模型中的源域生成器的步骤中，所述的噪声向量经过一个全卷积层升维，成为一个65536维度的向量，然后将65536维度的向量转换成256*256维的矩阵，之后输入到卷积层中，卷积后的正则化使用批次正则化层；源域生成器生成图像的过程需要经过降采样后再上采样生成256*256的假源域图像；源域判决器接收的图像是真实源域图像或假的源域图像，但是源域判决器接收的图像是经过增强后的图像。

4.如权利要求1所述的基于域自适应先验知识引导生成对抗网络的图像生成方法，其特征在于，在所述的训练目标域网络模型中的目标域生成器的步骤中，翻译前的图像和翻译后的图像并不处于同一分布，因此空间自适应归一化不对目标域生成器的最后上采样层进行约束，只对不包含上采样的其他层进行约束。

5.如权利要求4所述的基于域自适应先验知识引导生成对抗网络的图像生成方法，其特征在于，在所述的训练目标域网络模型中的目标域生成器的步骤中，将对应层的批次正则化层的仿射参数迁移到空间自适应归一化中，帮助加强源域和目标域的联系。

6.如权利要求1所述的基于域自适应先验知识引导生成对抗网络的图像生成方法，其特征在于，在所述的训练目标域网络模型中的目标域生成器的步骤中，目标域生成器接收待翻译图像和待翻译图像语义分割标签，待翻译图像的尺寸为256*256像素，不需要像训练源域网络时经过全连接层，直接进入卷积层网络；经过卷积后的特征图使用空间自适应归一化正则化，在空间自适应归一化正则化中使用实例正则化做基础正则化的方式进行计算，仿射变换则通过额外输入的待翻译图像语义分割标签进行，首先输入的待翻译图像语义分割标签经过一次卷积得到输出后，分别经过两个卷积得到两个张量，这两个张量作为仿射变换参数中的缩放量和偏移量，然后先用源域网络模型中的批次正则化层的仿射参数对特征图分布进行还原，之后用缩放量和偏移量对特征图进行元素级的相乘和相加，得到最终输出；空间自适应归一化层只用在下采样和中间的卷积块中，上采样和源域共享批次正则化层，最终得到假目标域的翻译后图像。

7.如权利要求1所述的基于域自适应先验知识引导生成对抗网络的图像生成方法，其特征在于，在所述的图像增广的步骤中，采用自适应判决器增强，图像的增广变化发生在输入自适应判决器之前，而不是自适应生成器之前；图像送入到自适应判决器之前要随机经过颜色变化或随机遮挡的增广方式，采用的随机概率为安全值0.8；判决的图像都将是经过0.8概率增广后的图像。

8.如权利要求1所述的基于域自适应先验知识引导生成对抗网络的图像生成方法，其特征在于，在所述的训练源域网络模型中的源域判决器和目标域网络模型中的目标域判决器的步骤中，自适应判决器接收真实的翻译后图像或假的翻译后图像，和真实翻译后图像的语义分割标签；自适应判决器接收的真实图像或假的图像进入卷积层提取特征；真实翻译后图像的语义分割标签则用作空间自适应归一化层进行条件正则化；在自适应判决器中使用空间自适应归一化能够使得自适应判决器关注关键的目标区域；最后得到判决结果。

9.一种基于域自适应先验知识引导生成对抗网络的图像生成***，其特征在于，包括数据集准备模块、数据集预处理模块、训练源域网络模块、训练目标域生成网络模块、图像增广模块和训练目标域判决网络模块，所述的数据集准备模块用于针对任务需求收集成对的图像和所述图像对应的语义分割标签，作为训练时的目标域数据；从互联网收集与目标域中翻译后的图像相似或相关的图像，不需要标签，作为训练时的源域数据；所述的数据集预处理模块用于统一所述的目标域数据和源域数据中所有图像数据的尺寸；所述的训练源域网络模块使用所述的源域数据训练模型，模型的输入为一个噪声向量，该噪声向量经过一个全连接层处理后，将新的向量重组成统一的图像尺寸，此时模型使用批次正则化作为正则化层；所述的训练目标域生成网络模块使用所述的目标域数据训练模型，模型接受的输入数据为待翻译图像和待翻译图像的语义分割标签，该语义分割标签用于空间自适应归一化层做条件正则化，加强待翻译图像对生成的翻译后图像的约束；所述的图像增广模块使用自适应判决器进行增强，输入自适应判决器前的图像经过随机的增强，自适应判决器只判决增强后的图像；所述的训练目标域判决网络模块采用自适应判决器接收真实的翻译后图像或假的翻译后图像，和真实翻译后图像的语义分割标签；自适应判决器接收到的真实图像或假图像进入卷积层提取特征；真实翻译后图像的语义分割标签则用作空间自适应归一化层进行条件正则化；在自适应判决器中使用空间自适应归一化能够使得自适应判决器关注关键的目标区域。