CN108090521B

CN108090521B - 一种生成式对抗网络模型的图像融合方法和判别器

Info

Publication number: CN108090521B
Application number: CN201810031988.6A
Authority: CN
Inventors: 朱湘军; 李立军; 李利苹; 彭永坚; 汪壮雄; 周智恒; 胥静
Original assignee: Guangzhou Video Star Intelligent Co ltd; Guangzhou Visual Sound Intelligent Technology Co ltd; South China University of Technology SCUT
Current assignee: Guangzhou Video Star Intelligent Co ltd; GUANGZHOU VIDEO-STAR ELECTRONICS CO LTD; South China University of Technology SCUT
Priority date: 2018-01-12
Filing date: 2018-01-12
Publication date: 2022-04-08
Anticipated expiration: 2038-01-12
Also published as: CN108090521A

Abstract

本发明实施例提供了一种生成式对抗网络模型的图像融合方法和判别器，其中，该方法包括：S1：获取到生成器生成的图像；S2：对所述图像进行分解得到颜色通道；S3：在通过预置卷积核对所述颜色通道进行单层卷积得到特征图后，对所述特征图进行融合得到融合后的所述图像；S4：循环执行S2和S3直至卷积次数等于预置次数。本发明在每一层卷积结束之后，都对图像各个颜色通道的特征图进行融合，再进行后续训练。在这种情况下，整个网络的鲁棒性得到了进一步增强。本发明实施例提供了一种生成式对抗网络模型。

Description

一种生成式对抗网络模型的图像融合方法和判别器

技术领域

本发明涉及生成式对抗网络领域，尤其涉及一种生成式对抗网络模型的图像融合方法。

背景技术

生成式对抗网络(Generative Adversarial Network，GAN)是由Goodfellow在2014年提出的深度学习框架，它基于“博弈论”的思想，构造生成器(generator)和判别器(discriminator)两种模型，前者通过输入(0，1)的均匀噪声或高斯随机噪声生成图像，后者对输入的图像进行判别，确定是来自数据集的图像还是由生成器产生的图像。

在传统的网络模型中，判别器对生成器生成的图像进行多层卷积后，得到图像的特征图，再对特征图进行融合得到融合后的图像并将图像用于后续对整个模型的训练，这种训练过程会导致整个网络模型的泛化能力和鲁棒性低下。

发明内容

本发明实施例提供了一种生成式对抗网络模型的图像融合方法和判别器，解决了当前对生成式对抗网络训练过程存在缺陷，导致整个网络模型的泛化能力和鲁棒性低下的技术问题。

本发明实施例提供了一种生成式对抗网络模型的图像融合方法，包括

S1：获取到生成器生成的图像；

S2：对所述图像进行分解得到颜色通道；

S3：在通过预置卷积核对所述颜色通道进行单层卷积得到特征图后，对所述特征图进行融合得到融合后的所述图像；

S4：循环执行S2和S3直至卷积次数等于预置次数。

优选地，S4之后还包括：

S5：确定与最后一次卷积操作对应的所述图像为最终图像，根据所述最终图像生成损失函数，并将所述损失函数发送至所述生成器；

其中，所述损失函数为：

式中，D(x)为判别器对生成器生成的图像的判别结果，pr表示预置数据集图像的分布，pg表示最终图像的分布，λ为超参数，

为梯度。

优选地，步骤S1具体为：

获取到生成器根据文本和噪声生成的图像。

优选地，所述文本为编码后的文本，所述噪声为随机噪声。

优选地，本发明实施例提供了一种生成式对抗网络模型的判别器，包括：

获取模块，用于获取到生成器生成的图像；

分解模块，用于对所述图像进行分解得到颜色通道；

卷积模块，用于在通过预置卷积核对所述颜色通道进行单层卷积得到特征图后，对所述特征图进行融合得到融合后的所述图像；

循环模块，用于循环触发分解模块和卷积模块直至卷积次数等于预置次数。

优选地，所述判别器还包括：

反馈模块，用于确定与最后一次卷积操作对应的所述图像为最终图像，根据所述最终图像生成损失函数，并将所述损失函数发送至所述生成器；

其中，所述损失函数为：

为梯度。

优选地，所述获取模块还用于获取到生成器根据文本和噪声生成的图像。

优选地，所述文本为编码后的文本，所述噪声为随机噪声。

优选地，本发明实施例还提供了一种生成式对抗网络模型，包括：生成器和如以上所述的判别器。

优选地，所述生成器和所述判别器由深度卷积神经网络构建。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例提供了一种生成式对抗网络模型的图像融合方法和判别器，其中，该方法包括：S1：获取到生成器生成的图像；S2：对所述图像进行分解得到颜色通道；S3：在通过预置卷积核对所述颜色通道进行单层卷积得到特征图后，对所述特征图进行融合得到融合后的所述图像；S4：循环执行S2和S3直至卷积次数等于预置次数。本发明在每一层卷积结束之后，都对图像各个颜色通道的特征图进行融合，再进行后续训练。在这种情况下，整个网络的鲁棒性得到了进一步增强。更进一步地，利用文本编码器与噪声相结合的方式，使得网络能够生成与文本内容相符合的图像。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种生成式对抗网络模型的图像融合方法的一个实施例的流程示意图；

图2为本发明实施例提供的一种生成式对抗网络模型的判别器的一个实施例的结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明提供的一种生成式对抗网络模型的图像融合方法的一个实施例，包括：

101、获取到生成器根据文本和噪声生成的图像；

在本实施例中，生成器根据对其输入的文本和噪声生成相应的图像。预先通过对将要输入的文件进行编码操作，可以使整个生成式对抗网络能够生成符合文本描述内容的图像。在对文件进行编码操作后，将文件结合随机噪声输入生成器，该生成器将生成对应的图像，然后判别器可以获取到该图像并进行后续操作。需要说明的是，判别器获取该图像的方式可以是生成器向判别器发送的方式也可以是网络使用者向判别器输入该图像的方式，此处不做具体的限定。

102、对图像进行分解得到颜色通道；

判别器在获取到生成器生成的图像后，将该图像进行分解得到多个颜色通道。多个颜色通道指不同颜色通道，如红、黄、蓝三个颜色通道，实际一个图像远远不止三个颜色通道。

103、在通过预置卷积核对颜色通道进行单层卷积得到特征图后，对特征图进行融合得到融合后的图像；

判别器在得到颜色通道后，可以通过预置卷积核对颜色通道进行单层卷积得到特征图。需要说明的是，预置卷积核是通过预先构造的多个卷积核，不同的卷积核，代表着在学习的过程中，能够学习到不同的图像特征。不同的颜色通道使用不同卷积核，不同的卷积核体现在尺寸、数值上。

事实上，哪条通道对应哪种卷积核，并没有硬性规定，可根据实际情况决定，只要各个通道对应的卷积核是不同的即可。例如，红色通道对应3*3卷积核，黄色通道对应4*4卷积核，蓝色通道对应5*5卷积核等。

在生成式对抗网络的传统卷积方式中，对图像进行多层卷积后才进行融合，本发明的判别器在对图像每进行一层卷积后，则对得到的特征图进行融合，再对融合后的图像再次进行分解、单层卷积和融合，反复执行这些操作，在每层卷积并融合得到的图像均不同于上一次得到的图像，因为每一次卷积并融合后得到的图像的特征与上一次得到的图像的特征不同。

104、循环执行102和103直至卷积次数等于预置次数；

循环执行步骤102和步骤103直至卷积次数等于预先设定的次数，可以理解的是，该预置次数即为判别器中的卷积层数，可以在构造判别器时进行设定。

105、确定与最后一次卷积操作对应的图像为最终图像，根据最终图像生成损失函数，并将损失函数发送至生成器；

将与判别器最后一次卷积操作对应的图像确定为最终图像，需要说明的是，在判别器对生成器生成的图像进行分解前，会根据预置数据集图像对该图像进行判别，得到判别结果，然后才对该图像进行分解即步骤102。

判别器在确定最终图像后，根据判别结果、预置数据集图像的分布和最终图像的分布构造损失函数，并将该损失函数发送至生成器。损失函数的作用是衡量判别器对生成图像判断的能力。损失函数的值越小，说明在当前迭代中，判别器能够有较好的性能辨别生成器的生成图像，反之则说明判别器的性能较差。而生成器在获取到该损失函数后，可以根据损失函数更新自身的参数，以达到不断训练学习的效果。

其中，损失函数为：

为梯度。

在本实施例中，执行完一次步骤101至步骤105仅为对生成式对抗网络的一次训练，而网络训练需要多次反复进行，因此，在执行完一次训练后，还可以继续对生成器输入文本和噪声，即重新执行步骤101至步骤105直至训练得到理想的网络模型。需要说明的是，在每一次训练的过程中生成器生成的图像均被输出显示，网络使用者可以根据每次训练过程中生成器生成的图像判断图像是否满足要求，若满足要求，则输入训练终止指令。

本发明采用了通道融合的方法，在每一层卷积结束之后，都对图像各个通道的特征图进行融合，再进行后续训练。在这种情况下，整个网络的鲁棒性得到了进一步增强。

以上是对本发明提供的一种生成式对抗网络模型的图像融合方法进行的详细说明，下面将对本发明提供的一种生成式对抗网络模型的判别器的一个实施例进行说明，该实施例包括：

获取模块201，用于获取到生成器生成的图像；

分解模块202，用于对图像进行分解得到颜色通道；

卷积模块203，用于在通过预置卷积核对颜色通道进行单层卷积得到特征图后，对特征图进行融合得到融合后的图像；

循环模块204，用于循环触发分解模块202和卷积模块203直至卷积次数等于预置次数。

在本实施例中，判别器还包括：

反馈模块205，用于确定与最后一次卷积操作对应的图像为最终图像，根据最终图像生成损失函数，并将损失函数发送至生成器；

其中，损失函数为：

为梯度。

在本实施例中，获取模块201还用于获取到生成器根据文本和噪声生成的图像。

在本实施例中，文本为编码后的文本，噪声为随机噪声。

以上是对本发明提供的一种生成式对抗网络模型的判别器的结构和连接关系进行的详细说明，下面将对本发明提供的一种生成式对抗网络模型的一个实施例进行说明，在本实施例中，包括：生成器和如以上所述的判别器。

在本实施例中，生成器和判别器由深度卷积神经网络构建。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种生成式对抗网络模型的图像融合方法，其特征在于，包括：

S1：获取到生成器生成的图像；

S2：判别器在获取到生成器生成的图像后，对所述图像进行分解得到颜色通道；

S3：判别器在得到颜色通道后，通过预置卷积核对所述颜色通道进行单层卷积得到特征图，判别器在对图像每进行一层卷积后，对所述特征图进行融合得到融合后的图像；

S4：循环执行S2和S3直至卷积次数等于预置次数，所述预置次数为判别器中的卷积层数。

2.根据权利要求1所述的生成式对抗网络模型的图像融合方法，其特征在于，S4之后还包括：

其中，所述损失函数为：

为梯度。

3.根据权利要求1所述的生成式对抗网络模型的图像融合方法，其特征在于，步骤S1具体为：

获取到生成器根据文本和噪声生成的图像。

4.根据权利要求3所述的生成式对抗网络模型的图像融合方法，其特征在于，所述文本为编码后的文本，所述噪声为随机噪声。

5.一种生成式对抗网络模型的判别器，其特征在于，包括：

获取模块，用于获取到生成器生成的图像；

分解模块，用于对所述图像进行分解得到颜色通道；

卷积模块，用于通过预置卷积核对所述颜色通道进行单层卷积得到特征图，在对图像每进行一层卷积后，对所述特征图进行融合得到融合后的图像；

循环模块，用于循环触发分解模块和卷积模块直至卷积次数等于预置次数，所述预置次数为判别器中的卷积层数。

6.根据权利要求5所述的判别器，其特征在于，还包括：

其中，所述损失函数为：

为梯度。

7.根据权利要求6所述的判别器，其特征在于，所述获取模块还用于获取到生成器根据文本和噪声生成的图像。

8.根据权利要求7所述的判别器，其特征在于，所述文本为编码后的文本，所述噪声为随机噪声。

9.一种生成式对抗网络模型，其特征在于，包括：生成器和如权利要求5至8任意一项所述的判别器。

10.根据权利要求9所述的生成式对抗网络模型，其特征在于，所述生成器和所述判别器由深度卷积神经网络构建。