CN111932438B

CN111932438B - 图像风格迁移方法、设备及存储装置

Info

Publication number: CN111932438B
Application number: CN202010562121.0A
Authority: CN
Inventors: 汪均轶; 任宇鹏; 卢维; 熊剑平
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2024-06-18
Anticipated expiration: 2040-06-18
Also published as: CN111932438A

Abstract

本发明公开了一种图像风格迁移方法、设备及存储装置，图像风格迁移方法包括以下步骤：获取实例样本集集合，所述实例样本集集合包括至少一个实例样本集，所述实例样本集包括至少一张样本图像，所述样本图像包括实例对象、实例属性，同一实例样本集中所述实例属性相同，所述实例样本集集合中的所述实例对象相同；获取生成网络；依据所述实例样本集集合对所述生成网络进行训练，获取训练完成后的所述生成器；依据待迁移的目标实例获取所述生成器进行风格迁移后生成的结果图像。通过上述方式，本发明能够达到对实例级图像进行多种风格的迁移，且不破坏目标图片语义或结构信息的目的。

Description

图像风格迁移方法、设备及存储装置

技术领域

本申请涉及图像处理领域，特别涉及一种图像风格迁移方法、设备及存储装置。

背景技术

风格迁移是在保留目标图片内容的基础上，将某种风格图片的风格应用在目标图片中。现有技术中使用的传统神经网络风格迁移方法为了达到一个比较好的视觉效果，风格图片的选择往往和目标图片差异较大，且风格图片自身包含的色彩和结构在全图范围内较统一，生成的结果图片因为带有风格图片的纹理、色彩结构的搭配，从视觉上看确实是将不同的画风迁移到了目标图片上，但是目标图片中拥有语义信息的物体或实例因为带有了风格图片的纹理，原有的纹理和结构信息已部分丢失，特别在工业设计图等工业领域的图片中，在语义上相近但来源不同的数据集之间的风格迁移时，当不同来源的数据集拥有几乎相同的语义信息，但是风格上略有不同时，数据集对异常的色彩空间和结构信息容忍度较低。因此，使用现有的风格迁移方法不能很好的胜任对这类数据集间的相互迁移。

因此，有必要提供一种图像风格迁移方法、设备及存储装置以解决上述技术问题。

发明内容

本申请提供一种图像风格迁移方法、设备及存储装置，能够达到对实例级图像进行多种风格的迁移，且不破坏目标图片语义或结构信息的目的。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种图像风格迁移方法，包括以下步骤：

获取实例样本集集合，所述实例样本集集合包括至少一个实例样本集，所述实例样本集包括至少一张样本图像，所述样本图像包括实例对象、实例属性，同一实例样本集中所述实例属性相同，所述实例样本集集合中的所述实例对象相同；

获取生成网络，所述生成网络包括判别器、生成器，所述判别器用于判别输入的图像是否为真实图像，所述生成器用于对图像进行风格迁移；

依据所述实例样本集集合对所述生成网络进行训练，获取训练完成后的所述生成器；

依据待迁移的目标图像获取所述生成器进行风格迁移后生成的结果图像。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种图像风格迁移设备，该设备包括处理器、与所述处理器耦接的存储器，其中，所述存储器存储有用于实现上述图像风格迁移方法的程序指令；所述处理器用于执行所述存储器存储的所述程序指令以对图像风格进行迁移。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种存储装置，存储有能够实现上述图像风格迁移方法的程序文件。

本申请的有益效果是：

本发明的一种图像风格迁移方法、设备及存储装置通过同一实例对象、不同实例属性的实例样本集集合进行网络训练获得生成器，所述生成器能完成实例级的风格迁移，不会破坏目标图片的语义或结构信息，迁移后的结果图像不论是从视觉角度观察，还是从第三方检测网络的精度上看，都能够保留原有的结构和语义信息，确保目标图像中独立的实例在迁移后能够被用于后续的检测工作，具有重要的应用价值。

进一步地，生成网络训练拟合的是实例样本集集合即一类数据集的数据分布，不是只对单张图片内部的分布拟合，因此不会引入独立样本中的噪声。

进一步地，所述第一损失函数、所述第二损失函数的计算采用收敛性能更好的WGAN-GP，使得模型训练更稳定，收敛更好。

附图说明

图1是本发明第一实施例的图像风格迁移方法的流程示意图；

图2是本发明第一实施例的图像风格迁移方法的判别器功能示意图；

图3是本发明第一实施例的图像风格迁移方法的判别器结构示意图；

图4是本发明第一实施例的图像风格迁移方法的生成器功能示意图；

图5是本发明第一实施例的图像风格迁移方法的生成器结构示意图；

图6是本发明第一实施例的图像风格迁移方法的实例示意图；

图7是本发明一种实施例的图像风格迁移装置的结构示意图；

图8是本发明一种实施例的图像风格迁移设备的结构示意图；

图9是本发明一种实施例的存储装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1是本发明第一实施例的图像风格迁移方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括步骤：

步骤S101：获取实例样本集集合。

在步骤S101中，所述实例样本集集合包括至少一个实例样本集，所述实例样本集包括至少一张样本图像，所述样本图像包括实例对象、实例属性，同一实例样本集中所述实例属性相同，所述实例样本集集合中的所述实例对象相同，例如：将打火机作为实例对象，那么一个实例样本集中可以包括至少一张打火机的样本图片，此实例样本集中的打火机具有相同的对象属性，如将金属材质作为一种对象属性，那么此实例样本集中的打火机的样本图片则应都是金属打火机的图片，另一实例样本集中的实例对象也为打火机，且对象属性为不同于金属材质的其他属性，如塑料材质，则两个不同对象属性的打火机的实例样本集组成实例样本集集合。

步骤S102：获取生成网络，所述生成网络包括判别器、生成器。

本实施例中，所述生成网络采用的是一种生成式对抗网络，需要说明的是，生成式对抗网络(GAN,Generative Adversarial Networks)是一种深度学习模型，GAN同时要训练一个生成器(Generator)和一个判别器(Discriminator)，前者输入一个噪声变量z，输出一个伪图片数据，后者输入一个图片(real image)以及伪图片(fake image)数据，输出一个表示该输入是自然图片或者伪造图片的二分类置信度，理想情况下，判别器D需要尽可能准确的判断输入数据到底是一个真实的图片还是某种伪造的图片，而生成器G又需要尽最大可能去欺骗判别器D，让判别器D把自己产生的伪造图片全部判断成真实的图片。训练过程中，生成器G的目标是尽可能生成真实的伪图片使判别器D认为是真的，而判别器D的目标是尽可能的辨别出生成器G生成的假图像和真实的图像。

请一并参阅图2、图3、图4和图5，图2是本发明第一实施例的图像风格迁移方法的判别器功能示意图；图3是本发明第一实施例的图像风格迁移方法的判别器结构示意图；图4是本发明第一实施例的图像风格迁移方法的生成器功能示意图；图5是本发明第一实施例的图像风格迁移方法的生成器结构示意图。

本实施例中，所述判别器D及所述生成器G为全卷积神经网络，所述判别器D包括4个卷积层，第一个Conv1为卷积层+LeakyReLU激活函数，第二个Conv2为级联5个卷积层+LeakyReLU激活函数，第三个Conv3与第四个Conv4也均为卷积层，并且无激活函数。所述生成器G包括第一个Conv1为卷积层+IN(Instance Normalization)层+ReLU激活函数，第二个残差模块Residual Block为卷积层+IN(Instance Normalization)层+ReLU激活函数+卷积层+IN(Instance Normalization)层，第三个Conv Transpose为转置卷积层+IN(InstanceNormalization)层+ReLU激活函数第四个Conv2为卷积层+Tanh函数。

步骤S103：依据所述实例样本集集合对所述生成网络进行训练，获取训练完成后的所述生成器。

步骤S103中，所述依据所述实例样本集集合对所述生成网络进行训练，获取训练完成后的所述生成器，包括：

步骤S103a：获取所述判别器；

需要说明的是，在所述生成网络的训练过程中，所述判别器与所述生成器都需要经过训练，当所述判别器训练完成后，需要依据所述判别器对所述生成器进行训练，在所述生成器的训练过程中也会进一步完善所述判别器。

具体的，依据所述实例样本集集合获取所述判别器的第二对抗损失及第一领域损失；依据所述伪图像获取所述判别器的第三对抗损失，所述伪图像为所述生成器生成的图像；在所述实例样本集集合及所述伪图像中采样获取采样样本，依据所述采样样本获取所述判别器的梯度惩罚；本实施例中，每次计算采样的样本为随机采样的一张样本图像；依据所述第二对抗损失、所述第三对抗损失、所述第一领域损失及所述梯度惩罚获取所述判别器的第二损失函数值，依据所述第二损失函数值获取训练后的所述判别器。

其中，所述第二损失函数为：

其中：P_r为所述实例样本集合的所述样本图像的样本数据分布，P_g为所述生成器G生成的所述伪图像的样本分布，为真假样本(真样本即所述实例样本集合的所述样本图像，假样本即所述生成器G生成的所述伪图像)中间区域随机采样的样本分布。D(x)为判别器，G(x)为生成器。x为输入的所述样本图像，c为目标标签，所述目标标签为所述实例样本集集合中的所述对象实例迁移后具有的对象属性，c’为源标签，所述源标签为所述实例样本集集合中的所述对象实例具有的对象属性。

所述第二损失函数前两项为Wasserstein距离(又称EM距离)。所述判别器D希望对于所述样本图像的样本数据，D(x)的数值尽可能高。而对于来自所述生成器G的所述伪图像的样本，D(G(x))的值尽可能低，以此形成对抗。第三项为梯度惩罚即Lipschitz限制，Lipschitz限制要求在整个样本空间上所述判别器梯度不超过预设阈值K。第四项为领域损失，所述判别器D希望对于给定的源数据x，输出正确的源标签的概率尽可能大。本实施例中，系数λ_adv＝10，λ_cls＝1，λ_rec＝10，预设阈值K＝1。

步骤S103b：依据所述实例样本集集合、目标标签获取所述生成器生成的伪图像；

所述生成器依据所述目标标签对所述实例样本集集合中的所述样本图片进行风格迁移后生成迁移后的伪图像。

步骤S103c：依据所述伪图像获取所述判别器的第一对抗损失；

所述判别器训练完成后，依据所述伪图像获取所述判别器的第一对抗损失。

步骤S103d：依据所述伪图像、所述实例样本集集合中的所述对象实例的所述对象属性获取所述生成器的重建损失；

步骤S103d中，是将所述实例样本集集合中的所述对象实例的所述源标签同所述生成器生成的伪图像在进行一次迁移，获取所述生成器的重建损失，即将所述生成器G依据目标变迁迁移的所述样本图片再迁移回源标签中，本实施例中，要求迁移两次后的图片尽可能与原始的所述样本图片接近，以确保所述生成器G在迁移过程中保留图像中的信息。

步骤S103e：依据所述第一对抗损失、所述重建损失计算所述第一损失函数。

具体的，所述第一损失函数为：

所述第一损失函数前两项与上述判别器D前两项类似，此处不再赘述。第三项为所述生成器的所述重建损失。

上述获取所述第一损失函数、所述第二损失函数的过程可以通过反复迭代进行训练，直到得到的所述第一损失函数满足预设阈值时则可以认为所述判别器D、所述生成器G训练完成，所述预设阈值为人为设置。

步骤S104：依据待迁移的目标实例获取所述生成器进行风格迁移后生成的结果图像。

步骤S104中，当所述生成器G完成训练后，即可以对需要进行风格迁移的目标图像进行迁移计算输出迁移后的结果图像。本实施例中，对于需要迁移的目标图像可以先获取待迁移的目标图像中的所述目标实例，所述目标实例可以通过输入设备如鼠标、键盘等输入装置进行人为选择，也可以通过语义识别技术进行识别，然后，依据所述目标实例进行风格迁移，获取所述生成器按所述目标风格进行迁移的结果实例；最后，将所述结果实例替换所述目标图像中的所述目标实例，得到迁移后的所述结果图像。如图6所示，图6是本发明第一实施例的图像风格迁移方法的实例示意图，在Sample1、Sample2中先选取待处理的目标图片中的一个目标实例，选取出的实例经过风格迁移后生成迁移的结果实例，结果实例恢复到目标图片中同样的地方，保持原来的图片结构和语义信息。

本发明的一种图像风格迁移方法，通过同一实例对象、不同实例属性的实例样本集集合进行网络训练获得生成器，所述生成器能完成实例级的风格迁移，不会破坏目标图片的语义或结构信息，迁移后的结果图像不论是从视觉角度观察，还是从第三方检测网络的精度上看，都能够保留原有的结构和语义信息，确保目标图像中独立的实例在迁移后能够被用于后续的检测工作，具有重要的应用价值。

图7是本发明一种实施例的图像风格迁移装置的结构示意图。如图7所示，该装置包括软件获取模块41、训练模块42、迁移模块43。

获取模块41用于获取实例样本集集合，所述实例样本集集合包括至少一个实例样本集，所述实例样本集包括至少一张样本图像，所述样本图像包括实例对象、实例属性，同一实例样本集中所述实例属性相同，所述实例样本集集合中的所述实例对象相同；

训练模块42用于获取生成网络，所述生成网络包括判别器、生成器，所述判别器用于判别输入的图像是否为真实图像，所述生成器用于对图像进行风格迁移；依据所述实例样本集集合对所述生成网络进行训练，获取训练完成后的所述生成器；

迁移模块43用于依据待迁移的目标实例获取所述生成器进行风格迁移后生成的结果图像。

本申请提供一种图像风格迁移装置，能够达到对实例级图像进行多种风格的迁移，且不破坏目标图片语义或结构信息的目的。

请参阅图8，图8是本发明一种实施例的图像风格迁移设备的结构示意图。如图8所示，该升级设备60包括处理器61及和处理器61耦接的存储器62。

存储器62存储有用于实现上述任一实施例所述图像风格迁移方法的程序指令。

处理器61用于执行存储器62存储的程序指令以对所述图像进行风格迁移。

其中，处理器61还可以称为CPU(Central Processing Unit，中央处理单元)。处理器61可能是一种集成电路芯片，具有信号的处理能力。处理器61还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图9，图9为本发明实施例的存储装置的结构示意图。本发明实施例的存储装置存储有能够实现上述所有方法的程序文件71，其中，该程序文件71可以以软件产品的形式存储在上述存储装置中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种图像风格迁移方法，其特征在于，包括以下步骤：

依据待迁移的目标实例获取所述生成器进行风格迁移后生成的结果图像；

所述依据待迁移的目标实例获取所述生成器进行风格迁移后生成的结果图像包括：

获取待迁移的目标图像中的所述目标实例，依据所述目标实例进行风格迁移，获取所述生成器按目标风格进行迁移的结果实例，将所述结果实例替换所述目标图像中的所述目标实例，得到迁移后的所述结果图像。

2.根据权利要求1所述图像风格迁移方法，其特征在于，所述依据所述实例样本集集合对所述生成网络进行训练，获取训练完成后的所述生成器，包括：

依据所述实例样本集集合获取所述生成网络的第一损失函数值，所述第一损失函数为所述生成器的损失函数；

当所述第一损失函数值达到预设范围，获取训练完成后的所述生成器。

3.根据权利要求2所述图像风格迁移方法，其特征在于，所述依据所述实例样本集集合获取所述生成网络的第一损失函数值，包括：

获取所述判别器；

依据所述实例样本集集合、目标标签获取所述生成器生成的伪图像，所述目标标签为所述实例样本集集合中的所述实例对象迁移后具有的对象属性；

依据所述伪图像获取所述判别器的第一对抗损失；

依据所述伪图像、所述实例样本集集合中的所述实例对象的所述对象属性获取所述生成器的重建损失；

依据所述第一对抗损失、所述重建损失计算所述第一损失函数。

4.根据权利要求3所述图像风格迁移方法，其特征在于，获取所述判别器，包括：

依据所述实例样本集集合获取所述判别器的第二对抗损失及第一领域损失；

依据所述伪图像获取所述判别器的第三对抗损失；

在所述实例样本集集合及所述伪图像中采样获取采样样本；

依据所述采样样本获取所述判别器的梯度惩罚；

依据所述第二对抗损失、所述第三对抗损失、所述第一领域损失及所述梯度惩罚获取所述判别器的第二损失函数值；

依据所述第二损失函数值获取训练后的所述判别器。

5.根据权利要求1所述图像风格迁移方法，其特征在于，所述判别器、所述生成器为全卷积网络。

6.根据权利要求5所述图像风格迁移方法，其特征在于，所述判别器包括4个卷积层，前两个卷积层每层使用LeakyReLU激活函数，后两个卷积层无激活函数。

7.根据权利要求5所述图像风格迁移方法，其特征在于，所述生成器包括3个卷积层和1个转置卷积层，其中1个卷积层为残差模块。

8.根据权利要求1所述图像风格迁移方法，其特征在于，所述依据待迁移的目标实例获取所述生成器进行风格迁移后生成的结果图像，包括：

获取待迁移的目标图像中的所述目标实例及目标风格；

依据所述目标实例获取所述生成器按所述目标风格进行迁移的结果实例；

将所述结果实例替换所述目标图像中的所述目标实例，得到迁移后的所述结果图像。

9.一种图像风格迁移设备，其特征在于，所述图像风格迁移设备包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现如权利要求1-8中任一项图像风格迁移方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以对图像风格进行迁移。

10.一种存储装置，其特征在于，存储有能够实现如权利要求1-8中任一项所述图像风格迁移方法的程序文件。