CN114240735B

CN114240735B - 任意风格迁移方法、***、存储介质、计算机设备及终端

Info

Publication number: CN114240735B
Application number: CN202111365109.1A
Authority: CN
Inventors: 王愈焯; 耿艳林
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2024-03-19
Anticipated expiration: 2041-11-17
Also published as: CN114240735A

Abstract

本发明属于计算机视觉中的生成对抗网络及风格迁移技术领域，公开了一种任意风格迁移方法、***、存储介质、计算机设备及终端，所述任意风格迁移***网络的输入由内容图像I_c和风格图像I_s组成，输出为风格化图像I_cs；所述网络结构由图像编码器Enc、自适应通道网络AdaNet、解码器Dec、判别器D和辅助分类器Q共五部分组成；所述任意风格迁移方法包括：利用训练数据集训练任意风格迁移网络模型；网络模型训练完成后，使用图像编码器Enc、自适应通道网络AdaNet、解码器Dec进行网络前馈，即可得到风格化图像。本发明提高生成的艺术化图像的视觉表现，消除了现有方法生成的图像存在模糊块、色块和无意义线条等缺陷，拥有更加清晰的图像细节。

Description

任意风格迁移方法、***、存储介质、计算机设备及终端

技术领域

本发明属于计算机视觉中的生成对抗网络及风格迁移技术领域，尤其涉及一种任意风格迁移方法、***、存储介质、计算机设备及终端。

背景技术

目前，风格迁移是一种利用算法学习艺术图像风格的技术，它可以将一副图像转换为另一种艺术风格，同时可以保持内容图像的局部结构不变性。Gatys等人在2016年创造性地提出使用深度卷积网络来完成从真实图像到艺术图像的转换，并将这一技术称之为“风格迁移”。风格迁移技术在摄影领域、相机软件等应用上已经有相当规模的应用，可以预见随着这一技术的进一步发展与改进，在电影特效制作、CG渲染等工业场景会有广阔的应用前景。

继Gatys等人的工作之后，许多研究者提出了不同风格的迁移算法，但是这些方法有一个共同的局限性，即每个模型只能转换一种风格，针对其他艺术类别模型需要进行重新训练。

任意风格迁移算法消除了这一限制，可以通过一次训练来完成任意艺术风格类别的实时转换。目前这一领域内常用的技术在本质上都是，通过调整图像特征图在每一个特征通道上的统计参数来改变图像的风格特征：Li等人提出的WCT算法，通过对内容图像的特征图进行白化变换，从而去除风格信息而保留内容信息；Avatar-Net算法采用基于样式补丁的方法，在保持内容结构的同时，将内容特征映射到样式补丁；SANet算法引入自注意力机制，通过重新排列特征空间来学习内容特征和风格特征之间的语义关系；AdaIN算法通过匹配内容图像特征图和风格图像特征图之间的方差和均值来实现风格特征的转换。

目前业界现有的这些方法，通常可以合成具有明显风格特征的艺术化图像，但是很难在转换过程中平衡内容信息与风格信息，容易出现当内容信息保存较好时风格信息不够突出，或者当风格特点保持较好时内容信息丢失严重。并且现有方法生成的艺术化图像在局部结构上容易出现模糊块、色块和无意义的线条等缺陷。除此之外，现有方法在高分辨率下(内容图像为1024*1024分辨率)的转换结果表现较差，风格化特点不突出且内容细节丢失较多。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有的任意风格迁移算法无法解耦图像中的内容信息和风格信息，难以平衡生成的艺术化图像中的内容结构和风格化特点。

(2)现有技术方法生成的艺术化图像中存在大量模糊块、色块和无意义的线条等缺陷，并且在高分辨率上的转换结果不佳。

(3)现有技术方法在训练集之外的艺术风格类别上的泛化能力较差，风格化特点不突出且内容细节丢失较多。

解决以上问题及缺陷的难度和意义为：

(1)解耦内容信息和风格信息是风格迁移领域的关键难点之一，平衡两者可以使得风格迁移算法在对图像的转换上有更大的操作空间，更加灵活的生成艺术化图像。

(2)风格迁移算法生成的艺术化图像存在的视觉缺陷难以找到直接原因，且现有算法在高分辨率下表现不佳，因此消除图像视觉缺陷和提高算法在高分辨率下的生成结果可以最直观的改善视觉表现。

(3)任意风格迁移方法的目的是可以实现用户指定任意的风格图像，但训练集所能包含的风格类别总是有限的，因此风格泛化能力是极其重要的。

发明内容

针对现有技术存在的问题，本发明提供了一种任意风格迁移方法、***、存储介质、计算机设备及终端，尤其涉及一种基于自适应通道网络的任意风格迁移方法、***、存储介质、计算机设备及终端。

本发明是这样实现的，一种任意风格迁移***，所述任意风格迁移***网络的输入由一个内容图像I_c和一个风格图像I_s组成，输出为风格化图像I_cs；所述网络结构由图像编码器Enc、自适应通道网络AdaNet、解码器Dec、判别器D和辅助分类器Q共五部分组成；

其中，所述图像编码器Enc使用预训练的VGG-19网络，由卷积层、池化层和激活层组成，以内容图像和风格图像为输入，得到各自的特征图；

所述自适应通道网络AdaNet由向量β组成，β的各个分量取值为0或1，在网络训练的过程中自适应的调节各个分量的值，自适应网络利用向量β选择内容特征图的部分通道进行风格信息转换，从而得到目标特征图F_cs；

所述解码器Dec采用反向的VGG结构，由卷积层、上采样层和激活层组成，以目标特征图F_cs为输入，输出即为生成的艺术化图像I_cs；

所述判别器D使用Patch-GAN结构，由卷积层、池化层和激活层组成，在判别器末端不使用全连接层，对卷积层的输出进行均值计算，从而得到输入图像是否是真实艺术图像的概率；

所述辅助分类器Q和判别器D共享一部分卷积层，共享的部分使用ResNet结构，在卷积层之后使用全连接层和Sigmoid激活层得到输入图像所在艺术类别的分类结果。

本发明的另一目的在于提供一种应用所述的任意风格迁移***的任意风格迁移方法，所述任意风格迁移方法包括以下步骤：

步骤一，利用训练数据集训练任意风格迁移网络模型，使得网络可以对内容信息和风格信息进行解耦，并且转换内容图像的风格信息；

步骤二，网络模型训练完成后，使用图像编码器Enc、自适应通道网络AdaNet、解码器Dec进行网络前馈，即可得到风格化图像，完成风格迁移。

进一步，步骤一中，所述利用训练数据集训练任意风格迁移网络模型，可表述为以下最大最小化问题：

损失函数为：

其中，损失函数中表示对抗损失，/>表示辅助分类损失，/>和/>分别表示内容重建损失和风格一致性损失，λ_gan、λ_cla、/>和/>分别表示各部分损失的权重参数。

进一步，步骤一中，所述利用训练数据集训练任意风格迁移网络模型，包括：

(1)从训练集数据集中提取一组内容图像和风格图像，使用图像编码器提取内容图像和风格图像的特征图，保存VGG-19网络的relu_{1_1}、relu_{2_1}、relu_{3_1}和relu_{4_1}层的输出；

(2)使用自适应通道网络和解码器完成网络前馈，计算内容重建损失和风格一致性损失/>使用反向传播算法更新图像编码器、自适应通道网络和解码器的参数；

(3)使用判别器和辅助分类器对前馈的输出图像以及训练集中的艺术图片分别进行真假判断和类别判断，计算对抗损失和辅助分类损失/>使用反向传播算法更新图像编码器、解码器、判别器和辅助分类器的参数；

(4)循环执行步骤(1)至步骤(3)，按照固定频率保存当前网络参数，直到网络收敛。

进一步，步骤(1)中，所述训练数据集中风格图像使用Wikiart数据集，内容图像使用ImageNet数据集。

步骤(2)中，所述内容重建损失和风格一致性损失/>分别定义如下：

其中，F_cs＝AdaNet(F_c，F_s)；i表示图像编码器Enc的各个层，使用VGG-19网络的relu_{1_1}、relu_{2_1}、relu_{3_1}和relu_{4_1}层，表示对图像编码器对于图像I_c在第i层的输出进行每个通道上归一化的结果；s_j和s_k表示风格图像训练集中不同的风格类别。

进一步，步骤(3)中，所述对抗损失和辅助分类损失/>分别定义如下：

其中，P_u表示真实风格图像和解码器生成的虚假艺术图像之间的插值样本；中k和p分别取值为2和6；a_i表示风格图像/>所在的艺术风格类别的标签。

进一步，步骤二中，所述图像编码器以内容图像和风格图像为输入，得到各自的特征图：

F_c＝Enc(I_c)，F_s＝Enc(I_s)；

其中，F_c和F_s分别表示内容图像和风格图像的特征图。

所述自适应通道网络表述为以下等式：

其中，σ函数和μ函数表示对特征图，在每个通道上分别求方差和均值。

所述解码器以目标特征图F_cs为输入，输出即为生成的艺术化图像I_cs：

I_cs＝Dec(F_cs)。

所述判别器在判别器末端不使用全连接层，对卷积层的输出进行均值计算，从而得到输入图像是否是真实艺术图像的概率P_d：P_d＝D(I)。

所述辅助分类器和判别器共享一部分卷积层，在卷积层之后使用全连接层和Sigmoid激活层得到输入图像所在艺术类别的分类结果P_c：P_c＝Q(I)。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

利用训练数据集训练任意风格迁移网络模型；

网络模型训练完成后，使用图像编码器Enc、自适应通道网络AdaNet、解码器Dec进行网络前馈，即可得到风格化图像。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

利用训练数据集训练任意风格迁移网络模型；

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的任意风格迁移***。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提高了任意风格迁移算法的图像生成效果，和业界目前使用的风格迁移方法相比，可以由用户任意指定风格类别，在相机软件、电影特效制作和CG渲染等有广大的应用前景。本发明提供的任意风格迁移方法，设计了自适应通道网络，可以灵活的匹配内容特征图的特定特征通道，进行参数化调整，以此实现内容信息和风格信息的解耦，在风格转换中达到内容信息和风格信息的平衡。除此之外，本发明提出了内容重建损失来维持转换结果上的局部结构不变性，和风格一致性损失来提高转换结果的风格化效果和风格泛化能力。本发明所述的任意风格迁移方法及***可以高效的生成高质量的艺术化图像，有着良好的风格泛化能力，并且在高分辨率的图像上有着良好的转换效果。

与现有技术相比，本发明还具备以下优点：

(1)本发明通过自适应通道网络可以实现内容信息和风格信息的解耦，从而提高生成的艺术化图像的视觉表现，消除了现有方法生成的图像存在模糊块、色块和无意义线条等缺陷，拥有更加清晰的图像细节。

(2)本发明通过损失函数中内容重建损失和风格一致损失的设计，从而提高了算法在不同风格类别上的泛化能力，除了在训练集中的若干风格类别上有良好的转换效果，而且在网络模型从未遇见过的风格类别上依旧有较好的表现。

(3)本发明通过生成对抗网络结构实现对抗式训练，从而提高了算法在高分辨率下的转换效果，相比现有方法，在1024*1024分辨率以及更高的1536*1536分辨率下，可以生成充满内容细节同时又有丰富风格化特点的艺术图像。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的任意风格迁移方法流程图。

图2是本发明实施例提供的任意风格迁移方法原理图。

图3是本发明实施例提供的任意风格迁移***原理图。

图4是本发明实施例提供的自适应通道网络原理图。

图5是本发明实施例提供的在图像细节方面与现有方法的对比示意图。

图6是本发明实施例提供的在风格泛化能力方面与现有方法的对比示意图。

图7是本发明实施例提供的在高分辨率图像方面与现有方法的对比示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种任意风格迁移方法、***、存储介质、计算机设备及终端，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的任意风格迁移方法包括以下步骤：

S101，利用训练数据集训练任意风格迁移网络模型；

S102，网络模型训练完成后，使用图像编码器Enc、自适应通道网络AdaNet、解码器Dec进行网络前馈，即可得到风格化图像。

本发明实施例提供的任意风格迁移方法原理图如图2所示。

下面结合具体实施例对本发明的技术方案作进一步描述。

如图3所示，本发明实施例提供的任意风格迁移***包括：网络的输入由一个内容图像I_c和一个风格图像I_s组成，输出为风格化图像I_cs；网络结构由图像编码器(Enc)、自适应通道网络(AdaNet)、解码器(Dec)、判别器(D)和辅助分类器(Q)共五部分组成；利用训练数据集训练任意风格迁移方法模型，可表述为以下最大最小化问题：

损失函数为：

损失函数中表示对抗损失，/>表示辅助分类损失，/>和/>分别表示内容重建损失和风格一致性损失，λ_gan、λ_cla、/>和/>分别表示各部分损失的权重参数；

网络模型训练完成后，使用图像编码器(Enc)、自适应通道网络(AdaNet)、解码器(Dec)进行网络前馈即可得到风格化图像。

图像编码器使用预训练的VGG-19网络，由卷积层、池化层和激活层组成，以内容图像和风格图像为输入，得到各自的特征图：

F_c＝Enc(I_c)，F_s＝Enc(I_s)

其中，F_c和F_s分别表示内容图像和风格图像的特征图。

本发明提供的基于自适应通道网络的任意风格迁移方法及***业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的任意风格迁移方法仅仅是一个具体实施例而已。

如图4所示，自适应通道网络由向量β组成，β的各个分量取值为0或1，在网络训练的过程中自适应的调节各个分量的值，自适应网络利用向量β可以灵活的选择内容特征图的部分通道进行风格信息转换，从而得到目标特征图F_cs，自适应通道网络可以表述为以下等式：

σ函数和μ函数表示对特征图，在每个通道上分别求方差和均值。

解码器采用反向的VGG结构，由卷积层、上采样层和激活层组成，以目标特征图F_cs为输入，输出即为生成的艺术化图像I_cs：

I_cs＝Dec(F_cs)

判别器使用Patch-GAN结构，由卷积层、池化层和激活层组成，在判别器末端不使用全连接层，对卷积层的输出进行均值计算，从而得到输入图像是否是真实艺术图像的概率P_d：P_d＝D(I)。

辅助分类器和判别器共享一部分卷积层，共享的部分使用ResNet结构，在卷积层之后使用全连接层和Sigmoid激活层得到输入图像所在艺术类别的分类结果P_c：P_c＝Q(I)。

下面结合图2所示，对本发明所述任意风格迁移方法及***的网络模型训练方法作进一步的描述。

本发明的技术方案是通过以下训练步骤完成：

步骤一，从训练集数据集中提取一组内容图像和风格图像，使用图像编码器提取内容图像和风格图像的特征图，保存VGG-19网络的relu_{1_1}、relu_{2_1}、relu_{3_1}和relu_{4_1}层的输出。

步骤二，使用自适应通道网络和解码器完成网络前馈，计算内容重建损失和风格一致性损失/>使用反向传播算法更新图像编码器、自适应通道网络和解码器的参数。

步骤三，使用判别器和辅助分类器对前馈的输出图像以及训练集中的艺术图片分别进行真假判断和类别判断，计算对抗损失和辅助分类损失/>使用反向传播算法更新图像编码器、解码器、判别器和辅助分类器的参数。

步骤四，循环执行步骤一到步骤三，按照固定频率保存当前网络参数，直到网络收敛。

进一步，步骤一中，训练数据集中风格图像使用Wikiart数据集，内容图像使用ImageNet数据集。

进一步，步骤二中，内容重建损失和风格一致性损失/>分别定义如下：

其中F_cs＝AdaNet(F_c，F_s)，i表示图像编码器(Enc)的各个层，这里使用VGG-19网络的relu_{1_1}、relu_{2_1}、relu_{3_1}和relu_{4_1}层，表示对图像编码器对于图像I_c在第i层的输出进行每个通道上归一化的结果，s_j和s_k表示风格图像训练集中不同的风格类别。

内容重建损失约束了风格迁移过程中，相同内容图像转换为不同艺术风格类别时，图像局部结构的不变性，以及风格迁移之后和原始内容图像的局部结构不变性。风格一致性损失/>约束了风格迁移过程中，原始风格图像和转换后的艺术图像的特征图，在每个通道上的统计参数之间的差异，并且约束了同一个内容图像转换为不同的风格图像时，转换结果之间风格信息的一致性。

进一步，步骤三中，对抗损失和辅助分类损失/>分别定义如下：

其中P_u表示真实风格图像和解码器生成的虚假艺术图像之间的插值样本，中k和p分别取值为2和6，a_i表示风格图像/>所在的艺术风格类别的标签。

对抗损失的约束使得网络模型进行对抗性的学习，从而提高生成的图像的质量，以及提高风格迁移算法在不同艺术类别上的泛化能力。辅助分类损失/>使得网络模型在训练集所包含的风格类别上有较好的转换效果。

图5所示为本发明所述任意风格迁移方法在生成图像细节方面同现有方法的对比。本发明所述方法保持了图像的局部结构不变性，当内容图像具有丰富的局部细节结构时，可以更加清晰地重构图像细节。如图5所示，现有方法在图像的空白区域产生了过多无意义的线条和色块，图像局部细节存在模糊感，本发明所述方法在图像局部更好的保持了风格化特点，并且很好的维持了原始内容图像的局部结构信息。

图6所示为本发明所述任意风格迁移方法在风格泛化能力方面的对比。在训练集之外的风格图像艺术类别上，本发明所述方法可以更好的转换风格特征。

图7所示为本发明所述任意风格迁移方法在高分辨率图像方面与现有方法的对比。当内容图像的分辨率较高时(1024*1024分辨率和1536*1536分辨率)，现有方法的转换结果容易丢失图像局部细节，并且图像整体表现出强烈的模糊感，而本发明所述方法可以更好的生成清晰且具有丰富风格化特点的图像。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种任意风格迁移***，其特征在于，所述任意风格迁移***网络的输入由一个内容图像I_c和一个风格图像I_s组成，输出为风格化图像I_cs；所述网络结构由图像编码器Enc、自适应通道网络AdaNet、解码器Dec、判别器D和辅助分类器Q共五部分组成；

所述自适应通道网络AdaNet由向量β组成，β的各个分量取值为0或1，在网络训练的过程中自适应的调节各个分量的值，自适应网络利用向量β选择内容特征图的部分通道进行风格信息转换，得到目标特征图F_cs；

2.一种实施权利要求1所述的任意风格迁移***的任意风格迁移方法，其特征在于，所述任意风格迁移方法包括以下步骤：

步骤一，利用训练数据集训练任意风格迁移网络模型；

步骤二，网络模型训练完成后，使用图像编码器Enc、自适应通道网络AdaNet、解码器Dec进行网络前馈，即可得到风格化图像。

3.如权利要求2所述的任意风格迁移方法，其特征在于，步骤一中，所述利用训练数据集训练任意风格迁移网络模型，表述为以下最大最小化问题：

损失函数为：

4.如权利要求2所述的任意风格迁移方法，其特征在于，步骤一中，所述利用训练数据集训练任意风格迁移网络模型，包括：

5.如权利要求4所述的任意风格迁移方法，其特征在于，步骤(1)中，所述训练数据集中风格图像使用Wikiart数据集，内容图像使用ImageNet数据集；

6.如权利要求4所述的任意风格迁移方法，其特征在于，步骤(3)中，所述对抗损失和辅助分类损失/>分别定义如下：

7.如权利要求2所述的任意风格迁移方法，其特征在于，步骤二中，所述图像编码器以内容图像和风格图像为输入，得到各自的特征图：

F_c＝Enc(I_c)，F_s＝Enc(I_s)；

其中，F_c和F_s分别表示内容图像和风格图像的特征图；

所述自适应通道网络表述为以下等式：

其中，σ函数和μ函数表示对特征图，在每个通道上分别求方差和均值；

I_cs＝Dec(F_cs)；

所述判别器在判别器末端不使用全连接层，对卷积层的输出进行均值计算，从而得到输入图像是否是真实艺术图像的概率P_d：P_d＝D(I)；

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

利用训练数据集训练任意风格迁移网络模型；

网络模型训练完成后，使用图像编码器Enc、自适应通道网络AdaNet、解码器Dec进行网络前馈，即可得到风格化图像；

任意风格迁移***网络的输入由一个内容图像I_c和一个风格图像I_s组成，输出为风格化图像I_cs；所述网络结构由图像编码器Enc、自适应通道网络AdaNet、解码器Dec、判别器D和辅助分类器Q共五部分组成；利用训练数据集训练任意风格迁移网络模型，表述为以下最大最小化问题：

损失函数为：

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

利用训练数据集训练任意风格迁移网络模型；

损失函数为：

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求1所述的任意风格迁移***。