CN115496843A

CN115496843A - 一种基于gan的局部写实感漫画风格迁移***及方法

Info

Publication number: CN115496843A
Application number: CN202110608065.4A
Authority: CN
Inventors: 黄国方; 周宁宁; 孙天鹏; 张静; 单超; 周兴俊; 刘晓铭; 郝永奇; 钟亮民; 廖志勇; 陈向志; 杨明鑫; 彭奕; 谢芬; 王文政; 谢永麟; 甘志坚; 张丛丛
Original assignee: NARI Group Corp; Nanjing University of Posts and Telecommunications; Nari Technology Co Ltd; State Grid Electric Power Research Institute
Current assignee: NARI Group Corp; Nanjing University of Posts and Telecommunications; Nari Technology Co Ltd; State Grid Electric Power Research Institute
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2022-12-20

Abstract

本发明公开了一种基于GAN的局部写实感漫画风格迁移***及方法，该方法采用ExpressionGAN生成人像全局迁移图，采用SceneryGAN生成背景全局迁移图，采用Deeplabv3+模型将需要进行局部风格迁移的图像生成人像掩码图和背景掩码图，最后通过融合得到人像局部迁移图和背景局部迁移图。本发明引入压缩激发残差块把重要的特征进行强化从而很大程度上提升了训练的针对性，大大提升了对易于丢失的细节纹理的恢复；采用分布偏移卷积，通过可变量化内核中存储整数值来实现较低的存储器使用和较高的速度。

Description

一种基于GAN的局部写实感漫画风格迁移***及方法

技术领域

本发明涉及图像处理技术领域，具体的说，涉及一种基于GAN的局部写实感漫画风格迁移***及方法。

背景技术

动漫是现在非常流行的一种艺术表现形式，这种艺术形式广泛的应用与社会的诸多方面，包括广告、游戏、影视作品和摄影等多个方面。现在这个时代的年轻人大多受到过日本漫画的影响，而日本漫画也确实在全世界有很大的影响力，但是由于漫画的绘制和生成大多采用的是手工绘图后再通过电脑渲染来制作，花费的时间和人力都相对较多，这对于一般没有绘图基础的人将无法完成制作。因此希望可以通过电脑将现实世界的图片自动转换为具有漫画风格的图片。同时可以人为的调控其是对人像或者是背景进行风格迁移以满足不同人对图片的要求。

目前，基于深度学习的图像风格迁移已经取得了相对较好的效果，所以深度学习成为了目前图像到图像转换的常用方法。该方法通过对风格图像的样式学习，将学习的样式应用于输入的内容图像以生成结合了内容图像的内容和风格图像的风格的新图像。这些方法主要利用深度特征之间的相关性和基于优化方法对图像的视觉风格进行编码。

在2016年Gatys等人率先采用深度学习提出了图像样式迁移的方法，其方法主要通过模拟人类视觉的处理方式，结合训练多层卷积神经网络，使计算机辨别并且学会艺术风格，从而用到原始图像上，使原始图像富有艺术感。该方法很好的达到了风格迁移的目的但是迁移效果较为僵硬且会出现内容扭曲同时生成速度较慢。

A Radford和L Metz等人在2015年提出了基于卷积生成对抗网络的无监督学习方法为人们在图像风格迁移提供了新的研究方法，经由实验发现该方法在图像数据集上进行训练所得出的处理结果有着十分不错的效果。但是由于该网络需要成对的数据集，而且获取转移的对应图像是十分困难的所以该模型显得不切实际，为了解决这个问题在后续提出了循环生成对抗网络，它是一个能够采用不成对训练数据进行训练的图像翻译架构，解决了诸多训练数据集不匹配的问题。但是循环生成对抗网络的样式化不能很好的捕捉卡通图案，输出的图像对输入图的语义内容不能充分的保留。

2018年Yang Chen等人在对抗生成网络的基础上提出了CartoonGAN(漫画生成对抗网络)，其采用了新颖的网络架构，其网络结构可以使用不成对的数据集进行训练同时能在最大程度上呈现出漫画的风格特点。但是CartoonGAN所生成的图像在人像方面会出现严重的歧义色块导致。

在2019年由Jie Chen等人对其进行改进并且提出了AnimeGAN(动画生成对抗网络)其引入了灰度图像并且更改了原漫画生成对抗网络所采用的损失函数消除了人物出现歧义色块的问题，但是其为了保证颜色的真实性导致人像和风景部分在风格迁移过程中的诸多细节丢失，包括人脸部分的众多重要的纹理特征丢失。

发明内容

本发明的目的在于提供一种基于GAN的局部写实感漫画风格迁移***及方法，采用ExpressionGAN(表情生成对抗网络)和SceneryGAN(背景生成对抗网络)分别针对AnimeGAN和CartoonGAN进行改进，并且对模型Deeplabv3+生成的掩码图进行边缘优化处理，实现局部写实感漫画风格迁移。

为达到上述目的，本发明采用技术方案为：

本发明提供一种基于GAN的局部写实感漫画风格迁移***，包括：

表情生成对抗网络，背景生成对抗网络，Deeplabv3+网络和图像融合模块；

所述表情生成对抗网络用于基于真实人物图像生成人像全局迁移图；

所述背景生成对抗网络用于基于真实背景图像生成背景全局迁移图；

所述Deeplabv3+网络用于将需要进行局部风格迁移的图像生成人像掩码图和背景掩码图；

所述图像融合模块用于将真实人物图像，人像掩码图和人像全局迁移图进行融合得到人像局部迁移图；以及，将真实背景图像，背景掩码图和背景全局迁移图进行融合得到背景局部迁移图。

进一步的，所述表情生成对抗网络在动画生成对抗网络基础上引入压缩激发残差块和漫画人脸检测模块；

所述漫画人脸检测模块用于对输入的真实人物图像进行筛选，检测出含有人脸的图像；

所述压缩激发残差块用于增强脸部特征。

进一步的，所述背景生成对抗网络在漫画生成对抗网络基础上采用分布偏移卷积代替标准卷积。

本发明还提供一种基于GAN的局部写实感漫画风格迁移方法，包括：

获取原始数据集以及将原始数据集划分训练集和测试集；所述原始数据集包括真实人物图像，真实人物图像的灰度图，真实背景图像，漫画图像和去线条化漫画图像；

采用训练集训练表情生成对抗网络和背景生成对抗网络；

将测试集图像输入到训练好的表情生成对抗网络得到人像全局迁移图，以及输入到训练好的背景生成对抗网络得到背景全局迁移图，以及将真实人物图像输入到Deeplabv3+网络生成人像掩码图和背景掩码图；

将真实人物图像，人像掩码图和人像全局迁移图进行融合得到人像局部迁移图；以及，将真实背景图像，背景掩码图和背景全局迁移图进行融合得到背景局部迁移图。

进一步的，所述真实人物图像的灰度图通过Gram矩阵将真实人物图像转换得到；

所述去线条化漫画图像通过高斯平滑对漫画图像进行处理得到。

进一步的，所述采用训练集训练表情生成对抗网络，包括：

将训练集中的真实人物图像输入到表情生成对抗网络中，经漫画人脸检测模块筛选，将检测到人脸的图像输入到表情生成对抗网络生成器中；

在表情生成对抗网络生成器中依次进行三个卷积核大小为7×7，卷积核个数为64，步长为1的平坦卷积，进行卷积核大小为3×3，卷积核个数为128，步长为2的向下卷积，以及进行卷积核大小为3×3，卷积核个数为256，步长为1的向下卷积；

经过向下卷积后经压缩激发残差块进行脸部特征增强操作；

脸部特征增强后进行卷积核为3×3，卷积个数为256，步长为1/2和卷积核为3×3，卷积个数为64，步长为1的两个向上卷积，以及进行卷积核为7×7，卷积个数为3，步长为1的标准卷积，得到输出图像；

将真实人物图像的灰度图，表情生成对抗网络生成器输出图像，漫画图像和去线条化漫画图像输入到表情生成对抗网络鉴别器；所述鉴别器为训练好的VGG-19网络；

通过迭代学习对表情生成对抗网络生成器进行训练直至达到终止条件。

进一步的，所述进行脸部特征增强操作包括：

图像经过向下卷积后进行标准卷积；

标准卷积的输出经过平均池化，进行压缩计算：

其中，F_sq(·)表示压缩操作，Z_c为压缩计算结果，下标c为通道数，u_c表示第c个二维矩阵，W为图像的宽度，H为图像的高度；

然后，进行激发计算：

S_c＝sigmod(W₂*Relu(W₁Z_c))

其中，S_c为激发计算结果，sigmod为Sigmoid函数，Relu为Relu激活函数，W₁为全连接层参数，W₂＝C/r，C为通道数，r为缩放系数；

然后，计算：

通过

值来对脸部特征进行增强调控。

进一步的，采用训练集训练背景生成对抗网络包括：

将训练集中的真实背景图像输入到背景生成对抗网络生成器网络中，通过三个平坦卷积后进行两个向下卷积，经过八个相同的残差块后进行两个向上卷积，最后通过平坦卷积，得到输出图像；

将背景生成对抗网络生成器网络输出图像，漫画图像和去线条化漫画图像输入到背景生成对抗网络鉴别器，所述鉴别器为训练好的VGG-19网络；

通过迭代学习对背景生成对抗网络生成器网络进行训练直至达到终止条件。

进一步的，还包括：

通过5×5的卷积将Deeplabv3+网络生成的人像掩码图和背景掩码图进行卷积使得其边缘模糊化。

进一步的，

将人像掩码图的人像和背景分别选为(0，1)，之后融合得到人像局部迁移图；

将背景掩码图的人像和背景取反，之后融合得到背景局部迁移图。

本发明达到的有益效果为：

本发明方法在AnimeGAN的基础上SE-Residual-Block和漫画人脸检测模块，采用SE-Residual-Block可以避免最大化池暴力筛选导致特征信息丢失而且SE-Residual-Block通过特征通道间相关性进行建模，把重要的特征进行强化从而很大程度上提升了训练的针对性，大大提升了对易于丢失的细节纹理的恢复。

本发明方法在CartoonGAN基础上采用分布偏移卷积代替标准卷积，通过可变量化内核中存储整数值来实现较低的存储器使用和较高的速度，同时通过应用基于内核和基于通道的分布偏移来保持和原始卷积相同的输出。

附图说明

图1是本发明的局部写实主义漫画模型结构图。

图2是本发明中ExpressionGAN网络结构图。

图3是本发明中SE-Residual-Block结构图。

图4是本发明中SE-Residual-Block工作流程图。

图5是本发明中SceneryGAN生成器网络图。

具体实施方式

下面对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，本发明提出一种全新的局部写实主义漫画模型，该模型由基于AnimeGAN(动画生成对抗网络)改进的ExpressionGAN(表情生成对抗网络)、基于CartoonGAN(漫画生成对抗网络)改进的SceneryGAN(背景生成对抗网络)和Deeplabv3+网络模型组成。

ExpressionGAN是在AnimeGAN的基础上引入SE-Residual-Block(压缩激发残差块)和漫画人脸检测模块。采用SE-Residual-Block(压缩激发残差块)代替原AnimeGAN中Inverted-Residual-Block(反转残差块)，SE-Residual-Block可以避免最大化池暴力筛选导致特征信息丢失而且SE-Residual-Block通过特征通道间相关性进行建模，把重要的特征进行强化从而很大程度上提升了训练的针对性，大大提升了对易于丢失的细节纹理的恢复。

SceneryGAN是在CartoonGAN基础上采用DSConv(分布偏移卷积)代替原有的Conv(标准卷积)得到SceneryGAN。DSConv通过可变量化内核(VQK)中存储整数值来实现较低的存储器使用和较高的速度，同时通过应用基于内核和基于通道的分布偏移来保持和原始卷积相同的输出。

Deeplabv3+用于生成掩码图，采用卷积块对Deeplabv3+生成的掩码图进行边缘优化。

作为本发明的一个实施例，提供一种基于GAN的局部写实感漫画风格迁移方法，具体步骤如下：

步骤1：从雅虎旗下的Flicker网站下载5890张含有人物的真实图片用于ExpressionGAN训练；从网站中下载6153张大小为256×256的真实图片这些图片用于SceneryGAN中，其中5402张图像作为训练集，其余图片作为测试集；最后，通过关键字截取的方式对宫崎骏电影进行图像截取，截取到4500张漫画图像，这些漫画图像将作为ExpressionGAN和SceneryGAN所共用的数据集。

步骤2：采用高斯平滑对漫画图像进行处理得到去线条化漫画图像，再采用Gram矩阵将真实图像转换为灰度图。

步骤3：将得到的漫画图像输入到OpenCV_训练级联分类器中进行训练。

步骤4：将5890张真实人物图像、5890张真实人物图像的灰度图、4500张漫画图像和4500张去线条化漫画图像，输入到ExpressionGAN中训练网络。

步骤5：将5402张真实背景图像、4500张漫画图像和4500张去线条化漫画图像输入到SceneryGAN中训练网络。

步骤6：将步骤1中的测试集图像输入到训练好的ExpressionGAN和SceneryGAN中生成全局漫画风格迁移图。

步骤7：将真实人物图片输入到Deeplabv3+中得到人像掩码图和背景掩码图。

步骤8：通过卷积的手段对人像掩码图和背景掩码图进行边缘优化处理。

步骤9：将ExpressionGAN生成的全局漫画风格迁移图、5402张真实图像和边缘优化后的人像掩码图进行融合得到人像局部迁移图。将SceneryGAN生成的全局漫画风格迁移图、真实图像和边缘优化后的背景掩码图进行融合得到背景局部迁移图。

作为本发明的另一个实施例，一种基于GAN的局部写实感漫画风格迁移方法，具体步骤如下：

(1)将5890张真实人物图像、5890张真实人物图像的灰度图、4500张漫画图像和4500张去线条化漫画图像输入到网络中，其中5890张真实人物图像输入到ExpressionGAN生成器网络中，5890张真实人物图像的灰度图、4500张漫画图像和4500张去线条化漫画图像输入到ExpressionGAN鉴别器网络中。生成器和鉴别器结构图如图2所示。

(2)5890张真实人物图像输入到ExpressionGAN生成器网络中首先通过漫画人脸检测模块，漫画人脸检测模块将数据集中的图片进行筛选，将检测到人脸的图像输入到ExpressionGAN生成器网络中。

(3)进入ExpressionGAN生成器网络的图片先经过三个卷积核大小为7×7，卷积核个数为64，步长为1的平坦卷积。随后经过卷积核大小为3×3，卷积核个数为128，步长为2的向下卷积和经过卷积核大小为3×3，卷积核个数为256，步长为1的向下卷积。

(4)图片经过向下卷积后进入到压缩激发残差块SE-Residual-Block由标准卷积(Conv-Block)、平均化池(Global Pooling)、全连接层(FC)、Sigmoid函数和实例归一化层(Inst-Norm)组成具体结构如3所示。SE-Residual-Block工作流程如图4所示。

标准卷积的输出经过平均池化，在压缩部分采用的是求平均的方法，将空间上所有点的信息平均成为一个值，这样做是因为最终的scale是对整个通道作用的，这需要通道整体信息来计算scale。压缩的计算公式为：

其中，下标c为通道数，u_c表示第c个二维矩阵，W为图像的宽度，H为图像的高度。

其次在激发部分，经过上述压缩过程得到结果Z，通过全连接层W₁乘以Z，本发明实施例中取16。将W₁×Z经过Relu激活函数后维度不变再乘以W₂，W₂为C/r，最后将输出通过Sigmoid函数。

Excitation计算公式为：

S＝sigmod(W₂*Relu(W₁Z)) (2)

其中，C为通道数，r为缩放系数，Z为Squeeze部分的输出，W₁，W₂为C/r。

得到S后，将输入U与S代入：

通过

值来对特征进行调控，在最大程度上将脸部特征增强，从而达到脸部纹理恢复的效果。

(5)图像经过SE-Residual-Block后经过卷积核为3×3，卷积个数为256，步长为1/2和卷积核为3×3，卷积个数为64，步长为1的两个向上卷积。最后经过卷积核为7×7，卷积个数为3步长为1的标准卷积输出图像。

(6)将真实图像的灰度图，ExpressionGAN生成器输出图，漫画图像和去线条化漫画图像输入到ExpressionGAN鉴别器，漫画图像和去线条化漫画图像会先经过漫画人脸检测模块筛选出含有漫画人脸的图像，再将筛选后的图像输入到鉴别器中，鉴别器为训练好的VGG-19网络。

本发明实施例中，ExpressionGAN对AnimeGAN损失函数进行了修改。AnimeGAN通过使用灰度矩阵将原始卡通图像转换为灰度图像，这样做的目的在保留图像纹理的同时可以消除暗色干扰。AnimeGAN虽然解决了色块的问题但是无法改善图片颜色偏暗的问题。所以ExpressionGAN在其颜色重建损失中进行了修改。

(8)将5402张真实背景图像输入到SceneryGAN生成器网络中，图像先通过三个平坦卷积后进入到两个向下卷积，随后经过八个相同的残差块，通过残差块后经过两个向上卷积，最后通过平坦卷积输出生成图像。SceneryGAN采用和CartoonGAN相同的卷积核数量和卷积核大小，将原先的标准卷积块(Conv)替换成了分布偏移卷积(DSConv)如图5所示。

(9)将SceneryGAN生成器网络生成的图像、4500张漫画图像和4500张去线条化漫画图像输入到SceneryGAN的鉴别器中。

(11)将需要进行局部风格迁移的图像，输入到训练好的Deeplabv3+网络中，生成图像的人像掩码图和背景掩码图。

通过5×5的卷积将生成的人像掩码图和背景掩码图进行卷积使得其边缘模糊化，从而使得边缘在贴合时更加自然。

(12)将5890张真实人物图像、人像掩码图和人像全局漫画风格迁移图输入到图像融合算法中，将人像掩码图的人像和背景部分分别选为(0，1)，之后对图像进行融合得到人像局部迁移图。将5402张真实背景图像、背景掩码图和背景全局迁移图输入到图像融合算法中并且将掩码图的人像和背景部分取反，最后融合得到背景局部迁移图。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于GAN的局部写实感漫画风格迁移***，其特征在于，包括：

2.根据权利要求1所述的一种基于GAN的局部写实感漫画风格迁移***，其特征在于，所述表情生成对抗网络在动画生成对抗网络基础上引入压缩激发残差块和漫画人脸检测模块；

所述压缩激发残差块用于增强脸部特征。

3.根据权利要求1所述的一种基于GAN的局部写实感漫画风格迁移***，其特征在于，所述背景生成对抗网络在漫画生成对抗网络基础上采用分布偏移卷积代替标准卷积。

4.一种基于GAN的局部写实感漫画风格迁移方法，其特征在于，包括：

采用训练集训练表情生成对抗网络和背景生成对抗网络；

5.根据权利要求4所述的一种基于GAN的局部写实感漫画风格迁移方法，其特征在于，所述真实人物图像的灰度图通过Gram矩阵将真实人物图像转换得到；

6.根据权利要求4所述的一种基于GAN的局部写实感漫画风格迁移方法，其特征在于，所述采用训练集训练表情生成对抗网络，包括：

经过向下卷积后经压缩激发残差块进行脸部特征增强操作；

7.根据权利要求6所述的一种基于GAN的局部写实感漫画风格迁移方法，其特征在于，所述进行脸部特征增强操作包括：

图像经过向下卷积后进行标准卷积；

标准卷积的输出经过平均池化，进行压缩计算：

然后，进行激发计算：

S_c＝sigmod(W₂*Relu(W₁Z_c))

然后，计算：

通过

值来对脸部特征进行增强调控。

8.根据权利要求4所述的一种基于GAN的局部写实感漫画风格迁移方法，其特征在于，采用训练集训练背景生成对抗网络包括：

9.根据权利要求4所述的一种基于GAN的局部写实感漫画风格迁移方法，其特征在于，还包括：

10.根据权利要求4所述的一种基于GAN的局部写实感漫画风格迁移方法，其特征在于，