CN112926554B

CN112926554B - 人像卡通风格化模型的训练数据集的构建以及模型生成

Info

Publication number: CN112926554B
Application number: CN202110458012.9A
Authority: CN
Inventors: 杨帆; 郝强; 潘鑫淼; 胡建国
Original assignee: Nanjing Zhenshi Intelligent Technology Co Ltd
Current assignee: Xiaoshi Technology Jiangsu Co ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2022-08-16
Anticipated expiration: 2041-04-27
Also published as: CN112926554A

Abstract

本发明涉及人像卡通风格化模型的训练数据集的构建以及模型生成，通过人脸彩色图像与少量的卡通人脸图像的数据增广，通过人脸关键点的检测与液化算法调整五官大小及脸型的结合，将所有卡通人脸图像的五官扣取出来，组成素材库，随机组合五官贴在空白卡通人脸上。在卡通画数据绘制成本高、耗时长的情况下，通过本发明的方法将卡通人脸图像数据扩增，可以基于少量数据，成倍扩充训练集数据量，而且还极大丰富了卡通人像数据的身份多样性，实现较好的人像卡通风格化模型的训练效果。

Description

人像卡通风格化模型的训练数据集的构建以及模型生成

技术领域

本发明涉及图像处理技术领域，尤其是人像卡通风格化的制作，具体而言涉及一种人像卡通风格化模型的训练数据集的构建以及模型生成。

背景技术

随着智能移动终端以及社交的发展，基于计算机图形处理的卡通画绘画技术越来越收到用户青睐，例如可拍摄或者选择一张形象图像，输入到图像处理应用软件(移动端App或者桌面级软件)，通过软件处理输出卡通风格化的形象输出。现有技术中，这样的应用软件通常采用基于人脸轮廓的卡通化模型实现，而卡通化模型则通过大量的人像照片和卡通风格图像作为训练数据，采用训练模型预先训练获得。

人像卡通风格化训练数据包括两部分：人像照片和卡通图像。人像照片较为容易拍摄，但卡通图像需要经验丰富的画师精心绘制，丰富不同的人脸轮廓、五官等，形成多样化的训练数据，经济和时间成本都很高，限制了数据规模，而如果基于少量的卡通画像的数据进行训练，训练效果较为粗糙，则难以获得丰富的卡通风格。

为了扩增数据集，现有方法中采用如随机裁剪、水平翻转、随机旋转、偏移等传统方法来改变图像的位置信息，但这种方法无法修改卡通人脸的身份信息，其人脸关键点信息基本不变，如脸型、五官分布，无法实现真实有效第提高数据的多样性，其实际上依然是对应于同一个人脸关键点信息进行的训练。

现有技术文献：

专利文献1：CN105374055A

发明内容

鉴于现有技术的缺陷，本发明目的在于提供一种人像卡通风格化模型的训练数据集的构建以及模型生成，通过低成本的方法，实现大规模的卡通风格化的卡通画像数据扩增，训练卡通化模型，能够有效提升人像卡通风格化模型的效果。

本发明的第一方面提出一种人像卡通风格化模型的训练数据集的构建方法，包括以下方法：

获取M张人脸彩色图像，组成数据集A；

获取N张绘制的卡通人脸图像，组成数据集B；

使用人脸关键点检测模型检测所述数据集B中的卡通人脸图像的人脸关键点，获得每张卡通人脸图像的人脸关键点坐标，其中所述的人脸关键点包括脸部轮廓的关键点和五官的关键点；

随机从所述数据集B中选取卡通人脸图像，根据对应的脸部轮廓的关键点和五官的关键点，使用液化算法调整卡通人脸图像的脸型及五官大小，得到数据集C；

以卡通人脸图像双眼、鼻子、嘴巴对应的关键点凸包围成的区域作为五官区域，将数据集B中所有卡通画数据中的五官扣取出来，组成素材库，然后随机组合五官贴在空白卡通人脸上，得到数据集D；

将所述数据集C与数据集D合并，然后采用数据增广方法将合并的数据再增广预设的倍数，得到用于人像卡通风格化模型训练的训练数据集E。

本发明的第二方面提出一种人像卡通风格化模型的生成方法，包括以下步骤：

使用前述方法所得到的数据集E，以及由M张人脸彩色图像所组成的数据集A作为训练数据，训练基于CycleGAN网络的卡通风格化模型。

本发明的第三方面提出一种人像卡通风格化模型的训练数据集的构建***，包括：

用于获取M张人脸彩色图像，组成数据集A的模块；

用于获取N张绘制的卡通人脸图像，组成数据集B的模块；

用于使用人脸关键点检测模型检测所述数据集B中的卡通人脸图像的人脸关键点，获得每张卡通人脸图像的人脸关键点坐标的模块，其中所述的人脸关键点包括脸部轮廓的关键点和五官的关键点；

用于随机从所述数据集B中选取卡通人脸图像，根据对应的脸部轮廓的关键点和五官的关键点，使用液化算法调整卡通人脸图像的脸型及五官大小，得到数据集C的模块；

用于以卡通人脸图像双眼、鼻子、嘴巴对应的关键点凸包围成的区域作为五官区域，将数据集B中所有卡通画数据中的五官扣取出来，组成素材库，然后随机组合五官贴在空白卡通人脸上，得到数据集D的模块；

用于将所述数据集C与数据集D合并，然后采用数据增广方法将合并的数据再增广预设的倍数，得到用于人像卡通风格化模型训练的训练数据集E的模块。

本发明的第四方面提出一种计算机***，包括：

一个或多个处理器；

存储器，存储可***作的指令，所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括前述人像卡通风格化模型的训练数据集的构建方法的流程。

本发明的第五方面提出一种计算机可读介质，所述软件包括能通过一个或多个计算机执行的指令，所述指令通过这样的执行使得所述一个或多个计算机执行操作，所述操作包括前述人像卡通风格化模型的训练数据集的构建方法的流程。

在卡通画数据绘制成本高、耗时长的情况下，本发明的方法通过人脸彩色图像与少量的卡通人脸图像，成倍扩充卡通训练集数据量，而且区别于传统的翻转、平移以及裁剪不改变人脸关键点造成的数据集实质性单一化的问题，本发明采用液化算法调整卡通画像五官和脸型与随机五官在卡通画像空白人脸上的增广，极大丰富了卡通人像数据的身份多样性，实现较好的人像卡通风格化模型的训练效果。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外，所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1是根据本发明示例性实施例的人像卡通风格化模型的训练数据集的构建方法的流程示意图。

图2是根据本发明示例性实施例的构建方法进行五官调整的示例。

图3是根据本发明示例性实施例的构建方法进行五官随机组合的示例。

图4是根据本发明示例性实施例的构建方法中采用传统的水平翻转的示例。

图5是根据本发明示例性实施例的构建方法中采用传统的随机裁剪的示例。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

如图1所示，根据本发明示例性实施例提出的人像卡通风格化模型的训练数据集的构建方法，针对卡通人像数据绘制成本高、耗时长、身份信息单一的问题，采用多种数据融合增广方法，增加卡通人像数据的多样性，在基于少量卡通画像数据的前提下，成倍扩充数据量，提升人像卡通风格化模型训练的效果。

作为示例的人像卡通风格化模型的训练数据集的构建方法的实现过程包括：

获取M张人脸彩色图像，组成数据集A；

获取N张绘制的卡通人脸图像，组成数据集B；

下面结合附图所示，更加具体的阐述本发明的数据增广的示例性实现。

数据获取

本发明的方法中，可通过采集大量人脸彩色图像和由经验丰富的画师绘制少量卡通人脸图像，作为原始的数据集，存储在服务器或者存储介质中。

在具体处理数据增广流程过程中，可通过数据接口获取M张人脸彩色图像，组成数据集A；获取N张绘制的卡通人脸图像，组成数据集B。

为保证足够多的训练数据和多样性，数据集A尽可能覆盖各种场景，如不同人群、表情、姿态、光照以及背景环境等。数据集A和B的图像数量，M和N均为大于等于100的自然数，且M大于等于10*N。在本发明的实施例中，N≈100。

卡通人像关键点检测

针对构建好的包含卡通人脸图像的数据集B，使用预训练的人脸关键点检测模型(如Dlib工具)检测数据集B中的卡通人脸图像的人脸关键点，关键点包括脸部轮廓和五官的关键点，获得卡通数据集B中卡通人脸图像的人脸关键点坐标。在以Dlib工具作为检测模型的实施例中，可获得输出的68个人脸关键点标注。

应当理解，前述人脸关键点检测模型还可以采用其他检测模型而不限于Dlib工具，例如基于PFLD(Practical Facial Landmark Detector)人脸关键点检测模型，或者基于CNN或者改进CNN网络结构的人脸关键点检测模型。

以卡通人脸图像作为输入，人脸关键点检测模型输出人脸关键点包括脸部轮廓的关键点和五官的关键点。

在另外的实施例中，基于不同的人脸关键点检测模型，可获得不同数量的人脸关键点，例如81个关键点、106个关键点等。

五官形状、脸型随机调整

在获得的人脸关键点的基础上，使用液化算法调整卡通人脸图像的五官大小及脸型，进行第一次增广，将卡通人脸数据增广若干倍，得到数据集C。

在一个具体示例中，结合图2，第一次增广处理的流程包括：

对于所述数据集B中选取的任一卡通人脸图像，根据鼻子、脸颊关键点，使用局部平移变形算法(Local translation warps)随机修改鼻子、脸颊宽度，调整卡通人脸图像的脸型；以及

根据对应的双眼、嘴巴关键点，使用局部放缩变形算法(Local scaling warps)随机修改眼睛、嘴巴大小，调整卡通人脸图像的五官大小。

五官随机组合

本发明的卡通人脸数据的增广，除了进行液化算法处理之外，还包括随机五官组合，结合图3所示，通过随机五官组合，实现第二次增广，丰富和多样化卡通人物身份，将卡通人脸数据增广若干倍，得到数据集D。

其中，将数据集B中所有卡通画数据中的五官扣取出来，组成素材库，包括以下过程：

将数据集B中所有卡通人脸图像的五官区域扣取出来，组成五官素材库，分别为双眼、鼻子以及嘴巴素材库；以及

将卡通人脸图像去除五官后的空白卡通人脸与该卡通人脸图像的五官关键点组成空白卡通人脸素材库。

随机组合五官贴在空白卡通人脸的操作，包括以下过程：

随机从五官素材库中选取双眼、鼻子、嘴巴；体积

随机从空白卡通人脸素材库中选取空白卡通人脸及对应的五官关键点，按照空白卡通人脸的五官关键点的中心，将随机选取的五官贴到空白卡通人脸中，实现卡通人脸数据的再次增广，由此得到数据集D。

传统数据增广

在本步骤中，将数据集C和D合并，采用传统数据增广方法将合并的数据再增广若干倍，得到数据集。其中，传统数据增广方法包括图像随机裁剪、随机旋转、水平翻转中的至少一种，图4、5中示例性的表示了水平翻转和随机裁剪的示例。

模型训练

本发明公开的示例中，使用前述构建方法所得到的数据集E，以及由M张人脸彩色图像所组成的数据集A作为训练数据，训练基于CycleGAN网络的卡通风格化模型。

本实施例使用的CycleGAN网络由两个相同结构的生成器和两个相同结构的鉴别器组成，生成器由2个下采样层、6个残差模块和2个上采样层组成，鉴别器由4个下采样层组成。生成器1的输入是真人照输出是卡通风格人像，生成器2的输入是卡通人像输出是真人图像，鉴别器1的输入是卡通风格人像输出是卡通风格逼真度，鉴别器2的输入是真人图像输出是真人逼真度。

在本发明的实施例中，我们通过真人照片2200张(2000张用于训练，200张用于测试)，基于绘制的卡通人像150张(100张用于训练，50张用于测试)。

采用本发明的构建方法将卡通人脸图像数据量扩充40倍，对比采用现有方法(随机裁切、随机旋转、随机水平翻转)扩充40倍数据，采用同样的网络结构和损失函数分别训练CycleGAN卡通风格化模型。

训练时模型输入大小设置为256×256像素，批次大小设置为32，学习率设置为0.0001，损失函数采用生成对抗损失函数和循环一致性损失函数，训练10万步。

测试时，对比两种数据增广方法训练出的生成器1的卡通化效果，采用FID分数(Frechet Inception Distance score)来衡量训练效果，FID分数越小风格化效果越好。

对比结果如表1所示。

表1现有方法和本发明方法测试效果对比

	FID
		现有方法	60.5
本发明方法	54.6

通过测试效果对比可以看出，采用本发明方法训练模型能够有效提升人像卡通风格化模型效果，相比现有方法FID分数降低了9.8％。

人像卡通风格化模型的训练数据集的构建***

根据本发明的公开，还提出一种人像卡通风格化模型的训练数据集的构建***，包括：

用于获取M张人脸彩色图像，组成数据集A的模块；

用于获取N张绘制的卡通人脸图像，组成数据集B的模块；

应当理解，前述各个模块的功能及其具体实现可基于前述实施例的人像卡通风格化模型的训练数据集的构建方法的操作而实现。

计算机***

根据本发明的公开，还提出一种计算机***，包括：

一个或多个处理器；

存储器，存储可***作的指令，所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括前述实施例的人像卡通风格化模型的训练数据集的构建方法的流程。

计算机可读介质

根据本发明的公开，还提出一种计算机可读介质，所述软件包括能通过一个或多个计算机执行的指令，所述指令通过这样的执行使得所述一个或多个计算机执行操作，所述操作包括前述实施例的人像卡通风格化模型的训练数据集的构建方法的流程。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种人像卡通风格化模型的训练数据集的构建方法，其特征在于，包括以下方法：

获取M张人脸彩色图像，组成数据集A；

获取N张绘制的卡通人脸图像，组成数据集B；

2.根据权利要求1所述的人像卡通风格化模型的训练数据集的构建方法，其特征在于，所述使用液化算法调整卡通人脸图像的五官大小及脸型，得到数据集C，包括：

对于所述数据集B中选取的任一卡通人脸图像，根据鼻子、脸颊关键点，使用局部平移变形算法随机修改鼻子、脸颊宽度，调整卡通人脸图像的脸型；以及

根据对应的双眼、嘴巴关键点，使用局部放缩变形算法随机修改眼睛、嘴巴大小，调整卡通人脸图像的五官大小。

3.根据权利要求1所述的人像卡通风格化模型的训练数据集的构建方法，其特征在于，所述将数据集B中所有卡通画数据中的五官扣取出来，组成素材库，包括：

4.根据权利要求3所述的人像卡通风格化模型的训练数据集的构建方法，其特征在于，所述随机组合五官贴在空白卡通人脸上，得到数据集D，包括：

随机从五官素材库中选取双眼、鼻子、嘴巴；

随机从空白卡通人脸素材库中选取空白卡通人脸及对应的五官关键点，按照空白卡通人脸的五官关键点的中心，将随机选取的五官贴到空白卡通人脸中，由此得到数据集D。

5.根据权利要求1所述的人像卡通风格化模型的训练数据集的构建方法，其特征在于，所述数据增广方法包括图像随机裁剪、随机旋转、水平翻转中的至少一种。

6.根据权利要求1所述的人像卡通风格化模型的训练数据集的构建方法，其特征在于，所述数据集A和数据集B的构建，其中M和N均为大于等于100的自然数，且M大于等于10*N。

7.一种人像卡通风格化模型的生成方法，其特征在于，包括以下步骤：

使用如权利要求1-6中任意一项的构建方法所得到的数据集E，以及由M张人脸彩色图像所组成的数据集A作为训练数据，训练基于CycleGAN网络的卡通风格化模型。

8.一种人像卡通风格化模型的训练数据集的构建***，其特征在于，包括：

用于获取M张人脸彩色图像，组成数据集A的模块；

用于获取N张绘制的卡通人脸图像，组成数据集B的模块；

9.一种计算机***，其特征在于，包括：

一个或多个处理器；

存储器，存储可***作的指令，所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括如权利要求1-6中任意一项所述的人像卡通风格化模型的训练数据集的构建方法的流程。

10.一种计算机可读介质，其特征在于，所述计算机可读介质包括能通过一个或多个计算机执行的指令，所述指令通过这样的执行使得所述一个或多个计算机执行操作，所述操作包括如权利要求1-6中任意一项所述的人像卡通风格化模型的训练数据集的构建方法的流程。