CN117576245B

CN117576245B - 一种图像的风格转换方法、装置、电子设备及存储介质

Info

Publication number: CN117576245B
Application number: CN202410055822.3A
Authority: CN
Inventors: 刘艺; 蓝玮毓
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-05-07
Anticipated expiration: 2044-01-15
Also published as: CN117576245A

Abstract

本申请涉及数据处理技术领域，尤其涉及一种图像的风格转换方法、装置、电子设备及存储介质，该方法为：获取目标风格的风格指示图像和关联有脸部标注数据的原始图像，再采用风格转换模型，基于所述风格指示图像，提取出风格图像特征，并基于所述原始图像，提取出原始图像特征，以及基于所述风格图像特征和所述原始图像特征的融合结果，逆向生成所述目标风格的目标图像；其中，所述目标图像中与所述脸部标注数据对应的内容区域内，生成有所述目标风格的人脸图像；所述风格转换模型是基于训练得到的目标生成网络构建的。这样，实现了对已标注的原始图像的复用，避免针对目标风格的图像执行复杂的图像数据收集过程。

Description

一种图像的风格转换方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种图像的风格转换方法、装置、电子设备及存储介质。

背景技术

相关技术下，在应对从动漫图像中识别出动漫人脸的需求时，考虑到动漫人脸和真实人脸存在较大的差异，而且动漫图像与真实图像属于不同的图像风格，故需要针对性地训练出动漫人脸检测模型，以便从动漫图像中检测出动漫人脸。

目前，在训练动漫人脸检测模型的过程中，通常需要根据待检测的动漫风格，获取相应风格的大量动漫图像，作为各样本图像，并针对每个样本图像，配置对应的动漫人脸标注数据，得到相应的训练样本。

然而，由于动漫风格的动漫图像的数目通常是有限的，故很难收集到满足模型训练需要的样本图像数量，而且，人工标注样本数据需要耗费大量的时间成本，这也极大地增加了动漫人脸检测模型的训练难度和训练成本，限制了动漫人脸检测技术的发展，降低了动漫人脸检测模型的训练效率。

发明内容

本申请实施例提供一种图像的风格转换方法、装置、电子设备及存储介质，用以转换生成指定风格的图像，提高用于对指定风格的图像进行人脸检测的模型的训练效率。

第一方面，提出一种图像的风格转换方法，包括：

获取目标风格的风格指示图像；

获取关联有脸部标注数据的原始图像，其中，所述脸部标注数据用于标识所述原始图像中的人脸位置；

采用风格转换模型，基于所述风格指示图像，提取出风格图像特征，并基于所述原始图像，提取出原始图像特征，以及基于所述风格图像特征和所述原始图像特征的融合结果，逆向生成所述目标风格的目标图像；

其中，所述目标图像中与所述脸部标注数据对应的内容区域内，生成有所述目标风格的人脸图像；所述风格转换模型是完成初始生成网络和初始判别网络的对抗训练后，基于训练得到的目标生成网络构建的。

第二方面，提出一种图像的风格转换装置，包括：

第一获取单元，用于获取目标风格的风格指示图像；

第二获取单元，用于获取关联有脸部标注数据的原始图像，其中，所述脸部标注数据用于标识所述原始图像中的人脸位置；

生成单元，用于采用风格转换模型，基于所述风格指示图像，提取出风格图像特征，并基于所述原始图像，提取出原始图像特征，以及基于所述风格图像特征和所述原始图像特征的融合结果，逆向生成所述目标风格的目标图像；

可选的，所述装置还包括训练单元，所述风格转换模型是所述训练单元采用如下方式得到的：

获取各训练样本，其中，一条训练样本中包括：一个所述目标风格的样本风格图像、一个非所述目标风格的其他风格图像、一个样本图像、所述一个样本图像的脸部标注数据，以及按照所述脸部标注数据从所述一个样本图像中裁剪出的人脸图像；

根据所述各训练样本，对构建的初始生成网络和初始判别网络进行多轮交替训练，直至满足预设的收敛条件，得到基于所述初始生成网络训练得到的目标生成网络，并基于所述目标生成网络构建风格转换模型。

可选的，所述各训练样本，是所述训练单元采用以下方式生成的：

获取用于进行真实人脸检测的各原始样本，其中，一条原始样本中包括：一个样本图像，以及所述一个样本图像的脸部标注数据；

针对每条原始样本，执行以下操作：按照所述原始样本中的样本图像的脸部标注数据，从所述样本图像中裁剪出至少一张人脸图像，并获取目标风格的样本风格图像和非所述目标风格的其他风格图像，以及基于所述原始样本、所述至少一张人脸图像、所述样本风格图像，以及所述其他风格图像，组成至少一条训练样本。

可选的，在针对初始生成网络进行的一轮训练过程中，所述训练单元用于执行以下操作：

采用所述初始生成网络，基于读取的样本风格图像和样本图像，生成预测图像，以及基于读取的所述样本风格图像和人脸图像，生成预测人脸图像；

针对所述预测图像、所述训练样本中的所述样本风格图像和其他风格图像，采用所述初始判别网络中的风格判别子网络，输出风格判别结果，以及采用所述初始判别网络中的真伪判别子网络，输出真伪判别结果；

基于所述样本图像的脸部标注数据，在所述预测图像中裁剪出预测子图，并基于所述预测子图和所述预测人脸图像之间的像素值差异，以及所述风格判别结果和所述真伪判别结果各自与对应的真实判别结果之间的结果差异，调整所述初始生成网络的网络参数。

可选的，在针对初始判别网络进行的一轮训练过程中，所述训练单元用于执行以下操作：

基于所述风格判别结果和所述真伪判别结果各自与对应的真实判别结果之间的结果差异，以及所述初始判别网络内部，基于所述预测图像、所述样本风格图像和其他风格图像分别提取的指定层图像特征的特征差异，调整所述初始判别网络的网络参数。

可选的，所述基于所述风格判别结果和所述真伪判别结果各自与对应的真实判别结果之间的结果差异，以及所述初始判别网络内部，基于所述预测图像、所述样本风格图像和其他风格图像分别提取的指定层图像特征的特征差异，调整所述初始判别网络的网络参数时，所述训练单元用于：

基于所述风格判别结果和所述真伪判别结果各自与对应的真实判别结果之间的结果差异，以及基于所述真伪判别子网络中的指定网络层，对应所述预测图像、所述样本风格图像和其他风格图像，分别输出的各图像特征之间的特征差异，调整所述真伪判别子网络的网络参数；

基于所述风格判别结果和所述真伪判别结果各自与对应的真实判别结果之间的结果差异，以及基于所述风格判别子网络中的指定网络层，对应所述预测图像、所述样本风格图像和其他风格图像，分别输出的各图像特征之间的特征差异，调整所述风格判别子网络的网络参数。

可选的，所述基于读取的样本风格图像和样本图像，生成预测图像时，所述训练单元用于：

基于读取的训练样本中的样本风格图像，提取出风格图像特征；

基于所述训练样本中的样本图像，提取出样本图像特征；

基于所述风格图像特征和所述样本图像特征的融合结果，逆向生成预测图像。

可选的，所述逆向生成所述目标风格的目标图像之后，所述生成单元还用于：

将所述原始图像的脸部标注数据确定为所述目标图像的脸部标注数据，并基于所述目标图像及其脸部标注数据，构建所述目标风格的训练样本；

采用所述目标风格的训练样本，对构建的初始人脸检测模型进行多轮迭代训练，直至满足预设的收敛条件，获得目标人脸检测模型。

可选的，所述输出训练后的目标人脸检测模型之后，所述生成单元还用于：

获取所述目标风格的视频帧序列；

采用所述目标人脸检测模型，针对所述视频帧序列中的各视频帧，分别进行人脸检测处理，识别出所述各视频帧各自对应的人脸区域信息；

基于所述各视频帧各自对应的人脸区域信息，在所述各视频帧中，选取人脸状态符合设定条件的目标视频帧。

第三方面，提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法。

第五方面，提出一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述方法。

本申请有益效果如下：

提出了本申请提出一种图像的风格转换方法、装置、电子设备及存储介质，公开了获取目标风格的风格指示图像；再获取关联有脸部标注数据的原始图像，其中，所述脸部标注数据用于标识所述原始图像中的人脸位置；之后，采用风格转换模型，基于所述风格指示图像，提取出风格图像特征，并基于所述原始图像，提取出原始图像特征，以及基于所述风格图像特征和所述原始图像特征的融合结果，逆向生成所述目标风格的目标图像；其中，所述目标图像中与所述脸部标注数据对应的内容区域内，生成有所述目标风格的人脸图像；所述风格转换模型是完成初始生成网络和初始判别网络的对抗训练后，基于训练得到的目标生成网络构建的。

这样，借助于风格转换模型，能够将关联有脸部标注数据的原始图像，按照风格指示图像指示的目标风格进行风格转换处理，得到的目标图像，而且目标图像中，与原始图像的脸部标注数据对应的内容区域内，生成有目标风格的人脸图像；基于此，由于目标风格的人脸图像生成在脸部标注数据对应的内容区域内，故原始图像的脸部标注数据，可以直接作为目标图像的脸部标注数据，因而无需针对目标图像进行额外的标注，规避了复杂的数据标注过程，相当于实现了对已标注的原始图像的复用，避免针对目标风格的图像执行复杂的图像数据收集过程；

另外，借助于风格转换模型学习到的风格转换能力，能够将原始图像转换为目标风格的目标图像，故提高了目标风格的图像的生成效率，基于此，在训练用于检测目标风格人脸的人脸检测模型时，可以实现训练样本的快速生成，这不仅能够提高模型的训练效率，还能够降低模型的训练成本；而且，能够及时响应于图像风格变化，生成相应风格的图像，故可以更好地满足实际业务需要。

附图说明

图1为本申请实施例中可能的应用场景示意图；

图2为本申请实施例中得到风格转换模型的过程示意图；

图3为本申请实施例中构建一条训练样本的过程示意图；

图4为本申请实施例中构建的初始生成网络的网络结构示意图；

图5A为本申请实施例中针对初始生成网络的一轮迭代训练过程示意图；

图5B为本申请实施例中初始生成网络在一次前向传播过程中的输入示意图；

图5C为本申请实施例中一轮迭代训练过程中的两次前向传播示意图；

图5D为本申请实施例中一轮迭代训练过程中的三次前向传播示意图；

图5E为本申请实施例中风格判别子网络的网络结构示意图；

图6为本申请实施例中图像的风格转换过程示意图；

图7A为本申请实施例中训练得到风格转换模型的过程示意图；

图7B为本申请实施例中基于风格转换模型的输出结果训练人脸检测模型的过程示意图；

图7C为本申请实施例中基于动漫人脸检测模型进行图像处理的过程示意图；

图8为本申请实施例中图像的风格转换装置的逻辑结构示意图；

图9为应用本申请实施例的一种电子设备的硬件组成结构示意图；

图10为应用本申请实施例的另一种电子设备的硬件组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够在除了这里图示或描述的那些以外的顺序实施。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

以下对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

人工智能（Artificial Intelligence，AI）：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互***、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术（Computer Vision，CV）：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT，V-MOE，MAE等视觉领域的预训练模型经过微调（fine tune）可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

风格转换（Style Transfer）：是一种计算机视觉技术，本申请实施例中，是指结合两个图像的内容和风格，生成具有独特视觉效果的新图像。本申请借助于风格转换模型，实现风格转换功能，而且，在风格转换的具体应用过程中，存在两个输入图像：一个是作为内容图像（Content Image）的原始图像，另一个作为风格图像（Style Image）的风格指示图像，其中，内容图像提供了可参考的主题和结构，而风格图像提供了可参考的颜色、纹理和艺术风格；通常情况下，经过风格转换后生成的输出图像将保留内容图像的主要结构和对象，同时采用风格图像的艺术风格。

人脸检测（Face Detection）：是计算机视觉领域的一个子任务，其目标是在数字图像或视频帧中自动定位和识别人脸。人脸检测算法通常输出一个矩形边界框，表示在图像中找到的人脸位置。这是诸如人脸识别、人脸属性分析、表情识别等人脸相关处理的第一步。

生成对抗网络（Generative Adversarial Networks，GAN）：是一种深度学习模型，由生成器和判别器两个模型组成。生成器用于生成与真实数据相似的虚假数据，判别器则用于区分真实数据和虚假数据。生成器和判别器通过对抗的方式相互学习，最终生成器可以生成高质量的虚假数据，而判别器也可以更准确地区分真假数据。GAN 在图像生成、语音合成、自然语言处理等领域有广泛的应用。

下面对本申请实施例的设计思想进行简要介绍：

目前，为了实现对动漫人脸的检测，通常针对性地训练动漫人脸检测模型，故需要获取相应风格的大量动漫图像，作为各样本图像，并针对样本图像进行标注，得到训练样本。

然而，由于动漫图像的数量非常有限，而且难于制作，故对于动漫人脸数据的收集非常难，很难收集到满足模型训练需要的样本图像数量；而且，人脸标注所耗费的时间很长，极大地增加了动漫人脸检测模型的训练难度和训练成本；另外，随着动漫风格的变化，还需要不断地对样本图像进行更新，这不仅增加了训练样本的制作成本，还限制了动漫人脸检测技术的进一步发展。

有鉴于此，本申请提出一种图像的风格转换方法、装置、电子设备及存储介质，公开了获取目标风格的风格指示图像；再获取关联有脸部标注数据的原始图像，其中，脸部标注数据用于标识原始图像中的人脸位置；之后，采用风格转换模型，基于风格指示图像，提取出风格图像特征，并基于原始图像，提取出原始图像特征，以及基于风格图像特征和原始图像特征的融合结果，逆向生成目标风格的目标图像；其中，目标图像中与脸部标注数据对应的内容区域内，生成有目标风格的人脸图像；风格转换模型是完成初始生成网络和初始判别网络的对抗训练后，基于训练得到的目标生成网络构建的。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请实施例及实施例中的特征可以相互组合。

参阅图1所示，其为本申请实施例中可能的应用场景示意图。该应用场景示意图中，包括客户端设备110，以及处理设备120。

在本申请一些可行的实施例中，处理设备120可以训练得到风格转换模型，并依据风格转换模型生成的目标风格的目标图像，对初始人脸检测模型进行训练，得到目标人脸检测模型；进而，处理设备120可以响应于相关对象在终端设备110上触发的识别请求，基于识别请求针对的图像进行人脸检测处理，检测出该图像对应的人脸区域信息。

在本申请另一些可行的实施例中，处理设备120可以训练得到风格转换模型，并依据风格转换模型生成各种风格的图像，以及依据各种风格的图像，训练得到目标人脸检测模型，其中，一个风格转换模型能够根据输入的不同风格的风格指示图像，生成相应风格的目标图像；进而，处理设备120可以响应于相关对象在终端设备110上触发的识别请求，确定识别请求针对的图像风格；再采用目标人脸检测模型，对该识别请求针对的图像进行人脸检测处理，检测出该图像对应的人脸区域信息。

其中，相关对象触发的识别请求可以是在小程序应用、客户端应用，以及网页应用中的任意一种应用上发起的，本申请对此不做具体限制。

客户端设备110包括但不限于手机、平板电脑、笔记本、电子书阅读器、智能语音交互设备、智能家电、车载终端、飞行器等。

处理设备120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器；在可行的实现方式中，处理设备可以是平板电脑、笔记本等具有一定处理能力的终端设备。

本申请实施例中，客户端设备110与处理设备120之间，可以通过有线网络或无线网络进行通信。以下的说明中仅从处理设备120的角度，对相关的处理过程进行说明。

下面结合可能的应用场景，对图像的风格转换过程进行示意性说明：

应用场景一、在动漫视频中选图。

在应用场景一对应的业务场景中，出于从动漫视频中挑选视频帧作为封面图的目的，或者，出于从动漫视频中挑选出符合需求的视频帧的目的，处理设备需要针对动漫视频中的各视频帧进行人脸检测。

基于此，为了实现对动漫视频的人脸检测，需要训练能够实现人脸检测功能的目标人脸检测模型，因此，需要借助于风格转换模型，生成动漫风格的训练样本，进而借助于训练样本，将初始人脸检测模型训练为目标人脸检测模型。

这样，需要训练得到风格转换模型，使得借助于风格转换模型，能够基于关联有人脸标注数据的原始图像，以及动漫风格的风格指示图像，生成动漫风格的目标图像，进而基于目标图像构建初始人脸检测模型的训练样本。

应用场景二、从指定风格的图像中检测出人脸区域。

在应用场景二对应的业务场景中，出于从各种风格的图像中识别出人脸区域的目的，处理设备需要针对相应风格的图像进行人脸检测。

基于此，为了实现对不同风格的图像进行人脸检测，需要训练能够实现人脸检测功能的目标人脸检测模型；因此，需要借助于同一风格转换模型，生成不同风格的图像，使得借助于不同风格的图像能够训练得到目标人脸检测模型。

在可行的实现方式中，可以借助于不同风格的图像，微调训练得到风格转换模型，使得通过风格转换模型，能够生成不同风格的图像；进而基于不同风格的图像，构建用于训练初始人脸检测模型的各训练样本。

另外，需要理解的是，在本申请的具体实施方式中，涉及对图像的风格转换过程，当本申请记载的实施例运用到具体产品或技术中时，相关数据的收集、使用和处理遵守相关国家和地区的相关法律法规和标准。

下面结合附图，从处理设备的角度，对与图像的风格转换相关的处理过程进行说明：

需要说明的是，本申请实施例中，在一些可行的实现方式中，处理设备可以依据自身训练得到风格转换模型，实现图像的风格转换；或者，在另一些可行的实现方式中，处理设备可以依据从其他设备处获取的风格转换模型，实现图像的风格转换。本申请以下的描述中，仅以处理设备自行训练得到风格转换模型为例，对相关的处理过程进行说明:

参阅图2所示，其为本申请实施例中得到风格转换模型的过程示意图，下面结合附图2，首先对处理设备得到风格转换模型的过程进行说明：

步骤201：处理设备获取各训练样本。

本申请实施例中，处理设备可以根据实际的处理需要，自行针对风格转换模型的训练构建各训练样本，或者，处理设备可以获取其他设备构建的各训练样本，其中，一条训练样本中包括：一个目标风格的样本风格图像、一个非目标风格的其他风格图像、一个样本图像、该一个样本图像的脸部标注数据，以及按照该脸部标注数据从该一个样本图像中裁剪出的人脸图像。

在处理设备自行构建各训练样本的情况下，处理设备在生成各训练样本时，先获取用于进行真实人脸检测的各原始样本，其中，一条原始样本中包括：一个样本图像，以及一个样本图像的脸部标注数据；再针对每条原始样本，执行以下操作：按照原始样本中的样本图像的脸部标注数据，从样本图像中裁剪出至少一张人脸图像，并获取目标风格的样本风格图像和非目标风格的其他风格图像，以及基于原始样本、至少一张人脸图像、样本风格图像，以及其他风格图像，组成至少一条训练样本。

具体的，处理设备在构建各训练样本的过程中，对于获取的用于进行真实人脸检测的各原始样本而言，处理设备可以将开源的用于真实人脸检测的样本数据，作为各原始样本，其中，对于原始样本中样本图像的脸部标注数据而言，脸部标注数据中包括用于指示人脸区域在图像中的位置的标注数据；一条训练样本中包括：目标风格的样本风格图像和非目标风格的其他风格图像、一个样本图像、该样本图像的脸部标注数据，以及从该样本图像中截取的一张人脸图像。

需要说明的是，本申请实施例中，目标风格和其他风格是相对于实际的处理需求而言的，图像的风格指的是图像所呈现的艺术效果，根据实际的处理需要，目标风格可以是动漫风格、复古风格、油画风格等风格中的任意一种；基于此，处理设备可以将需要进行人脸检测的图像对应的风格，即风格转换后希望得到的人脸图像的风格，确定为目标风格，并基于目标风格随机选定其他风格。

另外，在可行的实施例中，不同训练样本中包括的样本风格图像可以相同，又或者，部分训练样本中包括的样本风格图像相同；不同训练样本中包括的其他风格图像可以对应相同风格，又或者，部分训练样本中包括的其他风格图像对应相同风格；可选的，不同训练样本中包括的其他风格图像可以相同，又或者，部分训练样本中包括的其他风格图像相同，本申请对此不做具体限制。

应该理解的是，由于目前存在非常多针对真实人脸的分析研究，故现有的用于进行真实人脸检测的数据集非常庞大，存在特别多开源的人脸数据，可选的，本申请可以依据开源的人脸数据，结合实际的业务需求，获取各原始样本，进而依据各原始样本生成各训练样本。

例如，假设实际的业务需求中只关注人脸区域的位置；开源的人脸数据中可能包括：用于指示人脸区域的位置的标注数据，以及用于指示各个人脸关键点的位置的标注数据；那么，在获取各原始样本时，可以仅将用于指示人脸区域的位置的标注数据，作为原始样本中样本图像关联的脸部标注数据。

例如，参阅图3所示，其为本申请实施例中构建一条训练样本的过程示意图，假设目标风格为动漫风格，获取的一条原始样本中包括样本图像A和样本图像A的脸部标注数据；则在构建一条训练样本时，可以从动漫风格的视频中抽取一帧作为样本风格图像，以及可以获取一个非动漫风格（如油画风格）的其他风格图像，并基于样本图像A的脸部标注数据，从样本图像A中截取出人脸图像；进而，基于获取的油画风格的其他风格图像、动漫风格的样本风格图像、样本图像A、样本图像A的脸部标注数据，以及从样本图像A截取的人脸图像，构建一条训练样本。

这样，能够根据用于进行真实人脸检测的各原始样本，快速构建各训练样本，而且，在构建训练样本时，能够直接使用原始样本中的标注结果，免除了生成训练样本时的标注过程，提高了训练样本的生成效率，降低了训练样本的构建成本。

步骤202：处理设备根据各训练样本，对构建的初始生成网络和初始判别网络进行多轮交替训练，直至满足预设的收敛条件，得到基于初始生成网络训练得到的目标生成网络，并基于目标生成网络构建风格转换模型。

本申请实施例中，处理设备采用交替训练的方式，对构建的初始生成网络和初始判别网络进行多轮训练，其中，交替训练是指轮流训练初始生成网络和初始判别网络，使得初始生成网络和初始判别网络在训练过程中互相竞争和互相学习；在训练初始生成网络时，保持初始判别网络中的网络参数不变，只调整初始生成网络的网络参数；同理，在训练初始判别网络时，保持初始生成网络中的网络参数不变，只调整初始判别网络的网络参数。

需要说明的是，在构建初始生成网络时，可以基于AnimeGANv2中的生成器网络、AnimeGANv1中的生成器网络、其他GAN网络中的生成器网络，以及扩散（Diffusion）网络中的任意一种，构建初始生成网络，其中，在基于AnimeGANv2中生成器的网络结构，构建初始生成网络，并以动漫风格为目标风格的情况下，可以将从高清动漫视频中抽取的视频帧，作为目标风格的样本风格图像；而且，AnimeGANv2相较于AnimeGANv1使用层归一化来改善伪影问题，并使用更轻量的生成网络，能够得到更可靠的风格转换结果。

以基于AnimeGANv2构建初始生成网络为例，参阅图4所示，其为本申请实施例中构建的初始生成网络的网络结构示意图，处理设备可以将AnimeGANv2中的生成器网络和风格迁移算法（adaptive instance normalization，AdaIN）模块进行结合，得到图4中示意的网络结构，其中，构建的初始生成网络中包括多种网络内容，包括卷积层（记为Conv）、层归一化（记为LN）、激活函数层（记为Lrelu）、倒残差模块（Inverted Residual Block，IRB）、求和模块（记为SUM）、激活函数tanh层，以及尺寸调整层（记为Resize）等；图4中涉及到的“k”、“s”，以及“c”是卷积层的参数，分别表征卷积核（kernal）、卷积步长（stride）和通道（channel）。

需要说明的是，AdaIN模块的输入包括两个图像特征，涉及到的处理公式如下：

其中，为样本风格图像的风格图像特征（或称风格图像特征图）的方差，/>是风格图像特征的均值；x为输入的其他图像的图像特征。

另外，本申请构建的初始判别网络中，具体包括风格判别子网络和真伪判别子网络，其中，风格判别子网络和真伪判别子网络可以采用相同的网络结构构建；构建风格判别子网络和真伪判别子网络时采用的网络结构，可以是BigGAN中的判别器网络、AnimeGANv2中的判别器网络中的任意一种。

本申请实施例中，可以优选采用BigGAN中的判别器网络结构，构建风格判别子网络和真伪判别子网络，其中，相较于AnimeGANv2原生的判别器网络，BigGAN中的判别器网络结构更为复杂和精细；真伪判别子网络用于区分生成图像和自然图像，而风格判别子网络用于区分目标风格和其他风格的图像，真伪判别子网络和风格判别子网络具有相同的输入。

需要说明的是，本申请实施例中，构建初始生成网络时，可以采用开源的预训练参数作为初始生成网络的初始参数，即，初始生成网络是开源预训练的；而构建初始判别网络时，考虑到判别人物差距较大，故可以不使用开源的预训练参数，而是完全的重新训练，以提供更适用于目标风格的识别能力。

下面对交替训练过程中，针对初始生成网络进行的一轮迭代训练过程进行说明：

参阅图5A所示，其为本申请实施例中针对初始生成网络的一轮迭代训练过程示意图，下面结合附图5A，对初始生成网络的一轮迭代训练过程进行说明：

步骤501：处理设备采用初始生成网络，基于读取的样本风格图像和样本图像，生成预测图像，以及基于读取的样本风格图像和人脸图像，生成预测人脸图像。

本申请实施例中，处理设备可以按照预设的一轮迭代训练中使用的训练样本总数，读取相应数目的训练样本，并在一轮迭代训练过程中，基于读取的训练样本，执行两次前向传播过程。

在一次前向传播过程中，处理设备采用初始生成网络，基于读取的训练样本中的样本风格图像，提取出风格图像特征；与此同时，基于该训练样本中的样本图像，提取出样本图像特征；之后，基于风格图像特征和样本图像特征的融合结果，逆向生成预测图像。

参阅图5B所示，其为本申请实施例中初始生成网络在一次前向传播过程中的输入示意图，根据附图5B所示意的内容可知，假设batchsize的取值为1，那么，在执行一轮迭代训练过程中的一次前向传播时，将样本图像作为输入（input），将样本风格图像进行编码处理后，得到风格图像特征，并将图像风格特征注入不同位置处的AdaIN模块，最终得到初始生成网络输出的预测图像。

这样，采用初始生成网络，能够基于样本风格图像和样本图像进行特征提取，并在提取的图像特征的融合作用下，能够生成图像大小与样本图像相同的预测图像。

同理，在另一次前向传播过程中，处理设备采用初始生成网络，基于读取的训练样本中的样本风格图像，提取出风格图像特征，与此同时，基于该训练样本中的人脸图像，提取出人脸图像特征；之后，基于风格图像特征和人脸图像特征的融合结果，逆向生成预测人脸图像。

例如，参阅图5C所示，其为本申请实施例中一轮迭代训练过程中的两次前向传播示意图，根据附图5C示意的内容可知，假设模型训练时的batchsize为n，那么，在一次前向传播过程中，同时将读取的n个训练样本中的样本图像（记为样本图像1-n）和样本风格图像（记为样本风格图像1-n），输入至初始生成网络，得到对应的n个预测图像，记为预测图像1-n。同理，在另一次前向传播过程中，将当前读取的n个训练样本中的人脸图像（记为人脸图像1-n）和样本风格图像（记为样本风格图像1-n），输入至初始生成网络，得到对应的n个预测人脸图像，记为预测人脸图像1-n。

步骤502：处理设备针对预测图像、训练样本中的样本风格图像和其他风格图像，采用初始判别网络中的风格判别子网络，输出风格判别结果，以及采用初始判别网络中的真伪判别子网络，输出真伪判别结果。

本申请实施例中，在执行步骤502时，将同样的内容同时输入至风格判别子网络和真伪判别子网络，进而，借助于风格判别子网络和真伪判别子网络所实现的不同功能，处理设备得到风格判别子网络输出的风格判别结果，以及得到真伪判别子网络输出的真伪判别结果，其中，风格判别结果用于判断输入的图像的风格，是否为目标风格；真伪判别结果用于判断输入的图像是否是真实图像。

可选的，在将图像输入至风格判别子网络和真伪判别子网络之前，可以对输入的样本图像进行数据增强处理，其中，可行的数据增强方式包括：在不改变人脸位置的情况下，单纯从像素的层面添加扰动，如，光度转换，灰度缩放，颜色抖动和模糊锐化等；或者，采用混合增强的方式，如，cutmix、mixup等方法。

需要说明的是，本申请实施例中，在针对初始生成网络输出的预测图像、训练样本中的样本风格图像和其他风格图像，分别确定对应的风格判别结果和真伪判别结果时，可以针对需要处理的这三种图像，分别在风格判别子网络和真伪判别子网络中执行三次前向传播过程；而且，依据输入至风格判别子网络和真伪判别子网络中的图像的顺序和图像内容，能够直接确定风格判别结果对应的真实判别结果，以及能够直接确定真伪判别结果对应的真实判别结果。

例如，参阅图5D所示，其为本申请实施例中一轮迭代训练过程中的三次前向传播示意图，结合附图5D可知，假设模型训练时的batchsize为n，那么，在对风格判别子网络和真伪判别子网络进行训练时，需要进行三次前向传播；在前向传播1对应的处理过程中，将初始生成网络基于读取的n条训练样本生成的n个预测图像（记为预测图像1-n），分别输入至风格判别子网络和真伪判别子网络，得到对应的n个风格判别结果和真伪判别结果。同理，前向传播2对应的处理过程中，将当前读取的n个训练样本中的样本风格图像（记为样本风格图像1-n），分别输入至风格判别子网络和真伪判别子网络，得到对应的n个风格判别结果和真伪判别结果；同理，前向传播3对应的处理过程中，将当前读取的n个训练样本中的其他风格图像（记为其他风格图像1-n），分别输入至风格判别子网络和真伪判别子网络，得到对应的n个风格判别结果和真伪判别结果。

步骤503：处理设备基于样本图像的脸部标注数据，在预测图像中裁剪出预测子图，并基于预测子图和预测人脸图像之间的像素值差异，以及风格判别结果和真伪判别结果各自与对应的真实判别结果之间的结果差异，调整初始生成网络的网络参数。

本申请实施例中，在对初始生成网络进行网络参数调整的过程中，借助于位置一致性损失和整体的生成对抗损失来优化初始生成网络。

具体的，处理设备获取初始生成网络生成的预测图像，以及初始判别网络输出的风格判别结果和真伪判别结果后，根据样本图像的脸部标注数据，在预测图像中裁剪出预测子图，进而通过计算预测子图和预测人脸图像之间的像素值差异，能够确定位置一致性损失，其中，位置一致性损失可以借助于L1损失函数来实现，涉及到的计算公式如下：

其中，表示预测子图中i，j位置对应的像素值，/>表示预测人脸图像中i，j位置对应的像素值；预测人脸图像和预测子图具有相同的图像大小；/>表示覆盖了预测子图和预测人脸图像中的各个像素位置。

处理设备在计算整体的生成对抗损失时，采用如下公式进行计算：

其中，D是指真伪判别子网络或风格判别子网络；G是指初始生成网络；在真伪判别子网络或风格判别子网络中的x指的是：样本风格图像和其他风格图像；D(x)表示的是生成的预测图像，log计算的是交叉熵。而在初始生成网络中，z表示的是样本图像和目标风格的样本风格图像，G(z)则表示的是目标风格的预测图像。

之后，处理设备依据得到的生成对抗损失和位置一致性损失，调整初始生成网络的网络参数。

这样，在对初始生成网络进行训练的过程中，通过计算位置一致性损失，能够限制生成人脸的位置，使得能够引导初始生成网络学习在人脸标注区域内生成目标风格的人脸图像；换言之，通过对人脸生成位置进行强制性约束，能够满足人脸的生成需要，解决了目前的生成网络对于内容的生成位置不敏感的问题，使得训练后的目标生成网络能够学习到在不改变人脸位置的情况下，重新生成目标风格的人脸图像的能力，从而提高了图像的生成质量和生成准确性。

处理设备在针对初始判别网络进行一轮训练的过程中，执行以下操作：采用初始生成网络，基于读取的样本风格图像和样本图像，生成预测图像，以及基于读取的样本风格图像和人脸图像，生成预测人脸图像；再针对预测图像、训练样本中的样本风格图像和其他风格图像，采用初始判别网络中的风格判别子网络，输出风格判别结果，以及采用初始判别网络中的真伪判别子网络，输出真伪判别结果；之后，基于风格判别结果和真伪判别结果各自与对应的真实判别结果之间的结果差异，以及初始判别网络内部，基于预测图像、样本风格图像和其他风格图像分别提取的指定层图像特征的特征差异，调整初始判别网络的网络参数。

需要说明的是，在对初始判别网络进行一轮训练的过程中，处理设备采用初始生成网络生成预测图像和预测人脸图像的过程，与上述步骤501中记载的处理过程相同，处理设备采用初始判别网络中的风格判别子网络和真伪判别子网络，输出风格判别结果和真伪判别结果的过程，与上述步骤502中记载的处理过程相同，本申请对此将不进行展开说明。

处理设备基于初始生成网络和初始判别网络的输出结果，对初始判别网络的网络参数进行调整的过程中，基于风格判别结果和真伪判别结果各自与对应的真实判别结果之间的结果差异，以及基于真伪判别子网络中的指定网络层，对应预测图像、样本风格图像和其他风格图像，分别输出的各图像特征之间的特征差异，调整真伪判别子网络的网络参数；风格判别结果和真伪判别结果各自与对应的真实判别结果之间的结果差异，以及基于风格判别子网络中的指定网络层，对应预测图像、样本风格图像和其他风格图像，分别输出的各图像特征之间的特征差异，调整风格判别子网络的网络参数。

具体的，处理设备针对真伪判别子网络，可以基于风格判别结果和真伪判别结果各自与对应的真实判别结果之间的结果差异，计算整体的生成对抗损失，以及根据真伪判别子网络中的指定网络层，对应预测图像、样本风格图像和其他风格图像，分别输出的各图像特征之间的特征差异，计算对应的第一对比损失，其中，第一对比损失的计算公式如下：

其中，为计算得到的第一对比损失；/>为风格判别子网络中的指定网络层，在（）中的图像作为输入的情况下输出的图像特征；γ1是自定义的参数，具体是指将负特征与正特征分隔开的边距；Z1是指样本风格图像；Z2是指其他风格图像；Y1是指初始生成网络生成的预测图像。

同理，针对风格判别子网络，处理设备可以基于风格判别结果和真伪判别结果各自与对应的真实判别结果之间的结果差异，计算整体的生成对抗损失，以及根据风格判别子网络中的指定网络层，对应预测图像、样本风格图像和其他风格图像，分别输出的各图像特征之间的特征差异，计算对应的第二对比损失，其中，第二对比损失的计算公式如下：

其中，为计算得到的第二对比损失；/>为风格判别子网络中的指定网络层，在（）中的图像作为输入的情况下输出的图像特征；γ2是自定义的参数，具体是指将负特征与正特征分隔开的边距；Z1是指样本风格图像；Z2是指其他风格图像；Y1是指初始生成网络生成的预测图像。

另外，对于选定的指定网络层级而言，参阅图5E所示，其为本申请实施例中风格判别子网络的网络结构示意图，根据图5E所示意的网络层级而言，根据实际的处理需要，可以选定全连接层之前的一个网络层级，作为指定网络层级，即，图5E中框选的内容。

这样，在对包含双判别网络的初始判别网络进行训练时，借助于真伪判别子网络，能够区分生成图像和自然图像，而借助于风格判别子网络，能够区分目标风格和其他风格的图像；而且，两个子网络的输入相同，均由生成的预测图像、样本风格图像，以及其他风格图像组成。通过最小化初始判别网络对真实图像和生成图像的判别分数之差，从而使得初始判别网络能够学习区分真实图像和生成图像，进而帮助初始生成网络生成更逼真的图像；另外，借助于第一对比损失，能够引导真伪判别子网络，学习区分生成图像和自然特征的特征差异，而借助于第二对比损失，能够引导风格判别子网络，学习辨别目标风格和其他风格的图像的特征差异，进而能够辅助初始生成网络更有效地学习目标风格的数据分布。

进一步的，处理设备可以根据实际的处理需要，按照上述一轮训练过程中执行的训练步骤，针对初始生成网络和初始判别网络执行多轮交替训练，直至满足预设的收敛条件，得到基于初始生成网络训练得到的目标生成网络，进而基于目标生成网络构建风格转换模型。

需要说明的是，初始收敛条件可以是，初始生成网络生成的图像质量满足需求，且模型的损失值持续低于第一设定值的次数达到第二设定值，其中，第一设定值和第二设定值的取值根据实际的处理需要设置，图像质量借助于（Inception Score，IS）指标，或者，（Frechet Inception Distance，FID）指标来衡量，其中，IS取值越高，图像质量越好，以及FID取值越小，图像质量越好。在可行的实现方式中，可以针对FID指标和IS指标分别设置对应的第一阈值和第二阈值，使得FID指标低于第一阈值且IS指标高于第二阈值的图像，可以被判定为图像质量满足需求。

例如，处理设备可以存储不同训练阶段，基于初始生成网络和初始判别网络训练得到的网络参数，并最终在各个训练阶段的训练结果中，选定能够生成最优质的图像的网络参数。

这样，通过对初始生成网络和初始判别网络进行对抗训练，能够训练初始生成网络得到能够生成高质量的目标风格的图像的目标生成网络，使得目标生成网络具有很好的图像生成能力，能够在目标风格的图像的引导下，在真实图像内原有的人脸区域中，生成目标风格的人脸图像。

参阅图6所示，其为本申请实施例中图像的风格转换过程示意图，下面结合附图6，对基于构建的风格转换模型，执行的图像的风格转换过程进行说明：

步骤601：处理设备获取目标风格的风格指示图像。

具体的，为了为图像的风格转换过程提供风格参考数据，处理设备需要获取目标风格的风格指示图像，其中，风格指示图像可以是从目标风格的视频中截取的，包括人脸内容的图像。

例如，假设目标风格为动漫风格，那么，可以在动漫视频中抽取包括动漫人脸的一帧图像，作为风格指示图像。

步骤602：处理设备获取关联有脸部标注数据的原始图像，其中，脸部标注数据用于标识原始图像中的人脸位置。

具体的，处理设备可以在开源且用于真实人脸检测的数据中，获取关联有脸部标注数据的原始图像，或者，可以在得到相关对象的授权的情况下，选取相关对象的关联有脸部标注数据的照片，作为原始图像，又或者，可以在得到相关授权的情况下，将从影视视频中抽取的关联有脸部标注数据的视频帧，作为原始图像。

需要说明的是，脸部标注数据中具体可以是能够定位脸部区域的坐标数据，如，脸部区域矩形框的左上角坐标和右下角坐标。

步骤603：处理设备采用风格转换模型，基于风格指示图像，提取出风格图像特征，并基于原始图像，提取出原始图像特征，以及基于风格图像特征和原始图像特征的融合结果，逆向生成目标风格的目标图像。

具体的，处理设备获取风格指示图像和原始图像后，采用基于训练后的目标生成网络构建的风格转换模型，针对风格指示图像提取出风格图像特征，以及针对原始图像提取出原始图像特征；进而，通过融合风格图像特征和原始图像特征，在原始图像特征中施加风格图像特征的影响，使得能够在生成目标风格的图像的同时，在图像中脸部标注数据对应的内容区域内生成目标风格的人脸图像。

这样，对应关联有脸部标注数据的内容区域，能够精确地生成目标风格的人脸数据，使得原始图像的脸部标注数据，能够直接作为生成的目标图像的脸部标注数据，相当于直接生成了目标风格且关联有脸部标注数据的目标图像。

进而，在基于风格转换模型生成目标图像后，处理设备可以将原始图像的脸部标注数据确定为目标图像的脸部标注数据，并基于目标图像及其脸部标注数据，构建目标风格的训练样本；再采用目标风格的训练样本，对构建的初始人脸检测模型进行多轮迭代训练，直至满足预设的收敛条件，获得目标人脸检测模型。

需要说明的是，本申请实施例中，可以借助于Yolov8网络、RNN等任意一种网络，构建初始人脸检测模型，其中，Yolov8网络是一种非常有效的物体检测算法，集成了检测领域中多种有效实践，具有高速、高精度和实时性等优点。可选的，本申请实施例中，处理设备可以基于开源的预训练后的网络结构，构建初始人脸检测模型，以提高初始人脸检测模型的收敛速度。预设的收敛条件可以是模型训练轮数达到设定值等，本申请对此不做具体限制。另外，考虑到本申请请求保护的方案中，一种可能的应用场景是生成初始人脸检测模型的训练样本，故本申请不对训练初始人脸检测模型时采用的训练方式进行具体限定。

这样，借助于风格转换模型，能够基于关联有标注数据的待转换人脸图像（即原始图像）和目标风格的人脸图像（即风格指示图像），转换得到大量目标风格的关联有标注数据的目标图像；而且，通过使用大量标注数据对本地的初始人脸检测模型进行训练，使得训练后的目标人脸检测模型能够学习到目标风格的图像中的人脸特征，从而提高对于目标风格的人脸图像的检测效果。

进而，处理设备训练得到目标人脸检测模型之后，处理设备可以获取目标风格的视频帧序列；再采用目标人脸检测模型，针对视频帧序列中的各视频帧，分别进行人脸检测处理，识别出各视频帧各自对应的人脸区域信息；之后，基于各视频帧各自对应的人脸区域信息，在各视频帧中，选取人脸状态符合设定条件的目标视频帧。

具体的，在具体的应用过程中，处理设备可以借助于训练得到的目标人脸检测模型，对目标风格的视频帧序列中的各视频帧，分别进行人脸检测，识别出各个视频帧中的人脸区域信息；而且，借助于人脸区域信息，能够确定各视频帧中人脸区域占图像整体的占比，并能够确定视频帧中包括的人脸区域数，进而能够应对各样的视频帧获取需求。

例如，需要获取空境的视频帧，故可以在未识别出人脸区域的视频帧中，选定一个视频帧。

又例如，需要获取包括尽量多对象的视频帧，则可以根据目标风格的动漫中包括的主要对象总数，确定目标对象总数，并在各视频帧中，选定检测的人脸区域总数，高于该目标对象总数的一个视频帧。

这样，能够将训练后的目标人脸检测模型应用至实际的业务场景中，使得可以对目标风格的图像进行人脸检测，快速获取到符合需要的图像内容。

下面结合附图，以将图像转换为动漫风格为例，对相关的处理过程进行说明：

参阅图7A所示，其为本申请实施例中训练得到风格转换模型的过程示意图，根据附图7A所示，为了构建风格转换模型，涉及到初始生成网络和初始判别网络的交替对抗训练，其中，初始判别子网络中包括真伪判别子网络和风格判别子网络。图7A中示意的初始生成网络中包括三路输入，仅为示意性说明，在实际的处理过程中，需要将三个图像分两次前向传播，同理，真伪判别子网络和风格判别子网络的三路输入也仅为示意性说明，在实际的训练过程中，需要分成三次进行前向传播。

继续结合附图7A所示，在交替对抗训练过程中，涉及到的损失值包括两类，分别是人脸位置一致性损失和风格一致性损失，其中，风格一致性损失中包括生成对抗损失、针对真伪判别子网络确定的第一对比损失，以及针对风格判别子网络确定的第二对比损失。

在对初始生成网络进行网络参数调节时，基于人脸位置一致性损失和生成对抗损失，调整网络参数，在对真伪判别子网络进行网络参数调节时，基于生成对抗损失和第一对比损失，调整网络参数，以及在对风格判别子网络进行网络参数调节时，借助于生成对抗损失和第二对比损失，调整网络参数。

进一步的，参阅图7B所示，其为本申请实施例中基于风格转换模型的输出结果训练人脸检测模型的过程示意图，结合附图7B进行说明可知，处理设备基于训练后的目标生成网络构建风格转换模型后，将动漫风格的风格指示图像和真实人脸图像，输入风格转换模型，得到动漫风格的目标图像；进而由目标图像和真实人脸图像的脸部标注数据构建训练样本，对预训练后的端到端动漫人脸检测模型进行训练，得到训练后的动漫人脸检测模型。

进一步的，参阅图7C所示，其为本申请实施例中基于动漫人脸检测模型进行图像处理的过程示意图，根据附图7C所示意的内容可知，本申请提出的技术方案，可以在动漫的各类功能性选图***中得到很好的应用。借助于训练后的人脸检测模型对视频帧进行人脸检测后，可以得到人脸区域的位置、大小，以及占比信息，这些信息可以为下游的选图任务提供有效的帮助。

结合具体的应用场景可知，假设需要在视频中选取存在人物的图像，那么通过人脸检测模型得到的人脸信息，可以快速定位到视频中存在人物的视频帧。另外，使用人脸检测模型进行人脸检测不仅可以提高选图的准确性，还可以提高选图的效率。相比于过去需要手动地在视频中寻找人物的图像，使得选图过程不仅费时费力，还容易出现遗漏或错误的情况，通过使用人脸检测模型进行人脸检测，可以在短时间内快速地找到所需的视频帧。这样不仅可以节省时间和劳动力成本，还可以提高选图的质量和效率。

综合而言，本申请提出的技术方案中，通过在训练初始生成网络和初始判别网络的过程中，对人脸生成位置进行严格的约束，使得风格转换模型对于图像生成位置敏感，避免生成的人脸位置出现偏差，解决了生成网络自带的生成位置偏移的问题，这提高了图像的生成质量和准确性，使得能够生成适用于人脸检测训练的样本数据；而且，考虑到目标风格与图像的真实风格的分布差距大，两者之间的差距可能会导致人脸检测模型的性能降低，故为了缩小两种风格之间的差距，本申请设计了两个判别器，一个用于真假判断，另一个则用于风格的区分；另外，为了进一步增强生成质量，使得类内相似性，类间可区分性增加，还采用了第一对比损失和第二对比损失来加强约束。

进而，借助于风格转换模型，能够生成大规模高质量的动漫人脸数据，用算法模型代替人为标注，可以节省巨大的标注成本，提高迭代效率，同时增强动漫人脸检测模型的泛化能力。

基于同一发明构思，参阅图8所示，其为本申请实施例中图像的风格转换装置的逻辑结构示意图，图像的风格转换装置800中包括第一获取单元801、第二获取单元802，以及生成单元803，其中，

第一获取单元801，用于获取目标风格的风格指示图像；

第二获取单元802，用于获取关联有脸部标注数据的原始图像，其中，脸部标注数据用于标识原始图像中的人脸位置；

生成单元803，用于采用风格转换模型，基于风格指示图像，提取出风格图像特征，并基于原始图像，提取出原始图像特征，以及基于风格图像特征和原始图像特征的融合结果，逆向生成目标风格的目标图像；

其中，目标图像中与脸部标注数据对应的内容区域内，生成有目标风格的人脸图像；风格转换模型是完成初始生成网络和初始判别网络的对抗训练后，基于训练得到的目标生成网络构建的。

可选的，装置还包括训练单元804，风格转换模型是训练单元804采用如下方式得到的：

获取各训练样本，其中，一条训练样本中包括：一个目标风格的样本风格图像、一个非目标风格的其他风格图像、一个样本图像、一个样本图像的脸部标注数据，以及按照脸部标注数据从一个样本图像中裁剪出的人脸图像；

根据各训练样本，对构建的初始生成网络和初始判别网络进行多轮交替训练，直至满足预设的收敛条件，得到基于初始生成网络训练得到的目标生成网络，并基于目标生成网络构建风格转换模型。

可选的，各训练样本，是训练单元804采用以下方式生成的：

获取用于进行真实人脸检测的各原始样本，其中，一条原始样本中包括：一个样本图像，以及一个样本图像的脸部标注数据；

针对每条原始样本，执行以下操作：按照原始样本中的样本图像的脸部标注数据，从样本图像中裁剪出至少一张人脸图像，并获取目标风格的样本风格图像和非目标风格的其他风格图像，以及基于原始样本、至少一张人脸图像、样本风格图像，以及其他风格图像，组成至少一条训练样本。

可选的，在针对初始生成网络进行的一轮训练过程中，训练单元804用于执行以下操作：

采用初始生成网络，基于读取的样本风格图像和样本图像，生成预测图像，以及基于读取的样本风格图像和人脸图像，生成预测人脸图像；

针对预测图像、训练样本中的样本风格图像和其他风格图像，采用初始判别网络中的风格判别子网络，输出风格判别结果，以及采用初始判别网络中的真伪判别子网络，输出真伪判别结果；

基于样本图像的脸部标注数据，在预测图像中裁剪出预测子图，并基于预测子图和预测人脸图像之间的像素值差异，以及风格判别结果和真伪判别结果各自与对应的真实判别结果之间的结果差异，调整初始生成网络的网络参数。

可选的，在针对初始判别网络进行的一轮训练过程中，训练单元804用于执行以下操作：

基于风格判别结果和真伪判别结果各自与对应的真实判别结果之间的结果差异，以及初始判别网络内部，基于预测图像、样本风格图像和其他风格图像分别提取的指定层图像特征的特征差异，调整初始判别网络的网络参数。

可选的，基于风格判别结果和真伪判别结果各自与对应的真实判别结果之间的结果差异，以及初始判别网络内部，基于预测图像、本风格图像和其他风格图像分别提取的指定层图像特征的特征差异，调整初始判别网络的网络参数时，训练单元804用于：

基于风格判别结果和真伪判别结果各自与对应的真实判别结果之间的结果差异，以及基于真伪判别子网络中的指定网络层，对应预测图像、样本风格图像和其他风格图像，分别输出的各图像特征之间的特征差异，调整真伪判别子网络的网络参数；

基于风格判别结果和真伪判别结果各自与对应的真实判别结果之间的结果差异，以及基于风格判别子网络中的指定网络层，对应预测图像、样本风格图像和其他风格图像，分别输出的各图像特征之间的特征差异，调整风格判别子网络的网络参数。

可选的，基于读取的样本风格图像和样本图像，生成预测图像时，训练单元804用于：

基于训练样本中的样本图像，提取出样本图像特征；

基于风格图像特征和样本图像特征的融合结果，逆向生成预测图像。

可选的，逆向生成目标风格的目标图像之后，生成单元803还用于：

将原始图像的脸部标注数据确定为目标图像的脸部标注数据，并基于目标图像及其脸部标注数据，构建目标风格的训练样本；

采用目标风格的训练样本，对构建的初始人脸检测模型进行多轮迭代训练，直至满足预设的收敛条件，获得目标人脸检测模型。

可选的，输出训练后的目标人脸检测模型之后，生成单元803还用于：

获取目标风格的视频帧序列；

采用目标人脸检测模型，针对视频帧序列中的各视频帧，分别进行人脸检测处理，识别出各视频帧各自对应的人脸区域信息；

基于各视频帧各自对应的人脸区域信息，在各视频帧中，选取人脸状态符合设定条件的目标视频帧。

为了描述的方便，以上各部分按照功能划分为各模块（或单元）分别描述。当然，在实施本申请时可以把各模块（或单元）的功能在同一个或多个软件或硬件中实现。

在介绍了本申请示例性实施方式的图像的风格转换方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为***、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种电子设备。参阅图9所示，其为应用本申请实施例的一种电子设备的硬件组成结构示意图，在一种实施例中，该电子设备可以是图1所示的处理设备120。在该实施例中，电子设备的结构可以如图9所示，包括存储器901，通讯模块903以及一个或多个处理器902。

存储器901，用于存储处理器902执行的计算机程序。存储器901可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

存储器901可以是易失性存储器（volatile memory），例如随机存取存储器（random-access memory，RAM）；存储器901也可以是非易失性存储器（non-volatilememory），例如只读存储器，快闪存储器（flash memory），硬盘（hard disk drive，HDD）或固态硬盘（solid-state drive，SSD）；或者存储器901是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质，但不限于此。存储器901可以是上述存储器的组合。

处理器902，可以包括一个或多个中央处理单元（central processing unit，CPU）或者为数字处理单元等等。处理器902，用于调用存储器901中存储的计算机程序时实现上述图像的风格转换方法。

通讯模块903用于与客户端设备和服务器进行通信。

本申请实施例中不限定上述存储器901、通讯模块903和处理器902之间的具体连接介质。本申请实施例在图9中以存储器901和处理器902之间通过总线904连接，总线904在图9中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线904可以分为地址总线、数据总线、控制总线等。为便于描述，图9中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。

存储器901中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的图像的风格转换方法。处理器902用于执行上述的图像的风格转换方法，如图5A所示。

在另一种实施例中，电子设备也可以是其他电子设备，参阅图10所示，其为应用本申请实施例的另一种电子设备的硬件组成结构示意图，该电子设备具体可以是图1所示的客户端设备110。在该实施例中，电子设备的结构可以如图10所示，包括：通信组件1010、存储器1020、显示单元1030、摄像头1040、传感器1050、音频电路1060、蓝牙模块1070、处理器1080等部件。

通信组件1010用于与服务器进行通信。在一些实施例中，可以包括电路无线保真（Wireless Fidelity，WiFi）模块，WiFi模块属于短距离无线传输技术，电子设备通过WiFi模块可以帮助用户收发信息。

存储器1020可用于存储软件程序及数据。处理器1080通过运行存储在存储器1020的软件程序或数据，从而执行客户端设备210的各种功能以及数据处理。本申请中存储器1020可以存储操作***及各种应用程序，还可以存储执行本申请实施例图像的风格转换方法相关的计算机程序。

显示单元1030还可用于显示由用户输入的信息或提供给用户的信息以及客户端设备210的各种菜单的图形用户界面（graphical user interface，GUI）。具体地，显示单元1030可以包括设置在客户端设备210正面的显示屏1032。显示单元1030可以用于显示本申请实施例中目标风格的图像的转换操作的页面等。

显示单元1030还可用于接收输入的数字或字符信息，产生与客户端设备210的用户设置以及功能控制有关的信号输入，具体地，显示单元1030可以包括设置在客户端设备210正面的触摸屏1031，可收集用户在其上或附近的触摸操作。

其中，触摸屏1031可以覆盖在显示屏1032之上，也可以将触摸屏1031与显示屏1032集成而实现客户端设备210的输入和输出功能，集成后可以简称触摸显示屏。本申请中显示单元1030可以显示应用程序以及对应的操作步骤。

摄像头1040可用于捕获静态图像，用户可以将摄像头1040拍摄的图像通过应用发布评论。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件（charge coupled device，CCD）或互补金属氧化物半导体（complementary metal-oxide-semiconductor，CMOS）光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给处理器1080转换成数字图像信号。

客户端设备还可以包括至少一种传感器1050，比如加速度传感器1051、距离传感器1052、指纹传感器1053、温度传感器1054。客户端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。

音频电路1060、扬声器1061、传声器1062可提供用户与客户端设备210之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出。另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出至通信组件1010以发送给比如另一客户端设备210，或者将音频数据输出至存储器1020以便进一步处理。

蓝牙模块1070用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。

处理器1080是客户端设备的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器1020内的软件程序，以及调用存储在存储器1020内的数据，执行客户端设备的各种功能和处理数据。在一些实施例中，处理器1080可包括至少一个处理单元；处理器1080还可以集成应用处理器和基带处理器。本申请中处理器1080可以运行操作***、应用程序、用户界面显示及触控响应，以及本申请实施例的图像的风格转换方法。另外，处理器1080与显示单元1030耦接。

在一些可能的实施方式中，本申请提供的图像的风格转换方法的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在电子设备上运行时，计算机程序用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的图像的风格转换方法中的步骤，例如，电子设备可以执行如图5A中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器（CD-ROM）并包括计算机程序，并可以在电子设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行***、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在用户电子设备上执行、部分地在用户电子设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络包括局域网（LAN）或广域网（WAN）连接到用户电子设备，或者，可以连接到外部电子设备（例如利用因特网服务提供商来通过因特网连接）。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序命令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序命令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的命令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种图像的风格转换方法，其特征在于，包括：

获取目标风格的风格指示图像；

其中，所述目标图像中与所述脸部标注数据对应的内容区域内，生成有所述目标风格的人脸图像；所述风格转换模型是完成初始生成网络和初始判别网络的对抗训练后，基于训练得到的目标生成网络构建的；

所述初始判别网络的一轮训练过程中，执行以下操作：

采用所述初始生成网络，基于读取的训练样本中的样本风格图像和样本图像，生成预测图像；

基于所述风格判别结果和所述真伪判别结果各自与对应的真实判别结果之间的结果差异，以及基于所述真伪判别子网络中的指定网络层，对应所述预测图像、所述样本风格图像和其他风格图像，分别输出的各图像特征之间的特征差异，调整所述真伪判别子网络的网络参数；基于所述风格判别结果和所述真伪判别结果各自与对应的真实判别结果之间的结果差异，以及基于所述风格判别子网络中的指定网络层，对应所述预测图像、所述样本风格图像和其他风格图像，分别输出的各图像特征之间的特征差异，调整所述风格判别子网络的网络参数。

2.如权利要求1所述的方法，其特征在于，所述风格转换模型是采用如下方式得到的：

3.如权利要求2所述的方法，其特征在于，所述各训练样本，是采用以下方式生成的：

4.如权利要求2所述的方法，其特征在于，在针对初始生成网络进行的一轮训练过程中，执行以下操作：

5.如权利要求1、3-4任一项所述的方法，其特征在于，所述基于读取的样本风格图像和样本图像，生成预测图像，包括：

基于所述训练样本中的样本图像，提取出样本图像特征；

6.如权利要求1-4任一项所述的方法，其特征在于，所述逆向生成所述目标风格的目标图像之后，还包括：

7.如权利要求6所述的方法，其特征在于，所述输出训练后的目标人脸检测模型之后，还包括：

获取所述目标风格的视频帧序列；

8.一种图像的风格转换装置，其特征在于，包括：

第一获取单元，用于获取目标风格的风格指示图像；

所述初始判别网络的一轮训练过程中，执行以下操作：

9.如权利要求8所述的装置，其特征在于，所述装置还包括训练单元，所述风格转换模型是所述训练单元采用如下方式得到的：

10.如权利要求8或9所述的装置，其特征在于，所述逆向生成所述目标风格的目标图像之后，所述生成单元还用于：

11.如权利要求10所述的装置，其特征在于，所述输出训练后的目标人脸检测模型之后，所述生成单元还用于：

获取所述目标风格的视频帧序列；

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。

14.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。