CN111091493A

CN111091493A - 图像翻译模型训练方法、图像翻译方法及装置和电子设备

Info

Publication number: CN111091493A
Application number: CN201911349721.2A
Authority: CN
Inventors: 刘明聪; ***; 张雷; 张文波; 郑文
Original assignee: Reach Best Technology Co Ltd
Current assignee: Reach Best Technology Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-05-01
Anticipated expiration: 2039-12-24
Also published as: CN111091493B

Abstract

本公开关于一种图像翻译模型训练方法、图像翻译方法及装置、电子设备及存储介质，包括：获取人脸图像数据集和动漫头像数据集；将人脸图像数据集和动漫头像数据集组合为多个训练数据集，分别训练无监督图像翻译模型，得到多个图像翻译模型；将所述人脸图像数据集中的各人脸图像分别输入所述多个图像翻译模型得到第一动漫头像；从所述第一动漫头像中筛选出正样本动漫头像；采用所述人脸图像和其对应的正样本动漫头像组成人脸‑动漫头像对；采用所述人脸‑动漫头像对训练所述多个图像翻译模型；当满足迭代结束条件后，从所述多个图像翻译模型中，筛选出目标图像翻译模型。应用本公开可以得到稳定性强、成功率高且图像翻译质量高的图像翻译模型。

Description

图像翻译模型训练方法、图像翻译方法及装置和电子设备

技术领域

本公开涉及互联网技术领域，尤其涉及一种图像翻译模型训练方法、装置、电子设备及存储介质，以及，一种图像翻译方法、装置、电子设备及存储介质。

背景技术

图像翻译(image-to-image translation)网络能够在不改变图像内容的前提下，将一种类型的图像直接转换为另一种类型的图像，在图像生成、场景分割、图像风格化等领域有着广泛应用。其中，人脸图像与动漫头像的转换因其高度的趣味性和可玩性，被用户所喜爱和认可，具有良好的发展前景。

目前是利用无监督学习来根据人脸图像生成对应的动漫头像(例如CycleGAN、UNIT、UGATIT等)，使用正向和反向两组生成对抗网络(GAN，Generative AdversarialNetworks)，并用循环一致性损失(cycle-consistency loss)这一约束将其连接起来，从而利用未配对的人脸图像数据集和动漫头像数据集即可训练出图像翻译模型，实现基于人脸图像的动漫头像的生成。

在上述方案中，整个训练网络由正向和反向两组GAN构成，每组GAN包含一个生成器(generator)和至少一个判别器(discriminator)。生成器的输入和输出均为图像，基本结构多为级联残差块架构或其变体，即输入图像经过二至三次下采样后，依次通过生成器的若干个Residual模块，逐步提取更深层次特征并完成转换，最后再通过与下采样相同次数的上采样得到最终输出图像。判别器的输入为图像，通过若干次的下采样后得到表征该图像全局或其各局部区域是否为真实图像的矩阵。真实的人脸图像和动漫头像分别通过一路GAN网络，并用循环一致性损失来约束，从而训练出图像翻译模型。

然而，上述方案的缺陷在于，基于无监督学习的方法训练出的模型稳定性较差，不同迭代次数的模型对于同一人脸图像的转换效果存在较大差异，而且由人脸图像生成的动漫头像质量差，多数输出的动漫头像存在明显的瑕疵甚至完全没有效果；另外，对于生成的动漫头像质量优劣的评判主观性较强，无法通过定量的指标来自动化过滤效果较差的输出图像，因此上述方案输出的动漫头像无法直接作为成对的人脸-动漫头像用于后续模型的训练。

发明内容

本公开提供一种图像翻译模型训练方法、装置、电子设备及存储介质，以及，一种图像翻译方法、装置、电子设备及存储介质，以至少解决相关技术中模型稳定性较差，模型输出的图像质量较差的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种图像翻译模型训练方法，包括：

获取人脸图像数据集和动漫头像数据集；

将所述人脸图像数据集和所述动漫头像数据集组合为多个训练数据集，分别训练无监督图像翻译模型，得到多个图像翻译模型；

针对所述多个图像翻译模型，迭代执行如下步骤进行训练：

将所述人脸图像数据集中的各人脸图像分别输入所述多个图像翻译模型，得到针对各人脸图像的第一动漫头像；

从所述第一动漫头像中筛选出正样本动漫头像，其中，所述正样本动漫头像为基于预设评分***标准得到最高评分的第一动漫头像；

采用所述正样本动漫头像和其对应的人脸图像组成人脸-动漫头像对；

采用所述人脸-动漫头像对训练所述多个图像翻译模型；

当满足迭代结束条件后，从训练后的所述多个图像翻译模型中，筛选出目标图像翻译模型。

可选地，所述采用将所述人脸图像数据集和所述动漫图像动漫头像数据集组合为多个训练数据集的步骤包括：

获取所述动漫头像数据集的动漫图像数目；

按照所述动漫图像数目将所述人脸图像数据集划分为多个人脸图像子数据集；所述人脸图像数目与所述动漫头像数据集的动漫图像数目相同；

将各所述人脸图像子数据集与所述动漫头像数据集组合为多个训练数据集。

可选地，所述分别训练无监督图像翻译模型，得到多个图像翻译模型的步骤包括：

将所述多个训练数据集，分别输入到多个无监督图像翻译模型进行迭代训练；

将迭代训练最后i轮训练后的结果模型，作为图像翻译模型，所述图像翻译模型的网络结构相同且权重参数不完全相同，所述i为正整数。

可选地，在从所述各人脸图像的动漫头像中筛选出正样本动漫头像的步骤之后，还包括：

将所述第一动漫头像中除所述正样本动漫头像之外的其他动漫头像，作为负样本动漫头像；

根据所述正样本动漫头像和所述负样本动漫头像，训练二分类网络得到图像质量筛选器。

可选地，在将所述人脸图像数据集中的各人脸图像分别输入所述多个图像翻译模型，得到针对各人脸图像的第一动漫头像的步骤之后，还包括：

将所述第一动漫头像输入所述图像质量筛选器，得到所述第一动漫头像对应的可信值；

通过所述图像质量筛选器过滤所述可信值未达到预设阈值的所述第一动漫头像和对应的人脸图像。

可选地，所述从训练后的所述多个图像翻译模型中，筛选出目标图像翻译模型的步骤包括：

获取测试人脸图像；

将所述测试人脸图像输入训练后的所述多个图像翻译模型中，得到针对各测试人脸图像的第二动漫头像；

从所述第二动漫头像中筛选出目标动漫头像，其中，所述目标动漫头像为基于预设评分***标准得到最高评分的第二动漫头像；

将所述目标动漫头像对应的训练后的图像翻译模型，作为目标图像翻译模型。

可选地，所述迭代结束条件为：迭代次数达到预设次数。

根据本公开实施例的第二方面，提供一种图像翻译方法，所述方法包括：

获取待处理人脸图像；

将所述待处理人脸图像输入图像翻译模型，得到第三动漫头像，其中，所述图像翻译模型为根据上述第一方面的图像翻译模型训练方法得到。

可选地，在将所述待处理人脸图像输入目标图像翻译模型，得到第三动漫头像的步骤之后，所述方法还包括：

将所述第三动漫头像输入图像质量筛选器，得到所述第三动漫头像对应的可信值，其中，所述图像质量筛选器为根据上述的图像翻译模型训练方法得到；

通过所述图像质量筛选器过滤所述可信值未达到预设阈值的所述第三动漫头像和对应的待处理人脸图像。

根据本公开实施例的第三方面，提供一种图像翻译模型训练装置，包括：

数据集获取单元，被配置为获取人脸图像数据集和动漫头像数据集；

图像翻译模型生成单元，被配置为将所述人脸图像数据集和所述动漫头像数据集组合为多个训练数据集，分别训练无监督图像翻译模型，得到多个图像翻译模型；

迭代单元，被配置为将所述人脸图像数据集中的各人脸图像分别输入所述多个图像翻译模型，得到针对各人脸图像的第一动漫头像；从所述第一动漫头像中筛选出正样本动漫头像，其中，所述正样本动漫头像为基于预设评分***标准得到最高评分的第一动漫头像；采用所述正样本动漫头像和其对应的人脸图像组成人脸-动漫头像对；采用所述人脸-动漫头像对训练所述多个图像翻译模型；当满足迭代结束条件后，从训练后的所述多个图像翻译模型中，筛选出目标图像翻译模型；目标图像翻译模型筛选单元，被配置为当满足迭代结束条件后，从训练后的所述多个像翻译模型中，筛选出目标图像翻译模型。

可选地，所述图像翻译模型生成单元，被配置为获取所述动漫头像数据集的动漫图像数目；按照所述动漫图像数目将所述人脸图像数据集划分为多个人脸图像子数据集；所述人脸图像数目与所述动漫头像数据集的动漫图像数目相同；将各所述人脸图像子数据集与所述动漫头像数据集组合为多个训练数据集。

可选地，所述图像翻译模型生成单元，被配置为将各所述人脸图像子数据集与所述动漫头像数据集组合为多个训练数据集，分别输入到多个无监督图像翻译模型进行迭代训练；将迭代训练最后i轮训练后的结果模型，作为图像翻译模型，所述图像翻译模型的网络结构相同且权重参数不完全相同，所述i为正整数。

可选地，所述装置还包括图像质量筛选器训练单元，所述图像质量筛选器训练单元，被配置为将所述第一动漫头像中除所述正样本动漫头像之外的其他动漫头像，作为负样本动漫头像；根据所述正样本动漫头像和所述负样本动漫头像，训练二分类网络得到图像质量筛选器。

可选地，所述迭代单元，被配置为将所述第一动漫头像输入所述图像质量筛选器，得到所述第一动漫头像对应的可信值；通过所述图像质量筛选器过滤所述可信值未达到预设阈值的所述第一动漫头像和对应的人脸图像。

可选地，所述目标图像翻译模型筛选单元，被配置为获取测试人脸图像；将所述测试人脸图像输入训练后的所述多个图像翻译模型中，得到针对各测试人脸图像的第二动漫头像；从所述第二动漫头像中筛选出目标动漫头像，其中，所述目标动漫头像为基于预设评分***标准得到最高评分的第二动漫头像；将所述目标动漫头像对应的训练后的图像翻译模型，作为目标图像翻译模型。

可选地，所述迭代结束条件为：迭代次数达到预设次数。

根据本公开实施例的第四方面，提供一种图像翻译装置，所述装置包括：

人脸图像获取单元，被配置为获取待处理人脸图像；

动漫头像生成单元，被配置为将所述待处理人脸图像输入图像翻译模型，得到第三动漫头像，其中，所述图像翻译模型为根据上述图像翻译模型训练装置得到。

可选地，所述装置还包括：

图像质量筛选器单元，被配置为将所述第三动漫头像输入图像质量筛选器，得到所述第三动漫头像对应的可信值，其中，所述图像质量筛选器为根据上述的图像翻译模型训练装置得到；

动漫头像过滤单元，被配置为通过所述图像质量筛选器过滤所述可信值未达到预设阈值的所述第三动漫头像。

根据本公开实施例的第五方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面和第二方面的实施方式中的方法。

根据本公开实施例的第六方面，提供一种存储介质，包括：当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面和第二方面的实施方式中的方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码被计算机运行时，使得所述计算机执行如第一方面和第二方面的实施方式中的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开的实施例公开了一种图像翻译模型训练方法、装置、电子设备及存储介质，可以通过获取人脸图像数据集和动漫头像数据集，然后采用人脸图像数据集和动漫头像数据集组成多个训练数据集来分别训练无监督图像翻译模型，得到多个图像翻译模型，其中，在得到图像翻译模型，迭代执行如下步骤进行训练：将人脸图像数据集中的各人脸图像分别输入多个图像翻译模型，得到针对各人脸图像的动漫头像，并从动漫头像中基于预设评分***标准筛选出最高评分的正样本动漫头像，与其对应的人脸图像组成人脸-动漫头像对，用于训练多个图像翻译模型，最后，当满足迭代结束条件后，从训练后的多个图像翻译模型中，筛选出目标图像翻译模型。本公开首先可以先训练出多个不同的图像翻译模型，然后从多个不同的图像翻译模型输出的动漫头像中，筛选出优质的正样本动漫头像并与其对应的人脸图像组成人脸-动漫头像对，用于对图像翻译模型进行再训练，在迭代结束后，可以得到稳定性强、成功率高且图像翻译质量高的图像翻译模型。

可选地，本公开还针对图像翻译模型引入了的图像质量筛选器，对于图像翻译模型输出的动漫头像，可以通过图像质量筛选器过滤掉质量较差的动漫头像，使得进入迭代的动漫头像质量较优，从而可以进一步提高图像翻译模型的图像翻译质量。

本公开的实施例还公开了一种图像翻译方法、装置、电子设备及存储介质，在完成图像翻译模型的训练后，可以利用图像翻译模型对待处理人脸图像进行图像翻译得到对应的动漫头像，由于图像翻译模型经过上述的一种图像翻译模型训练方法、装置、电子设备及存储介质所得，因此基于该图像翻译模型所得的动漫头像质量高，对于用户而言体验效果好。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种图像翻译模型训练方法的流程图。

图2是根据一示例性实施例示出的一种多个图像翻译模型获得流程图。

图3是根据一示例性实施例示出的一种训练图像质量筛选器流程图。

图4是根据一示例性实施例示出的一种图像翻译方法的流程图。

图5是根据一示例性实施例示出的一种图像翻译模型的训练的整体流程示意图。

图6是根据一示例性实施例示出的一种图像翻译模型的训练装置的框图。

图7是根据一示例性实施例示出的一种图像翻译装置的框图。

图8是根据一示例性实施例示出的一种电子设备的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在具体实现中，不同图像域(domain)成对的图像对于训练稳定的图像翻译模型至关重要。具体地，对于人脸-动漫头像的转换任务而言，首先，虽然目前采集到包含大量图像的人脸图像数据集和动漫头像数据集，但因二者的风格差异，其中的图像无法一一对应起来；其次，通过画师根据人脸图像画出对应的动漫头像的方法虽然能够有效获得图像对，但会耗费大量的人力物力，成本较高；另外，动漫头像与真实的人脸图像相比，在脸型和五官上均存在一定的变形，这进一步提升了图像翻译模型的训练难度。

目前的技术方案是基于CycleGAN、UNIT、UGATIT等无监督方法通过未配对的图像训练图像翻译模型，再通过该图像翻译模型将人脸图像转换为与之对应的动漫头像，但此方法模型稳定性差，生成动漫头像的质量差，无法快速得到大批量优质的人脸-动漫头像对。

可见，目前的技术方案中，图像翻译模型稳定性差，模型生成的动漫头像瑕疵明显、成功率低，且无法通过定量的指标来自动化过滤效果较差的动漫头像，因而输出的动漫头像存在无法直接作为成对数据用于后续模型训练的问题，因此，本公开提出了一种图像翻译模型训练方法，可以得到稳定性强、成功率高且图像翻译质量高的图像翻译模型，此后可以通过图像翻译模型生成对应的动漫头像，提高用户使用体验。

图1是根据一示例性实施例示出的一种图像翻译模型训练方法的流程图，如图1所示，图像翻译模型的训练方法用于电子设备中，包括以下步骤：

在步骤S11中，获取人脸图像数据集和动漫头像数据集。

本公开可以应用于智能手机、平板电脑或电子设备等具有计算能力的电子设备。

在具体实现中，本公开可以预先采集人脸图像数据集和动漫头像数据集，其中，在人脸图像数据集可以包括人脸图像，比如肖像图、大头照等，在动漫头像数据集中可以包括动漫头像。

在步骤S12中，将所述人脸图像数据集和所述动漫头像数据集组合为多个训练数据集，分别训练无监督图像翻译模型，得到多个图像翻译模型。

本公开可以通过采集的人脸图像数据集和动漫头像数据集，用于训练无监督图像翻译模型，从而得到多个不同的图像翻译模型。

一般情况下，由于动漫头像较少且采集成本较高，因此人脸图像数据集中人脸图像远大于动漫头像数据集中的动漫头像，因此本公开提出将人脸图像数据集分成多个子集与动漫头像数据集组成多个训练数据集，对无监督图像翻译模型进行训练，得到多个不同的图像翻译模型。

需要说明的是，由于本实施例中是采用不同的训练数据集针对同一个原始的无监督图像翻译模型分别进行训练，因此得到的多个图像翻译模型为网络结构相同但是权重参数不完全相同。

为了得到稳定性强、成功率高且图像翻译质量高的图像翻译模型，本实施例对于多个图像翻译模型将迭代执行如下步骤S13至步骤S16进行模型训练。

在步骤S13中，将所述人脸图像数据集中的各人脸图像分别输入所述多个图像翻译模型，得到针对各人脸图像的第一动漫头像。

其中，第一动漫头像是将人脸图像分别输入多个图像翻译模型后转换后的图像，通常人脸图像和第一动漫头像具有相同的轮廓特征，可以理解为将人脸图像转换为具有动漫风格的图像。

需要注意的是，图像翻译模型是具有不完全相同权重参数的卷积神经网络，这些模型虽然网络结构相同，正是如此，同一张人脸图像分别输入各个图像翻译模型后，输出的第一动漫头像是不完全相同的。

在步骤S14中，从所述第一动漫头像中筛选出正样本动漫头像，其中，所述正样本动漫头像为基于预设评分***标准得到最高评分的第一动漫头像。

可以理解，虽然图像翻译模型的网络结构相同，但是由于图像翻译模型权重参数不同，因此将同一人脸图像输入多个图像翻译模型后得到的第一动漫头像质量参差不齐，质量有高有低，因此本公开提出可以针对由同一人脸图像经过不同图像翻译模型生成动漫头像组成动漫头像组，从中筛选出优质的动漫头像作为正样本动漫头像。

正样本动漫头像为基于预设评分***标准筛选所得，具体地，一种预设评分***标准(按优先级排序)为：五官协调(五官位置合理)；发型正确；眼睛清晰；脸型清晰(外轮廓无内陷、且足够平滑)；脸部皮肤无瑕疵；五官完整(不能缺眉毛、嘴巴、鼻子)。根据上述预设评分***标准对于第一动漫头像分别进行评分，然后将基于预设评分***标准得到最高评分的第一动漫头像作为正样本动漫头像。

举例来说，假设有5张动漫头像的动漫头像组，将该组动漫头像展示给相关开发人员，相关开发人员可以通过比对其对应的人脸图像，分别按照上述的预设评分***标准一一进行打分，假设5张动漫头像分别打分为80、72、92、97、51，那么可以选择最高评分为97的动漫头像作为正样本动漫头像。本公开引入人工来参与筛选图像，有助于提升生成动漫头像的主观效果，提高图像翻译模型的图像翻译质量。

需要说明的是，如果在某一个动漫头像组中不存在优质的动漫头像，即该动漫头像组的所有动漫头像劣质，则可以将该组动漫头像全部丢弃，避免劣质的动漫头像进入迭代训练。具体地，可以设置一及格评分，假设及格评分为60，如果动漫头像组中所有的动漫头像打分均低于60，那么就可以将该组动漫头像全部丢弃。

在步骤S15中，采用所述正样本动漫头像和其对应的人脸图像组成人脸-动漫头像对。

本公开在筛选出针对某一人脸图像的优质的正样本动漫头像后，就可以将人脸图像和正样本动漫头像组成人脸-动漫头像对，由于本实施例会进行多次迭代训练，因此可以得到大批量的人脸-动漫头像对。

在步骤S16中，采用所述人脸-动漫头像对训练所述多个图像翻译模型。

在得到大批量的人脸-动漫头像对后，就可以采用人脸-动漫头像对训练多个不同的图像翻译模型，可以理解，由于正样本动漫头像为基于预设评分***标准筛选所得，因此与人脸图像的匹配程度较高，将人脸-动漫头像对用于模型训练，可以提高图像翻译模型的图像翻译质量。

在步骤S17中，当满足迭代结束条件后，从训练后的所述多个图像翻译模型中，筛选出目标图像翻译模型。

需要说明的是，如果尚未满足迭代结束条件，则将继续迭代执行上述的步骤S13至步骤S16，如果满足迭代结束条件，则说明图像翻译模型训练完成可以结束训练。

其中，迭代结束条件可以是迭代次数达到预设次数，或者，接收到迭代结束指令。具体地，当迭代次数达到5次，可以视为满足迭代结束条件。另外，如果相关人员认为可以结束训练，则可以通过电子设备发出迭代结束指令，也可以视为满足迭代结束条件。

对于所得的多个图像翻译模型，本实施例将进一步从多个图像翻译模型中，筛选出目标图像翻译模型，然后可以将该目标图像翻译模型上传到社交平台上，以基于该目标图像翻译模型进行图像翻译，为用户提供图像翻译服务。

本公开的实施例可以先训练出多个不同的图像翻译模型，然后从多个不同的图像翻译模型输出的动漫头像中，筛选出优质的正样本动漫头像并与其对应的人脸图像组成人脸-动漫头像对，用于对图像翻译模型进行再训练，在迭代结束后，可以得到稳定性强、成功率高且图像翻译质量高的图像翻译模型。

在一个可选实施例中，如图2所示，所述将所述人脸图像数据集和所述动漫头像数据集组合为多个训练数据集，分别训练无监督图像翻译模型，得到多个图像翻译模型可以包括如下步骤：

在步骤S21中，获取所述动漫头像数据集的动漫图像数目。

本公开将人脸图像数据集划分为多个人脸图像子数据集再分别结合动漫头像数据集训练无监督图像翻译模型，可以得到多个图像翻译模型。

具体地，由于人脸图像数据集中人脸图像远大于动漫头像数据集中的动漫头像，因此本实施例可以确定动漫头像数据集的动漫图像数目，然后再基于动漫图像数目将人脸图像数据集划分为多个人脸图像子数据集。

在步骤S22中，按照所述动漫图像数目将所述人脸图像数据集划分为多个人脸图像子数据集；所述人脸图像数目与所述动漫头像数据集的动漫图像数目相同。

在步骤S23中，将各所述人脸图像子数据集与所述动漫头像数据集组合为多个训练数据集。

在确定动漫图像数目后，可以基于动漫图像数目将人脸图像数据集划分为多个人脸图像子数据集，其中，多个人脸图像子数据集中的人脸图像数目与动漫图像数目相同。在得到多个人脸图像子数据集，就可以将多个人脸图像子数据集分别与动漫头像数据集进行组合，得到多个训练数据集。

在步骤S24中，将所述多个训练数据集，分别输入到多个无监督图像翻译模型进行迭代训练。

本实施例的多个训练数据集，可以分别输入到多个无监督图像翻译模型进行迭代训练，每一次迭代训练后都可以得到结果模型。

在步骤S25中，将迭代训练最后i轮训练后的结果模型，作为图像翻译模型，所述图像翻译模型的网络结构相同且权重参数不完全相同，所述i为正整数。

本实施例对于多次迭代训练所得的结果模型，可以从中筛选出最后i轮迭代训练时所得的结果模型，作为图像翻译模型。

具体地，首先将人脸图像数据集随机均分为b个人脸图像子数据集(下面简称子集)，每个子集的图像数目与动漫头像数据集的图像数目相同，然后将b个子集分别与动漫头像数据集组合，训练无监督图像翻译模型(如UGATIT)，在进行迭代的训练过程中，每一次迭代都会把当时的结果模型保存下来，取最后保存的i个结果模型作为该子集的i个图像翻译模型，即一个子集进行多次迭代取最后i个模型(i-1个中间结果模型和1个训练结束时的结果模型)，因此b个子集共可以得到b*i个模型，即b*i个图像翻译模型。

在一个可选实施例中，如图3所示，所述方法还可以包括如下步骤训练图像质量筛选器：

在步骤S31中，将所述第一动漫头像中除所述正样本动漫头像之外的其他动漫头像，作为负样本动漫头像。

在本实施例中，由于同一个人脸图像输入到网络结构相同，权重参数不完全相同的图像翻译模型后，将得到多张不同的第一动漫头像，质量参差不齐，因此本公开通过筛选取其中效果最好的一张，作为正样本动漫头像。其中，在同一组的第一动漫头像，除了正样本动漫头像之外，其他的动漫头像将作为负样本动漫头像。

在步骤S32中，根据所述正样本动漫头像和所述负样本动漫头像，训练二分类网络得到图像质量筛选器。

本实施例将正样本动漫头像和负样本动漫头像作为训练数据集，训练二分类网络(如VGG、ResNet等均可)得到图像质量筛选器。可以理解，VGG、ResNet等是一种网络架构，在实际应用中可以根据不同的任务来使用不同的训练数据进行训练，以用于不同的应用场景。

在一个可选实施例中，所述方法还可以包括如下步骤：将所述第一动漫头像输入所述图像质量筛选器，得到所述第一动漫头像对应的可信值；通过所述图像质量筛选器过滤所述可信值未达到预设阈值的所述第一动漫头像和对应的人脸图像。

在本公开中，针对图像翻译模型设置了图像质量筛选器，通过图像质量筛选器可以初步剔除质量较差的图像。具体地，图像质量筛选器具有一个自动筛选生成的动漫头像的功能，其本质是一个二分类深度神经网络。

当在图像翻译模型训练得到第一动漫头像后，可以将第一动漫头像输入到图像质量筛选器，得到各第一动漫头像对应的可信值，如果第一动漫头像的可信值未达到预设阈值，那么会将可信值未达到预设阈值的第一动漫头像和对应的人脸图像过滤掉，不需参与后续的正样本动漫头像的筛选，从而可以减少人工审核的任务量，提高整体效率。

具体地，针对图像质量筛选器可以事先设置一个阈值(比如0.5)，图像质量筛选器会针对不同的第一动漫头像输出0～1之间的数值，可信值大于这个阈值则输出1，表示该第一动漫头像可以参与后续的正样本动漫头像的筛选，可信值小于这个阈值则输出0，表示该第一动漫头像无需参与后续的正样本动漫头像的筛选。

在一个可选实施例中，所述从训练后的所述多个图像翻译模型中，筛选出目标图像翻译模型的步骤包括如下步骤：获取测试人脸图像；将所述测试人脸图像输入训练后的所述多个图像翻译模型中，得到针对各测试人脸图像的第二动漫头像；从所述第二动漫头像中筛选出目标动漫头像，其中，所述目标动漫头像为基于预设评分***标准得到最高评分的第二动漫头像；将所述目标动漫头像对应的训练后的图像翻译模型，作为目标图像翻译模型。

在得到多个图像翻译模型并完成迭代训练后，为了进一步从多个图像翻译模型筛选出能够翻译出高质量动漫头像的目标图像翻译模型，可以获取到测试人脸图像，然后将测试人脸图像分别输入到训练后的多个图像翻译模型中得到第二动漫头像，对于第二动漫头像，可以采用如前述的预设评分***标准分别进行评分，然后将评分最高的第二动漫头像对应的图像翻译模型，作为目标图像翻译模型。由于评分过程与正样本动漫头像的评分过程较为相似，就不再赘述了。

本实施例通过预设评分***标准筛选正样本动漫头像以对图像翻译模型进行多次迭代训练，所得的图像翻译模型成功率和稳定性高，此外，本实施例目标图像翻译模型通过预设评分***标准筛选进行筛选，使得有助于提升生成动漫头像的主观效果，故而能够得到对用户而言，图像翻译质量高的目标图像翻译模型。

图4是根据一示例性实施例示出的一种图像翻译方法的流程图，如图4所示，图像翻译方法用于电子设备中，包括以下步骤：

在步骤S41中，获取待处理人脸图像。

在步骤S42中，将所述待处理人脸图像输入图像翻译模型，得到第三动漫头像，其中，所述图像翻译模型为根据上述图像翻译模型训练方法得到。

本实施例基于上述方法实施例得到图像翻译模型后，可以应用于社交平台上为用户提供图像翻译服务。例如，对于想要修改自己头像的用户，只需要登录社交平台，然后通过社交平台输入自己的人脸图像(待处理人脸图像)，社交平台会将该待处理人脸图像输入到图像翻译模型，得到第三动漫头像，由于本实施所使用的图像翻译模型经一系列训练后，所得到的稳定性强、成功率高且图像翻译质量高的图像翻译模型，因此基于该图像翻译模型可以得到图像翻译质量高的动漫头像。

在一个可选实施例中，在将所述待处理人脸图像输入目标图像翻译模型，得到第三动漫头像的步骤之后，所述方法还可以包括如下步骤：将所述第三动漫头像输入图像质量筛选器，得到所述第三动漫头像对应的可信值，其中，所述图像质量筛选器为根据上述图像翻译模型训练方法得到；通过所述图像质量筛选器过滤所述可信值未达到预设阈值的所述第三动漫头像和对应的待处理人脸图像。

将待处理人脸图像输入图像翻译模型后，所得到第三动漫头像通常可以为多个，为了减少用户筛选过程，本实施例还可以通过图像质量筛选器确定第三动漫头像的可信值，然后将可信值为达到预设阈值的第三动漫头像过滤掉，以为用户提供质量更优的第三动漫头像，减少用户筛选过程。

为了使本领域技术人员更好地理解本公开，下面采用具体示例进行说明，参照图5，是根据一示例性实施例示出的一种图像翻译模型训练的整体流程示意图，本公开由无监督模型训练、动漫头像生成、图像质量筛选器过滤、人工审核、图像质量筛选器训练几个部分迭代完成。

1.将人脸图像数据集随机均分为b个子集(Batch1、Batch2和Batch3……)，每个子集的人脸图像的数目与动漫头像数据集动漫头像的数目相近。将各子集分别与动漫头像数据集作为一组，迭代训练无监督图像翻译模型(如UGATIT)，取每组训练最后i轮迭代得到的模型，共得到b*i个模型(即图像翻译模型，图中的Model1、Model2、Model3和Model4)。

2.将人脸图像数据集(共包含N张图像)中的每张人脸图像分别通过b*i个模型，共得到N组动漫头像，每组动漫头像包含由同一人脸图像经过不同模型生成的b*i张动漫头像，例如，图5中示出了三组动漫头像，分别是{Out1_1，Out1_2，Out1_3，Out1_4……}、{Out2_1，Out2_2，Out2_3，Out2_4……}、{Out3_1，Out3_2，Out3_3，Out3_4……}。

3.通过人工审核的方式，挑选出每组动漫头像中效果最好的一张动漫头像，若该组图像质量均较差则全部丢弃，得到优质的正样本动漫头像O_g(即图中的优质生成动漫头像)和劣质的负样本动漫头像O_b(即图中的劣质生成动漫头像)。

4.将优质的正样本动漫头像O_g作为正样本，劣质的负样本动漫头像O_b作为负样本，训练图像质量筛选器F。

5.将优质的正样本动漫头像O_g与其对应的原始的人脸图像I_g组成成对的人脸-动漫头图像对，利用配对训练的方式精调第1步得到的b*i个模型。

6.重复第2-5步，并在第3步人工审核之前利用上一轮训练得到的图像质量筛选器F，初步剔除质量较差的图像后再人工审核，以降低人工审核的任务量。

7.通过上述的多次迭代，最终得到稳定性强、图像翻译质量高的图像翻译模型和图像质量筛选器F。可选地，还可以进一步通过人工审核的方式，从迭代完成后的b*i个模型中筛选出目标图像翻译模型。

后续，就可以在各个社交平台上利用目标图像翻译模型，针对用户提供的人脸图像快速生成对应的动漫头像，并且还可以通过图像质量筛选器过滤质量较差的动漫头像，使得为用户生成与其提供的人脸图像对应的动漫头像，提高用户体验感。

本公开的技术方案所得的图像翻译模型稳定性强、成功率高且生成动漫头像的翻译质量高。除此之外，本公开的技术方案在提高图像翻译质量的基础上，还引入了图像质量筛选器，用于剔除生成的效果较差的动漫头像，从而进一步提升生成的迭代时训练数据的质量，以进一步提高模型的稳定性、成功率和图像翻译质量。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

图6是根据一示例性实施例示出的一种图像翻译模型的训练装置框图。参照图6，该装置包括数据集获取单元61，图像翻译模型生成单元62，迭代单元63和模型筛选单元64。

数据集获取单元61，被配置为获取人脸图像数据集和动漫头像数据集；

图像翻译模型生成单元62，被配置为将所述人脸图像数据集和所述动漫头像数据集组合为多个训练数据集，分别训练无监督图像翻译模型，得到多个图像翻译模型；

迭代单元63，被配置为将所述人脸图像数据集中的各人脸图像分别输入所述多个图像翻译模型，得到针对各人脸图像的第一动漫头像；从所述第一动漫头像中筛选出正样本动漫头像，其中，所述正样本动漫头像为基于预设评分***标准得到最高评分的第一动漫头像；采用所述正样本动漫头像和其对应的人脸图像组成人脸-动漫头像对；采用所述人脸-动漫头像对训练所述多个图像翻译模型；当满足迭代结束条件后，从训练后的所述多个图像翻译模型中，筛选出目标图像翻译模型；

模型筛选单元64，被配置为当满足迭代结束条件后，从训练后的所述多个像翻译模型中，筛选出目标图像翻译模型。

在一个实施例中，所述图像翻译模型生成单元62，被配置为获取所述动漫头像数据集的动漫图像数目；按照所述动漫图像数目将所述人脸图像数据集划分为多个人脸图像子数据集；所述人脸图像数目与所述动漫头像数据集的动漫图像数目相同；将各所述人脸图像子数据集与所述动漫头像数据集组合为多个训练数据集。

在一个实施例中，所述图像翻译模型生成单元62，被配置为将所述多个训练数据集，分别输入到多个无监督图像翻译模型进行迭代训练；将迭代训练最后i轮训练后的结果模型，作为图像翻译模型，所述图像翻译模型的网络结构相同且权重参数不完全相同，所述i为正整数。

在一个实施例中，所述装置还包括图像质量筛选器训练单元，所述图像质量筛选器训练单元，被配置为将所述第一动漫头像中除所述正样本动漫头像之外的其他动漫头像，作为负样本动漫头像；根据所述正样本动漫头像和所述负样本动漫头像，训练二分类网络得到图像质量筛选器。

在一个实施例中，所述迭代单元63，被配置为将所述第一动漫头像输入所述图像质量筛选器，得到所述第一动漫头像对应的可信值；通过所述图像质量筛选器过滤所述可信值未达到预设阈值的所述第一动漫头像和对应的人脸图像。

在一个实施例中，所述目标图像翻译模型筛选单元64，被配置为获取测试人脸图像；将所述测试人脸图像输入训练后的所述多个图像翻译模型中，得到针对各测试人脸图像的第二动漫头像；从所述第二动漫头像中筛选出目标动漫头像，其中，所述目标动漫头像为基于预设评分***标准得到最高评分的第二动漫头像；将所述目标动漫头像对应的训练后的图像翻译模型，作为目标图像翻译模型。

在一个实施例中，所述迭代结束条件为：迭代次数达到预设次数。

图7是根据一示例性实施例示出的一种图像翻译模型的训练装置框图。参照图7，该装置包括数据人脸图像获取单元71和动漫头像生成单元72。

人脸图像获取单元71，被配置为获取待处理人脸图像；

动漫头像生成单元72，被配置为将所述待处理人脸图像输入图像翻译模型，得到第三动漫头像，其中，所述图像翻译模型为根据上述图像翻译模型训练装置得到。

在一个实施例中，所述装置还包括：

图像质量筛选器单元，被配置为将所述第三动漫头像输入图像质量筛选器，得到所述第三动漫头像对应的可信值，其中，所述图像质量筛选器为根据上述图像翻译模型训练装置得到；动漫头像过滤单元，被配置为通过所述图像质量筛选器过滤所述可信值未达到预设阈值的所述第三动漫头像。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种电子设备，该电子设备可以是终端，其内部结构图可以如图8所示。该电子设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像翻译模型训练方法和图像翻译方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本公开还提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现上述图像翻译模型训练方法和图像翻译方法实施例中对应的各个步骤和/或流程。

本公开还提供了一种存储介质，包括：当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述图像翻译模型训练方法和图像翻译方法实施例中对应的各个步骤和/或流程。

本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序代码，当计算机程序代码被计算机运行时，使得计算机执行上述图像翻译模型训练方法和图像翻译方法实施例中对应的各个步骤和/或流程。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像翻译模型训练方法，其特征在于，包括：

获取人脸图像数据集和动漫头像数据集；

针对所述多个图像翻译模型，迭代执行如下步骤进行训练：

采用所述人脸-动漫头像对训练所述多个图像翻译模型；

2.根据权利要求1所述的图像翻译模型训练方法，其特征在于，所述采用将所述人脸图像数据集和所述动漫图像动漫头像数据集组合为多个训练数据集的步骤包括：

获取所述动漫头像数据集的动漫图像数目；

3.根据权利要求2所述的图像翻译模型训练方法，其特征在于，所述分别训练无监督图像翻译模型，得到多个图像翻译模型的步骤包括：

4.根据权利要求1所述的图像翻译模型训练方法，其特征在于，在从所述各人脸图像的动漫头像中筛选出正样本动漫头像的步骤之后，还包括：

5.根据权利要求4所述的图像翻译模型训练方法，其特征在于，在将所述人脸图像数据集中的各人脸图像分别输入所述多个图像翻译模型，得到针对各人脸图像的第一动漫头像的步骤之后，还包括：

6.一种图像翻译方法，其特征在于，所述方法包括：

获取待处理人脸图像；

将所述待处理人脸图像输入图像翻译模型，得到第三动漫头像，其中，所述图像翻译模型为根据权利要求1至5中任一项所述的图像翻译模型训练方法得到。

7.一种图像翻译模型训练装置，其特征在于，包括：

迭代单元，被配置为将所述人脸图像数据集中的各人脸图像分别输入所述多个图像翻译模型，得到针对各人脸图像的第一动漫头像；从所述第一动漫头像中筛选出正样本动漫头像，其中，所述正样本动漫头像为基于预设评分***标准得到最高评分的第一动漫头像；采用所述正样本动漫头像和其对应的人脸图像组成人脸-动漫头像对；采用所述人脸-动漫头像对训练所述多个图像翻译模型；当满足迭代结束条件后，从训练后的所述多个图像翻译模型中，筛选出目标图像翻译模型；

模型筛选单元，被配置为当满足迭代结束条件后，从训练后的所述多个像翻译模型中，筛选出目标图像翻译模型。

8.一种图像翻译装置，其特征在于，所述装置包括：

人脸图像获取单元，被配置为获取待处理人脸图像；

动漫头像生成单元，被配置为将所述待处理人脸图像输入图像翻译模型，得到第三动漫头像，其中，所述图像翻译模型为根据权利要求1至5中任一项所述的图像翻译模型训练方法得到。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一项所述的图像翻译模型训练方法，或者，如权利要求6中所述的图像翻译方法。

10.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至5中任一项所述的图像翻译模型训练方法，或者，如权利要求6所述的图像翻译方法。