CN112184886B

CN112184886B - 一种图像处理方法、装置、计算机设备及存储介质

Info

Publication number: CN112184886B
Application number: CN202011042591.0A
Authority: CN
Inventors: 赵鑫; 邱学侃
Original assignee: Beijing Lexuebang Network Technology Co Ltd
Current assignee: Beijing Lexuebang Network Technology Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2024-04-09
Anticipated expiration: 2040-09-28
Also published as: CN112184886A

Abstract

本公开提供了一种图像处理方法、装置、计算机设备及存储介质，其中，该方法包括：获取包括第一目标对象的第一图像、以及包括第一目标服装的第二图像；对第一图像和第二图像分别进行语义分割处理，得到第一图像的第一语义分割结果、以及第二图像的第二语义分割结果；以及对第一图像和第二图像分别进行特征提取处理，得到第一图像的第一特征图、以及第二图像的第二特征图；基于第一语义分割结果、以及第二语义分割结果，对第一特征图和第二特征图进行特征融合处理，得到融合特征图；基于融合特征图，得到目标图像。本公开实施例利用对目标对象拍摄的图像进行处理实现对目标对象的换装，不需要对人体预先进行三维重建，效率较高。

Description

一种图像处理方法、装置、计算机设备及存储介质

技术领域

本公开涉及机器学习技术领域，具体而言，涉及一种图像处理方法、装置、计算机设备及存储介质。

背景技术

虚拟换装技术能够将人体姿势图像以及服装图像进行图像融合，在人体姿势不变的情况下，使得人体穿着的服装呈现与服装图像中的服装相同的效果。

当前的虚拟换装方法需要预先对换装的目标对象进行多角度拍摄，重建目标对象的三维模型，依据该三维模型，实现对目标对象的虚拟换装。这种方法由于需要为目标对象建立三维模型，需要大量前期工作，效率较低。

发明内容

本公开实施例至少提供一种图像处理方法、装置、计算机设备及存储介质。

第一方面，本公开实施例提供了一种图像处理方法，包括：

获取包括第一目标对象的第一图像、以及包括第一目标服装的第二图像；

对所述第一图像和所述第二图像分别进行语义分割处理，得到所述第一图像的第一语义分割结果、以及所述第二图像的第二语义分割结果；以及对所述第一图像和所述第二图像分别进行特征提取处理，得到所述第一图像的第一特征图、以及所述第二图像的第二特征图；

基于所述第一语义分割结果、以及所述第二语义分割结果，对所述第一特征图和所述第二特征图进行特征融合处理，得到融合特征图；

基于所述融合特征图，得到目标图像。

在一种可选的实施方式中，所述基于所述第一语义分割结果、以及所述第二语义分割结果，对所述第一特征图和所述第二特征图进行特征融合处理，得到融合特征图，包括：

基于所述第一语义分割结果、以及所述第一特征图，确定所述目标对象的多个第一部位中每个第一部位对应的第一特征子图；

基于所述第二语义分割结果、以及所述第二特征图，确定所述目标服装的多个第二部位中每个第二部位对应的第二特征子图；

将所述第一特征子图和所述第二特征子图进行特征融合，得到所述融合特征图。

在一种可选的实施方式中，基于所述第一语义分割结果、以及所述第一特征图，确定所述目标对象的多个第一部位中每个第一部位对应的第一特征子图，包括：

基于所述第一语义分割结果，从所述第一图像中，确定所述每个第一部位对应的目标像素点；

基于所述第一图像中像素点、与所述第一特征图中特征点之间的映射关系，从所述第一特征图中，确定与所述目标像素点对应的目标特征点；

基于所述目标特征点、以及所述第一特征图，确定所述每个第一部位对应的第一特征子图。

在一种可选的实施方式中，将所述第一特征子图和所述第二特征子图进行特征融合，得到所述融合特征图，包括：

针对所述每个第一部位，从多个第二部位中，确定与所述每个第一部位匹配的目标第二部位；

将所述第一部位对应的第一特征子图、与所述目标第二部位对应的第二特征子图进行第一融合处理，得到所述每个第一部位对应的中间融合特征图；

将所述多个第一部位分别对应的中间融合特征图进行第二融合处理，得到所述融合特征图。

在一种可选的实施方式中，基于所述融合特征图，得到目标图像，包括：

对所述融合特征图进行解码处理，得到所述目标图像。

在一种可选的实施方式中，对所述第一图像和所述第二图像分别进行语义分割处理，包括：

利用预先训练的语义分割模型，对所述第一图像和所述第二图像分别进行语义分割处理，得到所述第一语义分割结果、以及所述第二语义分割结果。

在一种可选的实施方式中，对所述第一图像和所述第二图像分别进行特征提取处理，包括：

利用预先训练的特征提取网络，对所述第一图像、及所述第二图像分别进行特征提取处理，得到所述第一图像的第一特征图、以及所述第二图像的第二特征图；

在一种可选的实施方式中，所述基于所述融合特征图，得到目标图像，包括：

利用预先训练的解码器，对所述融合特征图进行解码处理，得到所述目标图像。

在一种可选的实施方式中，训练所述特征提取网络以及所述解码器，包括：

获取多张包括第二目标对象的第一样本图像、以及包括第二目标服装的第二样本图像；

利用待训练的特征提取网络，对所述第一样本图像、及第二样本图像进行特征提取处理，得到所述第一样本图像的第一样本特征图、及所述第二样本图像的第二样本特征图；

以及，对所述第一样本图像和所述第二样本图像进行语义分割处理，得到所述第一样本图像的第一样本语义分割结果、以及所述第二样本图像的第二样本语义分割结果；

基于所述第一样本语义分割结果、以及所述第二样本语义分割结果，对所述第一样本特征图和所述第二样本特征图进行特征融合处理，得到样本融合特征图；

利用待训练的解码器，对所述样本融合特征图进行解码处理，得到样本生成图像；

基于所述样本生成图像，以及所述样本图像，确定模型损失；并基于所述模型损失，对所述待训练的特征提取网络和所述待训练解码器进行训练；

经过对所述待训练的特征提取网络和所述待训练解码器的多轮训练，得到训练好的所述特征提取网络以及训练好的所述解码器。

在一种可选的实施方式中，基于所述样本生成图像，以及所述样本图像，确定模型损失，包括：

将所述样本生成图像作为新的第一样本图像，将所述样本生成图像对应的第一样本图像作为新的第二样本图像；

利用待训练的特征提取网络、以及所述待训练的编码器，基于所述新的第一样本图像和所述新的第二样本图像，得到所述新的第一样本图像的新的生成图像；

基于所述新的生成图像、以及所述样本生成图像对应的第一样本图像，确定所述模型损失；所述模型损失包括下述至少一种损失：装扮损失、风格损失、以及人脸损失。

在一种可选的实施方式中，在所述模型损失包括装扮损失的情况下，所述基于所述新的生成图像、以及所述样本生成图像对应的第一样本图像，确定所述模型损失，包括：

基于所述新的生成图像、和所述述样本生成图像对应的第一样本图像之间的装扮差异度，确定所述装扮损失。

在一种可选的实施方式中，在所述模型损失包括风格损失的情况下，所述基于所述新的生成图像、以及所述样本生成图像对应的第一样本图像，确定所述模型损失，包括：

基于所述新的生成图像，确定所述新的生成图像的第一风格信息；

并基于所述述样本生成图像对应的第一样本图像，确定所述第一样本图像的第二风格信息；

基于所述第一风格信息以及所述第二风格信息，确定所述风格损失。

在一种可选的实施方式中，在所述模型损失包括人脸损失的情况下，所述基于所述新的生成图像、以及所述样本生成图像对应的第一样本图像，确定所述模型损失，包括：

基于所述新的生成图像、和所述述样本生成图像对应的第一样本图像之间的人脸差异度，确定所述装扮损失。

在一种可选的实施方式中，训练所述特征提取网络以及所述解码器，还包括：

利用判别器对所述样本生成图像进行判别处理，得到所述样本生成图像是否为生成图像的判别结果；

基于所述判别结果，对判别器、以及由所述待训练的特征提取网络和所述待训练解码器构成的生成器进行对抗训练。

第二方面，本公开实施例还提供一种图像处理装置，包括：

获取模块，用于获取包括第一目标对象的第一图像、以及包括第一目标服装的第二图像；

处理模块，用于对所述第一图像和所述第二图像分别进行语义分割处理，得到所述第一图像的第一语义分割结果、以及所述第二图像的第二语义分割结果；以及对所述第一图像和所述第二图像分别进行特征提取处理，得到所述第一图像的第一特征图、以及所述第二图像的第二特征图；

特征融合模块，用于基于所述第一语义分割结果、以及所述第二语义分割结果，对所述第一特征图和所述第二特征图进行特征融合处理，得到融合特征图；

确定模块，用于基于所述融合特征图，得到目标图像。

在一种可选的实施方式中，所述特征融合模块在基于所述第一语义分割结果、以及所述第二语义分割结果，对所述第一特征图和所述第二特征图进行特征融合处理，得到融合特征图时，用于：

在一种可选的实施方式中，所述特征融合模块在基于所述第一语义分割结果、以及所述第一特征图，确定所述目标对象的多个第一部位中每个第一部位对应的第一特征子图时，用于：

在一种可选的实施方式中，所述特征融合模块在将所述第一特征子图和所述第二特征子图进行特征融合，得到所述融合特征图时，用于：

在一种可选的实施方式中，所述确定模块在基于所述融合特征图，得到目标图像时，用于：

对所述融合特征图进行解码处理，得到所述目标图像。

在一种可选的实施方式中，所述处理模块在对所述第一图像和所述第二图像分别进行语义分割处理时，用于：

在一种可选的实施方式中，所述处理模块在对所述第一图像和所述第二图像分别进行特征提取处理时，用于：

在一种可选的实施方式中，还包括：训练模块，用于采用下述方式训练所述特征提取网络以及所述解码器：

在一种可选的实施方式中，所述训练模块在基于所述样本生成图像，以及所述样本图像，确定模型损失时，用于：

在一种可选的实施方式中，所述训练模块在所述模型损失包括装扮损失的情况下，基于所述新的生成图像、以及所述样本生成图像对应的第一样本图像，确定所述模型损失时，用于：

在一种可选的实施方式中，所述训练模块在所述模型损失包括风格损失的情况下，基于所述新的生成图像、以及所述样本生成图像对应的第一样本图像，确定所述模型损失时，用于：

在一种可选的实施方式中，所述训练模块在所述模型损失包括人脸损失的情况下，基于所述新的生成图像、以及所述样本生成图像对应的第一样本图像，确定所述模型损失时，用于：

在一种可选的实施方式中，所述训练模块在训练所述特征提取网络以及所述解码器时，还用于：

第三方面，本公开可选实现方式还提供一种计算机设备，处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开可选实现方式还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

关于上述图像处理装置、计算机设备、及计算机可读存储介质的效果描述参见上述图像处理方法的说明，这里不再赘述。

本公开实施例提供的一种图像处理方法、装置、计算机设备及存储介质，通过对包括第一目标对象的第一图像、以及第一目标服装的第二图像分别进行语义分割处理和特征提取处理，然后基于语义分割的结果，将第一图像的第一特征图和第二图像的第二特征图进行融合，从而基于融合了第一目标服装相关特征的融合特征图，得到目标图像，与现有技术中的需要预先耗费较多时间对目标对象建立三维模型相比，其直接利用对目标对象拍摄的图像进行处理实现对目标对象的换装，效率较高。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种图像处理方法的流程图；

图2示出了本公开实施例所提供的图像处理方法中，基于第一语义分割结果、以及第二语义分割结果，对第一特征图和第二特征图进行特征融合处理，得到融合特征图的具体方法的流程图；

图3示出了本公开实施例所提供的一种基于第一语义分割结果、以及第一特征图，确定目标对象的多个第一部位中每个第一部位对应的第一特征子图的具体方法的流程图；

图4示出了本公开实施例所提供的一种训练特征提取网络以及所码器的具体方法的流程图；

图5示出了本公开实施例所提供的一种基于样本生成图像，以及样本图像，确定模型损失的方法的流程图；

图6示出了本公开实施例所提供的一种图像处理装置的示意图；

图7示出了本公开实施例所提供的一种计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

经研究发现，虚拟换装技术在很多领域具有广泛的应用，例如具有美颜功能的拍照软件可以在用户界面中显示用户身着不同的服饰，或者在网络授课时，教师根据教学内容的不同身着不同的服饰。当前的虚拟换装方法需要预先对准备进行虚拟换装的目标对象进行多角度的拍摄，以重建目标对象的三维模型，并依据该三维模型，实现对目标对象的虚拟换装。这种方法由于需要预先对目标对象建立三维模型，故需要耗费较多时间完成大量的前期准备工作，效率较低。

基于上述研究，本公开提供了一种图像处理方法，通过对包括第一目标对象的第一图像、以及第一目标服装的第二图像分别进行语义分割处理和特征提取处理，然后基于语义分割的结果，将第一图像的第一特征图和第二图像的第二特征图进行融合，从而基于融合了第一目标服装相关特征的融合特征图，得到目标图像，该过程直接对用户进行图像拍摄即可，效率较高。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种图像处理方法进行详细介绍，本公开实施例所提供的图像处理方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该图像处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面以对进行在线授课的教师的换装为例对本公开实施例提供的图像处理方法加以说明。

需要说明的是，本公开实施例中提及的在线授课可包括直播课和录播课等，对此不做限定。

参见图1所示，为本公开实施例提供的图像处理方法的流程图，方法包括步骤S101～S104，其中：

S101：获取包括第一目标对象的第一图像、以及包括第一目标服装的第二图像；

S102：对第一图像和第二图像分别进行语义分割处理，得到第一图像的第一语义分割结果、以及第二图像的第二语义分割结果；以及对第一图像和第二图像分别进行特征提取处理，得到第一图像的第一特征图、以及第二图像的第二特征图；

S103：基于第一语义分割结果、以及第二语义分割结果，对第一特征图和第二特征图进行特征融合处理，得到融合特征图；

S104：基于融合特征图，得到目标图像。

本公开实施例基于对包括第一目标对象的第一图像的语义分割结果、以及对包括第一目标服装的第二图像的语义分割结果，将第一目标服装的特征、以及第一目标对象的特征融合在一起，形成融合特征图，从而使得基于融合特征图得到的目标图像，既能够呈现第一目标对象的特征，又能够呈现出第一目标服装的特征，因而不需要再对人体预先进行三维重建，而是直接利用对目标对象拍摄的图像进行处理实现对目标对象的换装，效率较高。

下面对上述S101～S104加以详细说明。

针对上述S101，第一目标对象为在线授课的教师，第一图像可以是教师在在线授课时，基于拍摄设备(如摄像机等)拍摄的授课视频获取的视频帧图像。在其他的应用场景中，第一图像可以是包括至少一人的任意图像。

示例性的，在需要向观看在线课程的用户(如学生、学员等)推送较高质量授课视频的情况下，可以通过对拍摄的授课视频逐帧抽取视频帧图像的方式获取第一图像，通过这种方式生成的视频质量较高；或者，在需要减少运算量，以更快地向观看在线课程的用户推送授课视频的情况下，可以通过按照预设的时间间隔从拍摄的授课视频中抽取视频帧图像的方式获取第一图像；或者，可以基于判断出的视频帧中像素点有较大变化的时刻，获取第一图像；其中，像素点发生较大变化的情况包括下述至少一种：教师在授课过程中有较大的动作幅度变化、及教师位置变化。具体的方式可以按照实际情况进行选取，在此不再赘述。

第一目标服装为根据教学内容的不同，教师可以自主选定的授课装扮，具体可开始上课之前选定，也支持在授课过程中根据需要随时换装。示例性的，在教师教授古代文学的情况下，教师可以着古代服饰，第一目标服装即为古代服饰。

包括第一目标服装的第二图像例如为人或人体模型身着目标服装的图像，或为仅包含目标服装的图像(不包括身着目标服装的任何真实人体或者人体模型)。

针对上述S102：

(1)：对第一图像进行语义分割处理得到的第一语义分割结果中，包括了第一图像中多个像素点分别所属人体部位的指示标识；在对第二图像进行语义分割处理得到的第二语义分割结果中，包括第二图像中多个像素点所在服装区域的指示标识；其中，不同服装区域对应不同的人体部位。

本公开实施例提供一种对第一图像和第二图像分别进行语义分割处理的具体方法，包括：利用预先训练的语义分割模型，对第一图像和第二图像分别进行语义分割处理，得到第一图像对应的第一语义分割结果、以及第二图像对应的第二语义分割结果。

此时，语义分割模型包括下述至少一种：卷积神经网络(Convolutional NeuralNetwork，CNN)、完全卷积网络(Fully Convolutional Networks，FCN)。在利用预先训练的语义分割模型，对第一图像和第二图像进行语义分割处理时，以对第一图像进行语义分割处理为例，例如可以为人体的不同部位分别设置不同的标号；示例性的，在第一图像的分辨率为1024×1024，也即第一图像中包含1024×1024个像素点的情况下，若将对第一图像划分为背景、四肢、头部、及躯干，可以对背景、四肢、头部、及躯干分别标号为0、1、2、3，则利用预先训练的语义分割模型得到第一图像的第一语义分割结果包含与第一图像中的1024×1024个像素点分别对应的1024×1024个标号。以第一图像中的一个像素点为例，若此像素点表征背景，则在第一语义分割结果中与此第一图像中的像素点对应位置的标号为0。利用语义分割模型对第二图像进行语义分割处理得到第二语义分割结果的过程与上述利用语义分割模型对第一图像进行语义分割处理得到第一语义分割结果的过程类似，在此不再赘述。

需要说明的是，在对精度要求的场景中，还可将第一图像和第二图像划分成更细节的部分，如对第一图像的划分包括：背景、四肢、头部、躯干、头发等，对第二图像的划分包括：衣领、袖子、饰品、口袋等，对此不做限定。

(2)：本公开实施例还提供一种对第一图像和第二图像分别进行特征提取处理的具体方法，包括：利用预先训练的特征提取网络，对第一图像、及第二图像分别进行特征提取处理，得到第一图像的第一特征图、以及第二图像的第二特征图。

其中，特征提取网络包括下述至少一种：卷积神经网络和变换神经网络(Transformer)。以CNN作为预先训练的特征提取网络为例，在第一图像的分辨率为1024×1024的情况下，CNN利用卷积的方法可以得到与第一图像对应的第一特征图，且第一特征图例如可以包含64×64个特征点。

得到第二图像的第二特征图的过程，与得到第一图像的第一特征图的过程类似，在此不再赘述。

针对上述S103：

参见图2所示，本公开实施例提供了一种基于第一语义分割结果、以及第二语义分割结果，对第一特征图和第二特征图进行特征融合处理，得到融合特征图的具体方法，包括：

S201：基于第一语义分割结果、以及第一特征图，确定目标对象的多个第一部位中每个第一部位对应的第一特征子图。

示例性的，对于第一图像，可以依据对第一图像的划分，将第一图像中的目标对象划分为四肢、头部、及躯干作为多个第一部位。

由于CNN网络对第一图像进行至少一级卷积得到第一特征图，基于卷积过程，可以建立第一特征图中特征点与第一图像中像素点之间的映射关系；同时，第一特征图和第一语义分割结果构成的第一图分割图像之间也具有映射关系；基于该第一图像和第一特征图之间的映射关系、以及第一图像和第一语义分割图像之间的映射关系，即能够为每个第一部位确定对应的第一特征子图。

示例性的，参见图3所示，本公开实施例提供了一种基于第一语义分割结果、以及第一特征图，确定目标对象的多个第一部位中每个第一部位对应的第一特征子图的具体方法，包括：

S301：基于第一语义分割结果，从第一图像中，确定每个第一部位对应的目标像素点；

S302：基于第一图像中像素点、与第一特征图中特征点之间的映射关系，从第一特征图中，确定与目标像素点对应的目标特征点；

S303：基于目标特征点、以及第一特征图，确定每个第一部位对应的第一特征子图。

在确定了多个第一部位的情况下，可以基于利用语义分割模型对第一图像进行语义分割时预先设定的编号，确定每个第一部位对应的目标像素点。以多个第一部位中的一个第一部位为例，在此第一部位为四肢、且对应的标号为1时，通过查询第一语义分割结果中与第一图像中各个像素点对应位置的标号，可以确定第一语义分割结果中所有标号为1的位置。由于第一语义分割结果中的各个位置与第一图像中的像素点分别对应，故可以依据第一语义分割结果中所有标号为1的位置，确定在第一图像中对应的像素点，也即第一部位为四肢时对应的目标像素点。

由于第一特征图与第一图像之间存在映射关系，故依据第一图像确定的目标像素点，可以确定在第一特征图中当第一部位为四肢时对应的第一特征子图。

其中，第一特征子图包含的特征点仅反映第一特征图中的第一部位。示例性的，在第一特征图包含64×64个特征点的情况下，四肢在第一特征图中对应的特征点例如存在100个，且此100个第一特征图中的特征点在第一特征图中的位置确定，则将此100个特征点确定为在第一特征图中目标像素点对应的目标特征点。

示例性的，在第一特征子图包含64×64个特征点的情况下，将第一特征子图中与目标特征点对应位置特征点的数值确定为第一特征图中对应特征点的数值，其余位置利用“0”进行掩码，得到四肢对应的第一特征子图。

确定第一部位中的头部、躯干对应的第一特征子图的方法与上述确定躯干对应的第一特征子图的方法类似，在此不再赘述。

示例性的，假设第一图像表示为：对第一图像进行语义分割处理，得到的第一语义分割图像表示为：/>

对第一图像进行特征提取处理，得到的第一特征图表示为：其中，c₁₁是基于/>确定的；c₁₂是基于/>确定的；c₁₃是基于/>确定的；c₂₁是基于/>确定的；c₂₂是基于/>确定的；c₂₃是基于/>确定的。

假设，第一语义分割图像中，b₁₁、b₁₂的标号均表征为人体的头部，由于b₁₁、b₁₂分别对应的a₁₁、a₁₂与c₁₁、c₁₂具有映射关系，则得到人体头部对应的特征子图为：

需要说明的是，上述示例仅为示出得到特征子图的原理，并不对本开实施例提供的图像处理方法造成任何限定。

承接上述S201，本公开实施例提供的对第一特征图和第二特征图进行特征融合处理，得到融合特征图的方法还包括：

S202：基于第二语义分割结果、以及第二特征图，确定目标服装的多个第二部位中每个第二部位对应的第二特征子图。

其中，确定第二特征子图的方式与上说S201中确定第一特征子图的方式类似，在此不再赘述。

此处，上述S201和S202并无执行的先后逻辑。

S203：第一特征子图和第二特征子图进行特征融合，得到融合特征图。

其中，对第一特征子图和第二特征子图进行特征融合的方法包括下述至少一种：

将第一特征子图与第二特征子图在第三维度进行拼接，得到融合特征图；例如，若第一特征子图和第二特征子图的维度均为64×64×1，则将第一特征子图和第二特征子图叠加后，得到的融合特征图的维度为64×64×2。

将第一特征子图与第二特征子图在第二维度进行拼接，得到融合特征图；例如，若第一特征子图和第二特征子图的维度均为64×64×1，则将第一特征子图和第二特征子图叠加拼接后，得到的融合特征图的维度为64×128×1。

示例性的，在第二图像为仅包含古代服饰的图像的情况下，多个第一部位中包含头部，但多个第二部位中不包含头部，此时当第一部位为头部时，无与第一部位对应的第二部位，也即第一部位对应的第一特征子图无对应的第二特征子图，可以将与头部对应的第二特征子图置为预设特征图。例如，该预设特征图中特征点的特征值为0、1等值。具体根据实际的需要进行设置。

针对上述S104，基于融合特征图，得到目标图像，包括：

利用预先训练的解码器，对融合特征图进行解码处理，得到目标图像。

参见图4，本公开实施例还提供了一种训练特征提取网络以及所码器的具体方法，包括：

S401：获取多张包括第二目标对象的第一样本图像、以及包括第二目标服装的第二样本图像；

S402：利用待训练的特征提取网络，对第一样本图像、及第二样本图像进行特征提取处理，得到第一样本图像的第一样本特征图、及第二样本图像的第二样本特征图；

S403：对第一样本图像和第二样本图像进行语义分割处理，得到第一样本图像的第一样本语义分割结果、以及第二样本图像的第二样本语义分割结果；

S404：基于第一样本语义分割结果、以及第二样本语义分割结果，对第一样本特征图和第二样本特征图进行特征融合处理，得到样本融合特征图。

示例性的，在利用N(N为大于1的整数)张包括第二目标对象的第一样本图像S1～SN、以及包括第二目标服装的第二样本图像D对待训练的特征提取网络进行训练时，利用待训练的特征提取网络对第一样本图像S1、及第二样本图像D进行特征提取处理，得到第一样本图像S1、及第二样本图像D分别对应的第一样本特征图Sc、及第二样本特征图Dc；以及对第一样本图像S1、及第二样本图像D进行语义分割处理，得到第一样本图像S1、及第二样本图像D分别对应的第一样本语义分割结果Sl、及第二样本语义分割结果Dl。利用第一样本语义分割结果Sl、以及第二样本语义分割结果Dl，对第一样本特征图Sc和第二样本特征图Dc进行特征融合处理，得到样本融合特征图Gc。具体的过程与上述图2示出的一种基于第一语义分割结果、以及第二语义分割结果，对第一特征图和第二特征图进行特征融合处理，得到融合特征图的方法类似，在此不再赘述。

利用第一样本图像S2～SN、以及第二样本图像D对待训练的特征提取网络进行训练的方法与上述过程相似，在此不再赘述。

S405：利用待训练的解码器，对样本融合特征图进行解码处理，得到样本生成图像。

例如，解码器对N张第一样本图像的样本融合特征图分别进行解码处理，得到N张第一样本图像分别对应的样本生成图像，表示为Q1～QN。

S406：基于样本生成图像，以及样本图像，确定模型损失；并基于模型损失，对待训练的特征提取网络和待训练解码器进行训练。

参见图5所示，本公开实施例还提供了一种基于样本生成图像，以及样本图像，确定模型损失的方法，包括：

S501：将样本生成图像作为新的第一样本图像，将样本生成图像对应的第一样本图像作为新的第二样本图像；

S502：利用待训练的特征提取网络、以及待训练的编码器，基于新的第一样本图像和新的第二样本图像，得到新的第一样本图像的新的生成图像；

此处，新的生成图像的具体获取方式，与上述生成图像的获取方式类似，在此不再赘述。

S503：基于新的生成图像、以及样本生成图像对应的第一样本图像，确定模型损失；模型损失包括下述至少一种损失：装扮损失、风格损失、以及人脸损失。

示例性的，在样本生成图像为Q1～QN的情况下，将Qi(i∈[1,N])作为新的第一样本图像，则将样本生成图像Qi对应的第一样本图像Si作为新的第二样本图像，并利用待训练的特征提取网络、以及待训练的编码器，基于Qi和Si，得到新的生成图像Qnew。

然后基于该新的生成图像Qnew，以及Si，确定模型损失。

在利用新的生成图像Qnew、以及第一样本图像Si确定模型损失的情况下，确定模型损失的方法包括下述至少一种：

(1)：在模型损失包括装扮损失的情况下，确定模型损失，包括：基于新的生成图像、和样本生成图像对应的第一样本图像之间的装扮差异度，确定装扮损失。

在一种可能的实施方式中，利用特征提取网络对新的生成图像Qnew进行特征提取，可以确定新的生成图像Qnew对应的特征图Qnewc；利用特征提取网络对第一样本图像Si进行特征提取，可以确定第一样本图像Si对应的特征图Sic(i∈[1,N])。基于新的生成图像Qnew对应的特征图Qnewc、及第一样本图像Si对应的特征图Sic，可以确定新的生成图像Qnew与第一样本图像Si之间的相似度(Degree of Similarity，DOS)，设为DOSi(i∈[1,N])。其中，确定相似度的方法包括下述至少一种：闵可夫斯基距离(Minkowski Distance，MD)、曼哈顿距离(Manhattan Distance，MD)、欧氏距离(Euclidean Distance，ED)、切比雪夫距离(Chebyshev Distance，CD)。

利用相似度DOSi，即能够确定新的生成图像Qnew与第一样本图像Si之间的装扮差异度，以确定装扮损失。

(2)：在模型损失包括风格损失的情况下，确定模型损失，包括：

基于新的生成图像，确定新的生成图像的第一风格信息；

并基于述样本生成图像对应的第一样本图像，确定第一样本图像的第二风格信息；

基于第一风格信息以及第二风格信息，确定风格损失。

其中，风格信息例如包括图像的灰度值(Gray-Scale Value，GSV)。在风格信息为图像的灰度值的情况下，将新的生成图像Qnew对应灰度值确定为第一风格信息；并将样本生成图像对应的第一样本图像Si对应的灰度值确定为第二风格信息。利用第一风格信息以及第二风格信息，可以确定风格损失。示例性的，可以基于第一风格信息与第二风格信息中的每个第二风格信息的差值确定风格损失。

(3)：在模型损失包括人脸损失的情况下，确定模型损失，包括：

基于新的生成图像、和样本生成图像对应的第一样本图像之间的人脸差异度，确定装扮损失。

其中，人脸差异度可以用于衡量人脸特征的相似度。确定人脸差异度方法包括下述至少一种：欧氏距离(Euclidean Distance，ED)、余弦距离(Cosine Distance，CD)。基于新的生成图像Qnew与第一样本图像Si之间的人脸差异度，可以确定装扮损失。

承接上述S406，本公开实施例提供的一种训练特征提取网络以及解码器的方法还包括：

S407：经过对待训练的特征提取网络和待训练解码器的多轮训练，得到训练好的特征提取网络以及训练好的解码器。

通过上述过程，即可得到训练好的特征提取网络和解码器。

另外为了让生成图像更具有真实的展示效果，在另一种可能的实施方式中，在对特征提取网络以及解码器进行训练时，还包括：

利用判别器对样本生成图像进行判别处理，得到样本生成图像是否为生成图像的判别结果；基于判别结果，对判别器、以及由待训练的特征提取网络和待训练解码器构成的生成器进行对抗训练。

其中，判别器例如为马尔可夫判别器(PatchGAN)。利用判别器可以判断样本生成图像Q1～QN中的每一个样本生成图像是否为生成图像，也即利用判别器对样本生成图像的图像真实性做判断，不断提高样本生成图像的质量，以使样本生成图像更贴近真实拍摄获取的图像。

示例性的，可以将判别结果表示为1或0，其中“1”表征判断出样本生成图像是生成图像，“0”表征判断出样本生成图像不是生成图像。

在基于样本生成图像Q1～QN中的每一个样本生成图像的判别结果，对判别器进行调整的情况下，可以利用对应判别结果为“1”时，对判别器对应的参数进行优化。

示例性的，在对判别器对应的参数进行优化时，可以将优化方向确定为出现更多判别结果“1”对应的方向，也即判别器可以更精确的判断出样本生成图像是否为生成图像。

在基于样本生成图像Q1～QN中的每一个样本生成图像的判别结果，对由待训练的特征提取网络和待训练解码器构成的生成器进行调整的情况下，可以利用对应判别结果为“1”时，对生成器对应的参数进行优化。

示例性的，在对生成器进行优化时，可以将优化方向确定为出现更多判别结果“0”对应的方向，也即生成器可以更准确的生成贴近真实拍摄获取的图像。

利用对判别器、以及生成器进行对抗训练，可以同时提高判别器的判别能力和生成器生成样本生成图像的真实性，有益于在使用时获取更具真实性的目标图像。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与图像处理方法对应的图像处理装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述图像处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图6所示，为本公开实施例提供的一种图像处理装置的示意图，所述装置包括：获取模块61、处理模块62、特征融合模块63，确定模块64；其中，

获取模块61，用于获取包括第一目标对象的第一图像、以及包括第一目标服装的第二图像；

处理模块62，用于对所述第一图像和所述第二图像分别进行语义分割处理，得到所述第一图像的第一语义分割结果、以及所述第二图像的第二语义分割结果；以及对所述第一图像和所述第二图像分别进行特征提取处理，得到所述第一图像的第一特征图、以及所述第二图像的第二特征图；

特征融合模块63，用于基于所述第一语义分割结果、以及所述第二语义分割结果，对所述第一特征图和所述第二特征图进行特征融合处理，得到融合特征图；

确定模块64，用于基于所述融合特征图，得到目标图像。

在一种可选的实施方式中，所述特征融合模块63在基于所述第一语义分割结果、以及所述第二语义分割结果，对所述第一特征图和所述第二特征图进行特征融合处理，得到融合特征图时，用于：

在一种可选的实施方式中，所述特征融合模块63在基于所述第一语义分割结果、以及所述第一特征图，确定所述目标对象的多个第一部位中每个第一部位对应的第一特征子图时，用于：

在一种可选的实施方式中，所述特征融合模块63在将所述第一特征子图和所述第二特征子图进行特征融合，得到所述融合特征图时，用于：

在一种可选的实施方式中，所述确定模块64在基于所述融合特征图，得到目标图像时，用于：

对所述融合特征图进行解码处理，得到所述目标图像。

在一种可选的实施方式中，所述处理模块62在对所述第一图像和所述第二图像分别进行语义分割处理时，用于：

在一种可选的实施方式中，所述处理模块62在对所述第一图像和所述第二图像分别进行特征提取处理时，用于：

在一种可选的实施方式中，还包括：训练模块65，用于采用下述方式训练所述特征提取网络以及所述解码器：

在一种可选的实施方式中，所述训练模块65在基于所述样本生成图像，以及所述样本图像，确定模型损失时，用于：

在一种可选的实施方式中，所述训练模块65在所述模型损失包括装扮损失的情况下，基于所述新的生成图像、以及所述样本生成图像对应的第一样本图像，确定所述模型损失时，用于：

在一种可选的实施方式中，所述训练模块65在所述模型损失包括风格损失的情况下，基于所述新的生成图像、以及所述样本生成图像对应的第一样本图像，确定所述模型损失时，用于：

在一种可选的实施方式中，所述训练模块65在所述模型损失包括人脸损失的情况下，基于所述新的生成图像、以及所述样本生成图像对应的第一样本图像，确定所述模型损失时，用于：

在一种可选的实施方式中，所述训练模块65在训练所述特征提取网络以及所述解码器时，还用于：

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开实施例还提供了一种计算机设备，如图7所示，为本公开实施例提供的计算机设备结构示意图，包括：

处理器71和存储器72；所述存储器72存储有处理器71可执行的机器可读指令，处理器71用于执行存储器72中存储的机器可读指令，所述机器可读指令被处理器71执行时，处理器71执行下述步骤：

基于所述融合特征图，得到目标图像。

上述存储器72包括内存721和外部存储器722；这里的内存721也称内存储器，用于暂时存放处理器71中的运算数据，以及与硬盘等外部存储器722交换的数据，处理器71通过内存721与外部存储器722进行数据交换。

上述指令的具体执行过程可以参考本公开实施例中所述的图像处理方法的步骤，此处不再赘述。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的图像处理方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的图像处理方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的图像处理方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本公开实施例还提供一种计算机程序，该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software DevelopmentKit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，包括：

基于所述融合特征图，得到目标图像；

其中，所述基于所述第一语义分割结果、以及所述第二语义分割结果，对所述第一特征图和所述第二特征图进行特征融合处理，得到融合特征图，包括：基于所述第一语义分割结果、以及所述第一特征图，确定所述目标对象的多个第一部位中每个第一部位对应的第一特征子图；基于所述第二语义分割结果、以及所述第二特征图，确定所述目标服装的多个第二部位中每个第二部位对应的第二特征子图；将所述第一特征子图和所述第二特征子图进行特征融合，得到所述融合特征图；

基于所述第一语义分割结果、以及所述第一特征图，确定所述目标对象的多个第一部位中每个第一部位对应的第一特征子图，包括：基于所述第一语义分割结果，从所述第一图像中，确定所述每个第一部位对应的目标像素点；基于所述第一图像中像素点、与所述第一特征图中特征点之间的映射关系，从所述第一特征图中，确定与所述目标像素点对应的目标特征点；基于所述目标特征点、以及所述第一特征图，确定所述每个第一部位对应的第一特征子图。

2.根据权利要求1所述的图像处理方法，其特征在于，将所述第一特征子图和所述第二特征子图进行特征融合，得到所述融合特征图，包括：

3.根据权利要求1所述的图像处理方法，其特征在于，基于所述融合特征图，得到目标图像，包括：

对所述融合特征图进行解码处理，得到所述目标图像。

4.根据权利要求1所述的图像处理方法，其特征在于，对所述第一图像和所述第二图像分别进行语义分割处理，包括：

5.根据权利要求1所述的图像处理方法，其特征在于，所述对所述第一图像和所述第二图像分别进行特征提取处理，包括：

所述基于所述融合特征图，得到目标图像，包括：

6.根据权利要求5所述的图像处理方法，其特征在于，训练所述特征提取网络以及所述解码器，包括：

7.根据权利要求6所述的图像处理方法，其特征在于，基于所述样本生成图像，以及所述样本图像，确定模型损失，包括：

8.根据权利要求7所述的图像处理方法，其特征在于，在所述模型损失包括装扮损失的情况下，所述基于所述新的生成图像、以及所述样本生成图像对应的第一样本图像，确定所述模型损失，包括：

9.根据权利要求7所述的图像处理方法，其特征在于，在所述模型损失包括风格损失的情况下，所述基于所述新的生成图像、以及所述样本生成图像对应的第一样本图像，确定所述模型损失，包括：

10.根据权利要求7所述的图像处理方法，其特征在于，在所述模型损失包括人脸损失的情况下，所述基于所述新的生成图像、以及所述样本生成图像对应的第一样本图像，确定所述模型损失，包括：

11.根据权利要求6所述的图像处理方法，其特征在于，训练所述特征提取网络以及所述解码器，还包括：

12.一种图像处理装置，其特征在于，包括：

确定模块，用于基于所述融合特征图，得到目标图像；

其中，所述特征融合模块在基于所述第一语义分割结果、以及所述第二语义分割结果，对所述第一特征图和所述第二特征图进行特征融合处理，得到融合特征图时，用于：基于所述第一语义分割结果、以及所述第一特征图，确定所述目标对象的多个第一部位中每个第一部位对应的第一特征子图；基于所述第二语义分割结果、以及所述第二特征图，确定所述目标服装的多个第二部位中每个第二部位对应的第二特征子图；将所述第一特征子图和所述第二特征子图进行特征融合，得到所述融合特征图；

特征融合模块在基于所述第一语义分割结果、以及所述第一特征图，确定所述目标对象的多个第一部位中每个第一部位对应的第一特征子图时，具体用于：基于所述第一语义分割结果，从所述第一图像中，确定所述每个第一部位对应的目标像素点；基于所述第一图像中像素点、与所述第一特征图中特征点之间的映射关系，从所述第一特征图中，确定与所述目标像素点对应的目标特征点；基于所述目标特征点、以及所述第一特征图，确定所述每个第一部位对应的第一特征子图。

13.一种计算机设备，其特征在于，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述处理器执行如权利要求1至11任一项所述的图像处理方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被计算机设备运行时，所述计算机设备执行如权利要求1至11任一项所述的图像处理方法的步骤。