CN116109531A

CN116109531A - 图像处理方法、装置、计算机设备及存储介质

Info

Publication number: CN116109531A
Application number: CN202111327454.6A
Authority: CN
Inventors: 张莹; 李琛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2023-05-12

Abstract

本申请提供了一种图像处理方法、装置、计算机设备及存储介质，属于人工智能技术领域。所述方法包括：将第一图像映射为三个中间图像，所述第一图像包括人体，所述三个中间图像的尺度不同，用于表示所述第一图像的图像特征；对所述三个中间图像进行融合，得到第二图像；将所述第二图像映射为目标图像，所述目标图像标注有所述人体的不同部位。上述方案通过将第一图像映射为三个不同尺度的图像后进行融合，相较于复杂神经网络中将每个尺度的中间图像均进行融合的方式，降低了结构复杂度、减少了计算量和推理时间，从而能够在移动终端进行部署。

Description

图像处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种图像处理方法、装置、计算机设备及存储介质。

背景技术

人体解析是一种将图像或者视频中的人体分割成多个语义一致区域的技术，如将人体分割为头部、手部以及腿部等。目前，人体解析技术通常是采用深度神经网络来预测图像中属于相同语义区域的像素，从而实现对图像中人体的分割，得到较为准确的人体解析结果。

然而，上述方案采用的神经网络结构复杂、计算量大以及推理时间长，导致难以在移动终端部署的问题。

发明内容

本申请实施例提供了一种图像处理方法、装置、计算机设备及存储介质，相较于复杂神经网络中将每个尺度的中间图像均进行融合的方式，降低了结构复杂度、减少了计算量和推理时间，从而能够在移动终端进行部署。所述技术方案如下：

一方面，提供了一种图像处理方法，所述方法包括：

将第一图像映射为三个中间图像，所述第一图像包括人体，所述三个中间图像的尺度不同，用于表示所述第一图像的图像特征；

对所述三个中间图像进行融合，得到第二图像；

将所述第二图像映射为目标图像，所述目标图像标注有所述人体的不同部位。

另一方面，提供了一种图像处理装置，所述装置包括：

第一映射模块，用于将第一图像映射为三个中间图像，所述第一图像包括人体，所述三个中间图像的尺度不同；

图像融合模块，用于对所述三个中间图像进行融合，得到第二图像；

第二映射模块，用于将所述第二图像映射为目标图像，所述目标图像标注有所述人体的不同部位。

在一些实施例中，所述第一映射模块，用于对所述第一图像进行卷积，得到第一中间图像；对所述第一中间图像进行卷积，得到第二中间图像；对所述第二中间图像进行通道特征强化和语义特征强化，得到第三中间图像，所述通道特征强化用于强化不同通道特征的重要性，所述语义特征强化用于强化全局语义信息。

在一些实施例中，所述图像融合模块，用于将所述第三中间图像与所述第二中间图像卷积后的结果进行融合，得到第一融合图像；将所述第一融合图像与所述第一中间图像卷积后的结果进行融合，得到第二融合图像，将所述第二融合图像作为所述第二图像。

在一些实施例中，所述第二映射模块，用于调高所述第二图像的分辨率，得到第三图像，所述第三图像的分辨率不高于所述第一图像的分辨率；对所述第三图像进行卷积，得到所述目标图像。

在一些实施例中，所述图像处理装置执行的步骤，基于人体解析模型实现，所述人体解析模型用于对输入的图像进行人体解析，输出标注有人体的不同部位的图像。

在一些实施例中，所述装置还包括：

预处理模块，用于对样本图像的第一标注图像进行预处理，得到所述样本图像的编码图像，所述第一标注图像用于指示所述样本图像中样本人体的不同部分，所述编码图像用于指示所述样本图像的前一帧图像的预测结果；

拼接模块，用于对所述样本图像与所述编码图像进行拼接，得到输入图像；

训练模块，用于以所述第一标注图像为监督信息，基于所述输入图像，对第i轮迭代的人体解析模型进行训练，i为正整数。

在一些实施例中，所述预处理模块，用于对所述样本图像的第一标注图像进行图像变换，得到第二标注图像；对所述第二标注图像进行编码，得到所述编码图像。

在一些实施例中，所述预处理模块，用于对所述第一标注图像进行刚性变换和非刚性变换中的至少一种，得到所述第二标注图像。

在一些实施例中，所述预处理模块，用于将所述第二标注图像中的像素，按照所属的像素类别映射至目标向量空间，得到所述编码图像。

在一些实施例中，所述拼接模块，用于将所述样本图像与所述编码图像在通道维度上进行拼接，得到所述输入图像。

在一些实施例中，所述训练模块，用于基于所述第i轮迭代的人体解析模型对所述输入图像进行人体解析，得到预测图像，所述预测图像用于指示预测得到的所述样本人体的不同部分；基于所述第一标注图像和所述预测图像，确定第一损失、第二损失以及第三损失，所述第一损失用于指示所述第一标注图像和所述预测图像之间的差异，所述第二损失用于指示所述第一标注图像和所述预测图像在像素加权之后的差异，所述第三损失用于指示所述第一标注图像和所述预测图像在像素添加依赖信息之后的差异，所述依赖信息用于指示像素周围的像素所包含的信息；基于所述第一损失、所述第二损失以及所述第三损失，调整所述第i轮迭代的人体解析模型的模型参数。

在一些实施例中，所述训练模块，用于基于所述预测图像中各个像素类别对应的像素数量，确定所述各个像素类别的类别权重，所述类别权重与像素数量反相关；基于所述各个像素类别的类别权重，确定加权交叉熵损失，将所述加权交叉熵损失作为所述第二损失。

在一些实施例中，所述训练模块，用于基于所述第一标注图像，确定标注概率分布；基于所述预测图像，确定预测概率分布；基于所述标注概率分布和所述预测概率分布，确定标注概率密度函数、预测概率密度函数以及联合概率密度函数；基于所述标注概率密度函数、所述预测概率密度函数以及所述联合概率密度函数，确定交叉熵损失，将所述交叉熵损失作为所述第三损失。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行以实现本申请实施例中的图像处理方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一段计算机程序，所述至少一段计算机程序由处理器加载并执行以实现如本申请实施例中图像处理方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述各个方面的各种可选实现方式中的图像处理方法。

本申请提供了一种图像处理的方案，通过将第一图像映射为三个不同尺度的图像后进行融合，相较于复杂神经网络中将每个尺度的中间图像均进行融合的方式，降低了结构复杂度、减少了计算量和推理时间，从而能够在移动终端进行部署。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的一种图像处理方法的实施环境示意图；

图2是根据本申请实施例提供的一种图像处理方法的流程图；

图3是根据本申请实施例提供的另一种图像处理方法的流程图；

图4是根据本申请实施例提供的一种图像变换的示意图；

图5是根据本申请实施例提供的一种图像拼接的示意图；

图6是根据本申请实施例提供的一种压缩激活模块的示意图；

图7是根据本申请实施例提供的一种金字塔池化模块的示意图；

图8是根据本申请实施例提供的一种模型结构示意图；

图9是根据本申请实施例提供的一种视频人体解析结果的对比示意图；

图10是根据本申请实施例提供的一种图像处理装置的框图；

图11是根据本申请实施例提供的另一种图像处理装置的框图；

图12是根据本申请实施例提供的一种终端的结构框图；

图13是根据本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上。

可以理解的是，在本申请的实施方式中，涉及到用户信息、图像等相关的数据，当本申请中的实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以下，对本申请涉及的术语进行解释。

人体解析，是指将图像/视频中捕获的人体分割成多个语义一致区域，如头部，手部，腿部等。

mIOU(Mean Intersection over Union，平均交并比)为语义分割的标准度量，表示两个集合的交并比，在语义分割的问题中，这两个集合为标注值(ground truth)和预测值(predicted segmentation)。

pixel Acc(Pixel Accuracy，像素准确率)是指分类正确的像素点数与所有的像素点数的比值。

FFM(Feature Fusion Module，特征融合模块)，用于融合不同尺度的特征。在深度学习的很多工作中(例如目标检测、图像分割)，融合不同尺度的特征是提高性能的一个重要手段。低层特征分辨率更高，包含更多位置、细节信息，但是由于经过的卷积更少，其语义性更低，噪声更多。高层特征具有更强的语义信息，但是分辨率很低，对细节的感知能力较差。

本申请实施例提供的图像处理方法，能够由计算机设备执行。在一些实施例中，该计算机设备为终端或服务器。下面以计算机设备为终端为例，介绍一下本申请实施例提供的图像处理方法的实施环境，图1是根据本申请实施例提供的一种图像处理方法的实施环境示意图。参见图1，该实施环境包括终端101和服务器102。

终端101和服务器102能够通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一些实施例中，终端101是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端101安装和运行有支持图像处理的应用程序，如相册程序、拍摄程序以及社交程序等。本领域技术人员可以知晓，上述终端101的数量可以更多或更少。比如上述终端为一个，或者上述终端为几十个或几百个，或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。

在一些实施例中，服务器102是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式***，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102用于为支持图像处理的应用程序提供后台服务。在一些实施例中，服务器102承担主要计算工作，终端101承担次要计算工作；或者，服务器102承担次要计算工作，终端101承担主要计算工作；或者，服务器102和终端101二者之间采用分布式计算架构进行协同计算。

在本申请实施例中，该终端101能够从服务器获取人体解析模型，该人体解析模型用于对输入的图像进行人体解析，输出标注有人体的不同部位的图像。然后基于在终端部署的该人体解析模型，将第一图像输入人体解析模型，由该人体解析模型将第一图像映射为尺度不同的三个中间图像，然后基于该人体解析模型对上述三个中间图像进行融合，得到第二图像。然后基于该人体解析模型将该第二图像映射为目标图像，最后终端展示该人体解析模型输出的目标图像。

图2是根据本申请实施例提供的一种图像处理方法的流程图，如图2所示，在本申请实施例中以由终端执行为例进行说明。该方法包括以下步骤：

201、终端将第一图像映射为三个中间图像，该第一图像包括人体，该三个中间图像的尺度不同，用于表示该第一图像的图像特征。

在本申请实施例中，该终端为图1中的终端101。该第一图像为待处理的图像。终端能够基于多个卷积层对第一图像进行卷积处理，将该第一图像映射为三个尺度不同的中间图像。换而言之，三个中间图像的来源相同，但是卷积处理的方式不同，导致三个中间图像的尺度不同。该三个中间图像为第一图像的特征图像，能够表示该第一图像的图像特征。

202、终端对该三个中间图像进行融合，得到第二图像。

在本申请实施例中，终端能够依次对上述三个中间图像进行融合，得到融合后的第二图像，该第二图像包含上述三个不同尺度的中间图像的特征，能够用于提高人体解析的性能。

203、终端将该第二图像映射为目标图像，该目标图像标注有该人体的不同部位。

在本申请实施例中，终端能够基于多个卷积层对该第二图像进行卷积处理，将该第二图像映射为目标图像，从而实现对第一图像中人体的人体解析。

图2示例性的示出了本申请实施例提供的图像处理方案的主要流程，下面基于一种应用场景，来对该图像处理方案进行进一步的描述。在该应用场景中，该图像处理方案基于人体解析模型实现，下述实施例将描述训练人体解析模型以及使用人体解析模型的过程。图3是根据本申请实施例提供的另一种图像处理方法的流程图，参见图3所示，在本申请实施例中以由终端执行为例进行说明，该终端为移动终端。该图像处理方法包括以下步骤：

301、终端对样本图像的第一标注图像进行预处理，得到该样本图像的编码图像，该第一标注图像用于指示该样本图像中样本人体的不同部分，该编码图像用于指示该样本图像的前一帧图像的预测结果。

在本申请实施例中，该样本图像中包括样本人体，该样本图像可以为公开的样本数据集中的图像，也可以为经过用户充分授权后获取的用户上传的图像，本申请实施例对样本图像的来源不进行限制。该样本图像的第一标注图像中，以不同颜色标注了上述样本人体的不同部分，如头发、脸部、躯干以及手臂等。终端能够对该第一标注图像进行预处理，使得预处理得到的编码图像能够指示该样本图像的前一帧图像的预测结果。需要说明的是，该编码图像能够模拟前一帧图像的预测结果，并非是对该前一帧图像进行人体解析得到预测结果。

在一些实施例中，终端能够采用图像变换和编码的方式，来对第一标注图像进行预处理。终端对样本图像的第一标注图像进行预处理，得到样本图像的编码图像的步骤，包括：终端对样本图像的第一标注图像进行图像变换，得到第二标注图像，然后终端对第二标注图像进行编码，得到编码图像。通过对第一标注图像进行图像变换，得到第二标注图像，能够模拟人体运动带来的变化，再对该第二标注图像进行编码，使得编码得到的编码图像能够作为样本图像的前一帧图像的预测结果被模型学习到，从而使得模型能够学习到相邻图像帧的预测结果之间的关联性，提高模型输出的稳定性。

在一些实施例中，终端能够对第一标注图像进行刚性变换，来得到第二标注图像，其中，该刚性变换包括平移、旋转以及缩放等。或者，终端能够对第一标注图像进行非刚性变换，来得到第二标注图像，该非刚性变换包括网格畸变、光学畸变以及弹性变换等。或者，终端能够对第一标注图像进行刚性变换和非刚性变换，来得到第二标注图像，其中，刚性变换和非刚性变换的顺序不进行限定。通过对第一标注图像进行不同程度的刚性变换和非刚性变换中的至少一种，能够模拟人体运动带来的图像变化，进而使模型学习到相邻图像帧的预测结果之间的关联性，提高模型输出的稳定性。

例如，图4是根据本申请实施例提供的一种图像变换的示意图。参见图4所示，第一标注图像的背景为黑色，以黑色以外的不同颜色标注了人体的头发、脸部、躯干皮肤(脖子部分)、上衣、手臂以及手部。对第一标注图像进行刚性变换和非刚性变换后，得到第二标注图像，该第二标注图像中的颜色与第一标注图像标注的部位相同，大小和形态不同。

在一些实施例中，终端能够将第二标注图像中的像素，按照所属的像素类别映射至目标向量空间，得到编码图像。其中，该目标向量空间为一维空间或者多维空间。通过对第二标注图像进行编码，使得该编码图像能够模拟前一帧图像的预测结果，进而能够模拟人体运动带来的图像变化，进而使模型学习到相邻图像帧的预测结果之间的关联性，提高模型输出的稳定性。

例如，标注图像中的像素共有15个像素类别，像素类别的取值分别使用0-14共15个正整数来表示：{0：背景；1：帽子；2：头发；3：脸部；4：太阳镜；5：躯干皮肤；6：上衣；7：连衣裙；8：裤子；9：短裙；10：手臂；11：手部；12：腿部；13：脚部；14：袜子}。终端按照图像中各像素所属的像素类别，对像素进行编码。

在一些实施例中，终端采用归一化策略，基于公式(1)将第二标注图像中的像素，按照所属的像素类别映射至0-1之间。其中，公式(1)如下所示：

E_i＝y_i/(C-1) (1)；

其中，E_i表示第i个像素编码后的值，y_i表示第i个像素所属的像素类别的值，C表示像素类别的总数。

在一些实施例中，终端基于公式(2)将第二标注图像中的像素，按照所属的像素类别映射为高维向量，得到多通道的编码结果。其中，公式(2)如下所示：

f(y_i)＝[sin(2⁰πy_i)，cos(2⁰πy_i)，...，sin(2^L-1πy_i)，cos(2^L-1πy_i)] (2)；

其中，y_i表示第i个像素所属的像素类别的值，f(y_i)表示第i个像素编码后的高维向量，L表示f(y_i)的维度数的一半。

302、终端对该样本图像与该编码图像进行拼接，得到输入图像。

在本申请实施例中，终端能够将上述样本图像与上述编码图像在通道维度上进行拼接，得到输入图像。通过将样本图像与编码图像进行拼接，使得模型能够学习到相邻图像帧的预测结果之间的关联性，提高模型输出的稳定性。参见图5所示，图5是根据本申请实施例提供的一种图像拼接的示意图。

303、终端以该第一标注图像为监督信息，基于该输入图像，对第i轮迭代的人体解析模型进行训练，i为正整数。

在本申请实施例中，终端能够采用有监督学习的方式，以第一标注图像为监督学习，进行多轮迭代训练，得到人体解析模型。下面以第i轮迭代的过程为例进行说明，第i轮迭代为首轮迭代时，该第i轮迭代的人体解析模型为初始模型；第i轮迭代为非首轮迭代时，该第i轮迭代的人体解析模型为第i-1轮迭代完成后调整了模型参数的人体解析模型。

在一些实施例中，终端以第一标注图像为监督信息，基于输入图像，对第i轮迭代的人体解析模型进行训练的步骤，包括步骤3031至步骤3033。

3031、终端基于第i轮迭代的人体解析模型对输入图像进行人体解析，得到预测图像。

其中，终端将输入图像输入第i轮迭代的人体解析模型，然后基于该人体解析模型对该输入图像进行人体解析，输出预测图像，该预测图像用于指示预测得到的样本人体的不同部分。

3032、终端基于第一标注图像和预测图像，确定第一损失、第二损失以及第三损失。

在本申请实施例中，第一损失为交叉熵损失，该第一损失用于指示第一标注图像和预测图像之间的差异。第一损失的计算方式参见下述公式(3)所示：

其中，L_ce表示第一损失，C表示像素类别的总数，y_c表示像素类别c的值，p_c表示预测像素属于y_c的概率。

在本申请实施例中，该第二损失为加权交叉熵损失，该第二损失用于指示第一标注图像和预测图像在像素加权之后的差异。其中，终端基于第一标注图像和预测图像，确定第二损失的过程，包括：终端基于预测图像中各个像素类别对应的像素数量，确定各个像素类别的类别权重，该类别权重与像素数量反相关。终端基于各个像素类别的类别权重，确定加权交叉熵损失，将加权交叉熵损失作为第二损失。该第二损失由基于公式(3)改进得到的公式(4)计算得到，该公式4利用像素数量的占比来做反向加权，也即像素数量越多的像素类别的类别权重越低，使得模型能够关注区域小的像素类别。第二损失的计算方式参见下述公式(4)和公式(5)所示：

w_c＝(N-N_c)/N (5)；

其中，L_w表示第二损失，C表示像素类别的总数，w_c表示类别权重，y_c表示像素类别的值，p_c表示预测像素属于y_c的概率，N表示图像中全部像素的数量，N_c表示像素类别c对应的像素数量。

在本申请实施例中，该第三损失为互信息损失，该第三损失用于指示第一标注图像和预测图像在像素添加依赖信息之后的差异，依赖信息用于指示像素周围的像素所包含的信息。其中，终端基于第一标注图像和预测图像，确定第三损失的过程，包括：终端基于第一标注图像，确定标注概率分布。终端基于预测图像，确定预测概率分布。然后，终端基于标注概率分布和预测概率分布，确定标注概率密度函数、预测概率密度函数以及联合概率密度函数。最后，终端基于标注概率密度函数、预测概率密度函数以及联合概率密度函数，确定交叉熵损失，将该交叉熵损失作为第三损失。该第三损失基于互信息损失函数计算得到，不同于交叉熵损失函数逐像素计算的方式，互信息损失函数来源于区域互信息策略，区域互信息策略的依据是：若一个像素的像素类别为上衣，则该像素周围像素的像素类别也很有可能是上衣。基于该区域户信息策略，终端能够用像素及像素的周围像素来表示该像素，对该像素进行编码，从而将一个图像表示为多个高维点的分布，通过计算标注概率分布和预测概率分布之间的距离，能够使模型输出的预测结果具有更好的高阶一致性。第三损失的计算方式参见下述公式(6)所示：

其中，L_mu表示第三损失，Y表示标注概率分布，y表示标注概率，P表示预测概率分布，p表示预测概率，f(y，p)表示联合概率密度函数，f(y)表示标注概率密度函数，f(p)表示预测概率密度函数。

3033、终端基于第一损失、第二损失以及第三损失，调整第i轮迭代的人体解析模型的模型参数。

在本申请实施例中，终端能够将第一损失、第二损失以及第三损失的和值，作为训练损失，基于该训练损失调整第i轮迭代的人体解析模型的模型参数。通过在模型训练时基于多项损失来调整模型参数，能够解决像素类别不均衡的问题，从而提高人体解析的准确性。

训练损失的计算方式参见下述公式(7)所示：

L＝L_ce+L_W+L_mu (7)；

其中，L表示训练损失，L_ce表示第一损失，L_W表示第二损失，L_mu表示第三损失。该公式(7)为模型训练的目标函数。

304、终端基于人体解析模型，将第一图像映射为三个中间图像，该第一图像包括人体，该三个中间图像的尺度不同，用于表示该第一图像的图像特征。

在本申请实施例中，该人体解析模型为终端训练得到的模型，该第一图像为该人体解析模型的输入图像，终端将该第一图像输入人体解析模型中，由该人体解析模型基于多个卷积层将该第一图像映射为尺度不同的三个中间图像。需要说明的是，该人体解析模型还可以为服务器训练得到的模型，终端从服务器获取该模型。

在一些实施例中，终端将第一图像映射为三个中间图像的步骤，包括：首先，终端对第一图像进行卷积，得到第一中间图像；然后终端对第一中间图像进行卷积，得到第二中间图像。最后终端对第二中间图像进行通道特征强化和语义特征强化，得到第三中间图像，该通道特征强化用于强化不同通道特征的重要性，该语义特征强化用于强化全局语义信息。通过进行通道特征强化和语义特征强化，能够在不影响模型处理速度的情况下，提升模型的性能。

其中，终端能够基于卷积层中的压缩激活模块(Squeeze-and-Excitation，SE)来强化不同通道特征的重要性。该压缩激活模块能够布置在任意网络层输出之后，图6是根据本申请实施例提供的一种压缩激活模块的示意图，参见图6所示，输入X0经过压缩激活模块的处理之后，得到X1。

其中，终端能够基于卷积层中的金字塔池化模块(Pyramid Pooling Module，PPM)来强化全局语义信息。其中，金字塔池化模块能够布置在任意网络层输出之后，图7是根据本申请实施例提供的一种金字塔池化模块的示意图，参见图7所示，首先对输入的特征图进行池化处理，得到四个不同尺寸的池化结果，然后分别对池化结果进行1×1卷积，将特征通道减少到原来的1/4，然后对上一步得到的每个特征图分别进行双线性插值上采样，得到与原特征图尺寸相同的4个特征图，将原特征图和该4个特征图进行拼接，得到金字塔池化模块的输出。

例如，图8是根据本申请实施例提供的一种模型结构示意图。参见图8所示，终端基于卷积层A1和卷积层A2对第一图像进行卷积，得到第一中间图像。其中，该卷积层A1包括标准卷积(Standard Convolution，Conv2D)模块，该卷积层A1的输入尺寸为256*256*4，通道数量为8，卷积步长为2，卷积核的核宽为3。该卷积层A2包括深度可分离卷积(DepthwiseSeparable Convolution，DSConv)模块，该卷积层A2的输入尺寸为128*128*8，通道数量为16，卷积步长为2，卷积核的核宽为3。然后，终端基于卷积层A3对第一中间图像进行卷积，得到第二中间图像。其中，该卷积层A3包括深度可分离卷积模块，该卷积层A3的输入尺寸为64*64*16，通道数量为32，卷积步长为2，卷积核的核宽为3。然后，终端基于卷积层B和卷积层C依次对该第二中间图像进行通道特征强化和语义特征强化，得到第三中间图像。该卷积层B包括三个串联的卷积模块，第一个卷积模块由反转残差模块(inverted residualbottleneck blocks，bottleneck)和压缩激活模块构成。其中，bottleneck的原始设计是：Conv2D+DWConv(Depthwise Convolution，深度卷积)+Conv2D，第一个卷积模块在bottleneck的基础上增加了SE，则bottleneck+SE的结构为：Conv2D+DWConv+SE+Conv2D。卷积层B中第一个卷积模块的输入尺寸为32*32*32，通道数量为32，卷积步长为2，卷积核的核宽为3。卷积层B中的第二个卷积模块和第三个卷积模块的结构与第一个卷积模型的结构相同，不再赘述。卷积层B中第二个卷积模块的输入尺寸为16*16*32，通道数量为64，卷积步长为2，卷积核的核宽为3。卷积层B1中的第三个卷积模块的输入尺寸为8*8*64，通道数量为128，卷积步长为1，卷积核的核宽为3。其中，该卷积层C包括金字塔池化模块和标准卷积模块，该卷基层C的输入尺寸为8*8*128，通道数量为64。

305、终端基于人体解析模型，对该三个中间图像进行融合，得到第二图像。

在本申请实施例中，终端能够将第三中间图像与第二中间图像卷积后的结果进行融合，得到第一融合图像，然后将该第一融合图像与第一中间图像卷积后的结果进行融合，得到第二融合图像，将该第二融合图像作为第二图像。通过对三个不同尺度的图像依次进行融合，相较于复杂神经网络中将每个尺度的中间图像均进行融合的方式，降低了结构复杂度、减少了计算量和推理时间。

例如，仍参见图8所示，终端基于卷积层D1对第二中间图像进行卷积，然后基于融合层F1将卷积层D1输出的结果和第三中间图像进行融合，得到第一融合图像。其中，卷积层D1包括深度卷积模块，该卷积层D1的输入尺寸为32*32*64，通道数为32，卷积步长为1，卷积核的核宽为1。融合层F1包括特征融合模块(Feature Fusion Module，FFM)，该融合层F1的输入尺寸为32*32*32，通道数为32，卷积步长为1，卷积核的核宽为1。终端基于卷积层D2对第一中间图像进行卷积，然后终端基于融合层F2将卷积层D2输出的结果和融合层F1输出的结果进行融合，得到第二融合图像；或者终端基于另一个卷积层对融合层F1输出的结果进行卷积，基于融合层F2将卷积层D2输出的结果和该另一个卷积层输出的结果进行融合，得到第二融合图像。其中，卷积层D2包括标准卷积模块，该卷积层D2的输入尺寸为64*64*32，通道数为32，卷积步长为1，卷积核的核宽为3。融合层F2包括特征融合模块，该融合层F2的输入尺寸为64*64*32，通道数位32，卷积步长为1，卷积核的核宽为1。

306、终端基于人体解析模型，将该第二图像映射为目标图像，该目标图像标注有该人体的不同部位。

在本申请实施例中，终端能够基于卷积层对第二图像进行卷积处理，将第二图像的分辨率调高，以降低边缘抖动。

在一些实施例中，终端能够调高第二图像的分辨率，得到第三图像，该第三图像的分辨率不高于第一图像的分辨率，然后对该第三图像进行卷积，得到目标图像。

例如，仍参见图8所示，终端基于卷积层G1对第二图像进行卷积处理，以调高第二图像的分辨率，得到第三图像，该第三图像的分辨率为第一图像的分辨率的二分之一，然后基于卷积层G2对该第三图像进行卷积处理，得到目标图像。其中，该卷积层G1包括深度可分离卷积模块，该卷积层G1的输入尺寸为64*64*32，通道数量为16，卷积步长为1，卷积核的核宽为3。卷积层G2包括深度可分离卷积模块，该卷积层G2的输入尺寸为128*128*32，通道数量为15，卷积步长为1，卷积核的核宽为3。

本申请提供的方案，通过将第一图像映射为三个不同尺度的图像后进行融合，相较于复杂神经网络中将每个尺度的中间图像均进行融合的方式，降低了结构复杂度、减少了计算量和推理时间，从而能够在移动终端进行部署。另外，通过在模型训练时引入前帧蒙版策略，也即对标注图像进行图像变换和编码，来模拟前一帧图像的标注图像，使得人体解析模型在针对视频进行人体解析时，能够显著的提高预测结果的准确性和稳定性。另外，通过在模型训练时基于多项损失来调整模型参数，能够解决像素类别不均衡的问题，从而提高人体解析的准确性。

需要说明的是，为了验证本申请实施例中训练得到的人体解析模型的效果，还对该人体解析模型进行了定量和定性评测。对比的模型是DFANet(Deep FeatureAggregation for Real-Time Semantic Segmentation，一种轻量型网络)，对比的指标是耗时以及平均交并比和像素准确率这两个量化评测指标。测试终端为搭载高通660的低端手机，测试数据为5000张测试图像。测试结果参见表1所示。

表1

	耗时	平均交并比/像素准确率
			DFANet	55ms	57.2/90.5
本申请方案	45ms	61.3/91.5

如表1所示，本申请方案比DFANet的耗时降低了10ms，且在平均交并比以及像素准确率这两个量化评测指标上均有提升。

另外，针对视频场景的人体解析，通过随机选取视频进行测试，能够得到使用前帧蒙版策略后，模型输出的预测结果更准确，稳定性更高。图9是根据本申请实施例提供的一种视频人体解析结果的对比示意图。参见图9所示，图9中的(1)和(3)是未使用前帧蒙版策略的预测结果，图9中的(2)和(4)是使用了前阵蒙版策略的预测结果。

另外，本申请提供的方案通过三种损失来进行模型训练，为验证不同损失函数组合的优劣，在上述测试数据上还进行了针对损失函数的量化评测，评测指标为平均交并比和像素准确率。损失函数组合为：第一损失，第一损失+第二损失，第一损失+第二损失+第三损失。第一损失、第二损失以及第三损失的含义以及计算方式参见上述步骤303所示，在此不再赘述。评测结果参见表2。

表2

如表2所示，在第一损失的基础上增加第二损失和第三损失，能够提升模型的性能。

图10是根据本申请实施例提供的一种图像处理装置的框图。该装置用于执行上述图像处理方法中的步骤，参见图10，装置包括：第一映射模块1001，图像融合模块1002以及第二映射模块1003。

第一映射模块1001，用于将第一图像映射为三个中间图像，所述第一图像包括人体，所述三个中间图像的尺度不同；

图像融合模块1002，用于对所述三个中间图像进行融合，得到第二图像；

第二映射模块1003，用于将所述第二图像映射为目标图像，所述目标图像标注有所述人体的不同部位。

在一些实施例中，该第一映射模块1001，用于对该第一图像进行卷积，得到第一中间图像；对该第一中间图像进行卷积，得到第二中间图像；对该第二中间图像进行通道特征强化和语义特征强化，得到第三中间图像，该通道特征强化用于强化不同通道特征的重要性，该语义特征强化用于强化全局语义信息。

在一些实施例中，该图像融合模块1002，用于将该第三中间图像与该第二中间图像卷积后的结果进行融合，得到第一融合图像；将该第一融合图像与该第一中间图像卷积后的结果进行融合，得到第二融合图像，将该第二融合图像作为该第二图像。

在一些实施例中，该第二映射模块1002，用于调高该第二图像的分辨率，得到第三图像，该第三图像的分辨率不高于该第一图像的分辨率；对该第三图像进行卷积，得到该目标图像。

在一些实施例中，该图像处理装置执行的步骤，基于人体解析模型实现，该人体解析模型用于对输入的图像进行人体解析，输出标注有人体的不同部位的图像。

在一些实施例中，图11是根据本申请实施例提供的另一种图像处理装置的框图，参见图11所示，该图像处理装置还包括：

预处理模块1004，用于对样本图像的第一标注图像进行预处理，得到该样本图像的编码图像，该第一标注图像用于指示该样本图像中样本人体的不同部分，该编码图像用于指示该样本图像的前一帧图像的预测结果；

拼接模块1005，用于对该样本图像与该编码图像进行拼接，得到输入图像；

训练模块1006，用于以该第一标注图像为监督信息，基于该输入图像，对第i轮迭代的人体解析模型进行训练，i为正整数。

在一些实施例中，该预处理模块1004，用于对该样本图像的第一标注图像进行图像变换，得到第二标注图像；对该第二标注图像进行编码，得到该编码图像。

在一些实施例中，该预处理模块1004，用于对该第一标注图像进行刚性变换和非刚性变换中的至少一种，得到该第二标注图像。

在一些实施例中，该预处理模块1004，用于将该第二标注图像中的像素，按照所属的像素类别映射至目标向量空间，得到该编码图像。

在一些实施例中，该拼接模块1005，用于将该样本图像与该编码图像在通道维度上进行拼接，得到该输入图像。

在一些实施例中，该训练模块1006，用于基于该第i轮迭代的人体解析模型对该输入图像进行人体解析，得到预测图像，该预测图像用于指示预测得到的该样本人体的不同部分；基于该第一标注图像和该预测图像，确定第一损失、第二损失以及第三损失，该第一损失用于指示该第一标注图像和该预测图像之间的差异，该第二损失用于指示该第一标注图像和该预测图像在像素加权之后的差异，该第三损失用于指示该第一标注图像和该预测图像在像素添加依赖信息之后的差异，该依赖信息用于指示像素周围的像素所包含的信息；基于该第一损失、该第二损失以及该第三损失，调整该第i轮迭代的人体解析模型的模型参数。

在一些实施例中，训练模块1006，用于基于该预测图像中各个像素类别对应的像素数量，确定该各个像素类别的类别权重，该类别权重与像素数量反相关；基于该各个像素类别的类别权重，确定加权交叉熵损失，将该加权交叉熵损失作为该第二损失。

在一些实施例中，训练模块1006，用于基于该第一标注图像，确定标注概率分布；基于该预测图像，确定预测概率分布；基于该标注概率分布和该预测概率分布，确定标注概率密度函数、预测概率密度函数以及联合概率密度函数；基于该标注概率密度函数、该预测概率密度函数以及该联合概率密度函数，确定交叉熵损失，将该交叉熵损失作为该第三损失。

本申请提供的装置，通过将第一图像映射为三个不同尺度的图像后进行融合，相较于复杂神经网络中将每个尺度的中间图像均进行融合的方式，降低了结构复杂度、减少了计算量和推理时间，从而能够在移动终端进行部署。

需要说明的是：上述实施例提供的图像处理装置在进行图像处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在本申请实施例中，计算机设备能够被配置为终端或者服务器，当计算机设备被配置为终端时，由终端作为执行主体来实施本申请实施例提供的技术方案，当计算机设备被配置为服务器时，由服务器作为执行主体来实施本申请实施例提供的技术方案，或者通过终端和服务器之间的交互来实施本申请提供的技术方案，本申请实施例对此不作限定。

计算机设备被配置为终端时，图12是根据本申请实施例提供的一种终端1200的结构框图。该终端1200可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1200包括有：处理器1201和存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器1201所执行以实现本申请中方法实施例提供的图像处理方法。

在一些实施例中，终端1200还可选包括有：***设备接口1203和至少一个***设备。处理器1201、存储器1202和***设备接口1203之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1203相连。具体地，***设备包括：射频电路1204、显示屏1205、摄像头组件1206、音频电路1207、定位组件1208和电源1209中的至少一种。

***设备接口1203可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和***设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和***设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1204用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。在一些实施例中，射频电路1204包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1204还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1205用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时，显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时，显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1205可以为一个，设置在终端1200的前面板；在另一些实施例中，显示屏1205可以为至少两个，分别设置在终端1200的不同表面或呈折叠设计；在另一些实施例中，显示屏1205可以是柔性显示屏，设置在终端1200的弯曲表面上或折叠面上。甚至，显示屏1205还可以设置成非矩形的不规则图形，也即异形屏。显示屏1205可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件1206用于采集图像或视频。在一些实施例中，摄像头组件1206包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1207还可以包括耳机插孔。

定位组件1208用于定位终端1200的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1208可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。

电源1209用于为终端1200中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。当电源1209包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于：加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。

加速度传感器1211可以检测以终端1200建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1211可以用于检测重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1211采集的重力加速度信号，控制显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1211还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1212可以检测终端1200的机体方向及转动角度，陀螺仪传感器1212可以与加速度传感器1211协同采集用户对终端1200的3D动作。处理器1201根据陀螺仪传感器1212采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1213可以设置在终端1200的侧边框和/或显示屏1205的下层。当压力传感器1213设置在终端1200的侧边框时，可以检测用户对终端1200的握持信号，由处理器1201根据压力传感器1213采集的握持信号进行左右手识别或快捷操作。当压力传感器1213设置在显示屏1205的下层时，由处理器1201根据用户对显示屏1205的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1214用于采集用户的指纹，由处理器1201根据指纹传感器1214采集到的指纹识别用户的身份，或者，由指纹传感器1214根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1201授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1214可以被设置在终端1200的正面、背面或侧面。当终端1200上设置有物理按键或厂商Logo时，指纹传感器1214可以与物理按键或厂商Logo集成在一起。

光学传感器1215用于采集环境光强度。在一个实施例中，处理器1201可以根据光学传感器1215采集的环境光强度，控制显示屏1205的显示亮度。具体地，当环境光强度较高时，调高显示屏1205的显示亮度；当环境光强度较低时，调低显示屏1205的显示亮度。在另一个实施例中，处理器1201还可以根据光学传感器1215采集的环境光强度，动态调整摄像头组件1206的拍摄参数。

接近传感器1216，也称距离传感器，通常设置在终端1200的前面板。接近传感器1216用于采集用户与终端1200的正面之间的距离。在一个实施例中，当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变小时，由处理器1201控制显示屏1205从亮屏状态切换为息屏状态；当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变大时，由处理器1201控制显示屏1205从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图12中示出的结构并不构成对终端1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

计算机设备被配置为服务器时，图13是根据本申请实施例提供的一种服务器的结构示意图，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1301和一个或一个以上的存储器1302，其中，该存储器1302中存储有至少一条计算机程序，该至少一条计算机程序由该处理器1301加载并执行以实现上述各个方法实施例提供的图像处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一段计算机程序，该至少一段计算机程序由计算机设备的处理器加载并执行以实现上述实施例的图像处理方法中计算机设备所执行的操作。例如，所述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链***。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述各种可选实现方式中提供的图像处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

对所述三个中间图像进行融合，得到第二图像；

2.根据权利要求1所述的方法，其特征在于，所述将第一图像映射为三个中间图像，包括：

对所述第一图像进行卷积，得到第一中间图像；

对所述第一中间图像进行卷积，得到第二中间图像；

对所述第二中间图像进行通道特征强化和语义特征强化，得到第三中间图像，所述通道特征强化用于强化不同通道特征的重要性，所述语义特征强化用于强化全局语义信息。

3.根据权利要求2所述的方法，其特征在于，所述对所述三个中间图像进行融合，得到第二图像，包括：

将所述第三中间图像与所述第二中间图像卷积后的结果进行融合，得到第一融合图像；

将所述第一融合图像与所述第一中间图像卷积后的结果进行融合，得到第二融合图像，将所述第二融合图像作为所述第二图像。

4.根据权利要求1所述的方法，其特征在于，所述将所述第二图像映射为目标图像，包括：

调高所述第二图像的分辨率，得到第三图像，所述第三图像的分辨率不高于所述第一图像的分辨率；

对所述第三图像进行卷积，得到所述目标图像。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述图像处理方法基于人体解析模型实现，所述人体解析模型用于对输入的图像进行人体解析，输出标注有人体的不同部位的图像。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

对样本图像的第一标注图像进行预处理，得到所述样本图像的编码图像，所述第一标注图像用于指示所述样本图像中样本人体的不同部分，所述编码图像用于指示所述样本图像的前一帧图像的预测结果；

对所述样本图像与所述编码图像进行拼接，得到输入图像；

以所述第一标注图像为监督信息，基于所述输入图像，对第i轮迭代的人体解析模型进行训练，i为正整数。

7.根据权利要求6所述的方法，其特征在于，所述对样本图像的第一标注图像进行预处理，得到所述样本图像的编码图像，包括：

对所述样本图像的第一标注图像进行图像变换，得到第二标注图像；

对所述第二标注图像进行编码，得到所述编码图像。

8.根据权利要求7所述的方法，其特征在于，所述对所述样本图像的第一标注图像进行图像变换，得到第二标注图像，包括：

对所述第一标注图像进行刚性变换和非刚性变换中的至少一种，得到所述第二标注图像。

9.根据权利要求7所述的方法，其特征在于，所述对所述第二标注图像进行编码，得到所述编码图像，包括：

将所述第二标注图像中的像素，按照所属的像素类别映射至目标向量空间，得到所述编码图像。

10.根据权利要求6所述的方法，其特征在于，所述对所述样本图像与所述编码图像进行拼接，得到输入图像，包括：

将所述样本图像与所述编码图像在通道维度上进行拼接，得到所述输入图像。

11.根据权利要求6所述的方法，其特征在于，所述以所述第一标注图像为监督信息，基于所述输入图像，对第i轮迭代的人体解析模型进行训练，包括：

基于所述第i轮迭代的人体解析模型对所述输入图像进行人体解析，得到预测图像，所述预测图像用于指示预测得到的所述样本人体的不同部分；

基于所述第一标注图像和所述预测图像，确定第一损失、第二损失以及第三损失，所述第一损失用于指示所述第一标注图像和所述预测图像之间的差异，所述第二损失用于指示所述第一标注图像和所述预测图像在像素加权之后的差异，所述第三损失用于指示所述第一标注图像和所述预测图像在像素添加依赖信息之后的差异，所述依赖信息用于指示像素周围的像素所包含的信息；

基于所述第一损失、所述第二损失以及所述第三损失，调整所述第i轮迭代的人体解析模型的模型参数。

12.根据权利要求11所述的方法，其特征在于，基于所述第一标注图像和所述预测图像，确定所述第二损失的过程，包括：

基于所述预测图像中各个像素类别对应的像素数量，确定所述各个像素类别的类别权重，所述类别权重与像素数量反相关；

基于所述各个像素类别的类别权重，确定加权交叉熵损失，将所述加权交叉熵损失作为所述第二损失。

13.根据权利要求11所述的方法，其特征在于，基于所述第一标注图像和所述预测图像，确定所述第三损失的过程，包括：

基于所述第一标注图像，确定标注概率分布；

基于所述预测图像，确定预测概率分布；

基于所述标注概率分布和所述预测概率分布，确定标注概率密度函数、预测概率密度函数以及联合概率密度函数；

基于所述标注概率密度函数、所述预测概率密度函数以及所述联合概率密度函数，确定交叉熵损失，将所述交叉熵损失作为所述第三损失。

14.一种图像处理装置，其特征在于，所述装置包括：

第一映射模块，用于将第一图像映射为三个中间图像，所述第一图像包括人体，所述三个中间图像的尺度不同，用于表示所述第一图像的图像特征；

15.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行权利要求1至13任一项权利要求所述的图像处理方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储至少一段计算机程序，所述至少一段计算机程序用于执行权利要求1至13任一项权利要求所述的图像处理方法。

17.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至13任一项权利要求所述的图像处理方法。