CN111062261A

CN111062261A - 一种图像处理方法及装置

Info

Publication number: CN111062261A
Application number: CN201911168080.0A
Authority: CN
Inventors: 梁宇
Original assignee: Vivo Mobile Communication Hangzhou Co Ltd
Current assignee: Vivo Mobile Communication Hangzhou Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2020-04-24
Anticipated expiration: 2039-11-25
Also published as: CN111062261B

Abstract

本发明提供了一种图像处理方法及装置。该方法包括：获取目标二维图像内的手部关键点对应的特征图，其中，每个手部关键点对应一个特征图；将特征图输入至预先经过训练的多层级修正网络，生成修正后的特征图，其中，多层级修正网络用于修正相邻手指对应的手部关键点之间的位置偏移；对每个修正后的特征图分别作归一化处理，生成多个目标特征图；对于每一个目标特征图，将目标特征图分别与第一坐标矩阵和第二坐标矩阵作内积运算，生成目标特征图对应的目标手部关键点的坐标，其中，所述第一坐标矩阵、所述第二坐标矩阵均为由坐标构成的矩阵。本发明提升了对手部关键点识别的空间泛化能力、抗噪能力以及准确率。

Description

一种图像处理方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像处理方法及装置。

背景技术

随着深度学习技术的发展，在现有的手部姿态估计算法中，对手部关键点的坐标识别可以分为以下两种方式：

一种方式是通过多层卷积神经网络(CNN)来获取图像特征，然后通过全连接(FC)层来直接得到手部关键点的坐标，但是该方法的泛化性很大程度依赖于神经网络的训练数据集，因此存在着空间泛化能力不足的问题。

另一种方式则是通过求解二维图像的手部关键点的特征图中响应值最大的点，并将该点确定为手部关键点，从而将该点所处的空间拓扑位置作为该手部关键点的坐标。但是这种方式中存在着细微的噪声，会对所识别到的手部关键点的坐标有极大的影响，因此存在着抗噪能力差、坐标识别准确率低的问题。

此外，由于手部关键点较为密集，容易造成手部关键点位置的识别不准确的问题。

发明内容

本发明实施例提供一种图像处理方法及装置，以解决相关技术中对手部关键点的识别方法所存在的空间泛化能力不足、抗噪能力弱、准确率低的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种图像处理方法，应用于电子设备，所述方法包括：

获取目标二维图像内的手部关键点对应的特征图，其中，每个所述手部关键点对应一个特征图；

将所述特征图输入至预先经过训练的多层级修正网络，生成修正后的特征图，其中，所述多层级修正网络用于修正相邻手指对应的手部关键点之间的位置偏移；

对每个所述修正后的特征图分别作归一化处理，生成多个目标特征图；

对于每一个目标特征图，将所述目标特征图分别与第一坐标矩阵和第二坐标矩阵作内积运算，生成所述目标特征图对应的目标手部关键点的坐标，其中，所述第一坐标矩阵、所述第二坐标矩阵均为由坐标构成的矩阵。

第二方面，本发明实施例还提供了一种图像处理装置，应用于电子设备，该装置包括：

第一获取模块，用于获取目标二维图像内的手部关键点对应的特征图，其中，每个所述手部关键点对应一个特征图；

修正模块，用于将所述特征图输入至预先经过训练的多层级修正网络，生成修正后的特征图，其中，所述多层级修正网络用于修正相邻手指对应的手部关键点之间的位置偏移；

归一化模块，用于对每个所述修正后的特征图分别作归一化处理，生成多个目标特征图；

第一生成模块，用于对于每一个目标特征图，将所述目标特征图分别与第一坐标矩阵和第二坐标矩阵作内积运算，生成所述目标特征图对应的目标手部关键点的坐标，其中，所述第一坐标矩阵、所述第二坐标矩阵均为由坐标构成的矩阵。

第三方面，本发明实施例还提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现所述的图像处理方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的图像处理方法的步骤。

在本发明实施例中，通过对手部关键点的特征图进行多层级的修正，能够修正相邻手指的手部关键点之间的偏移，提升识别的手部关键点的准确度；此外，利用目标二维图像中的每个手部关键点对应的归一化处理后的目标特征图，来识别相应手部关键点的坐标，由于该目标特征图保留了手部关键点的空间信息，从而提升了本发明实施例的方法的空间泛化能力；另外，通过两个坐标矩阵来与每个目标特征图进行内积运算，则可以直接计算得到该目标特征图对应的手部关键点的坐标，使得该目标特征图中的每个特征点都参与了计算，从而抑制个别噪声点(噪声概率)对结果的不利影响，提升了抗噪能力。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的图像处理方法的流程图；

图2是本发明另一个实施例的图像处理方法的流程图；

图3是本发明一个实施例的坐标系的示意图；

图4是本发明一个实施例的图像处理装置的框图；

图5是本发明一个实施例的电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，示出了本发明一个实施例的图像处理方法的流程图，所述方法具体可以包括如下步骤：

步骤101，获取目标二维图像内的手部关键点对应的特征图，其中，每个所述手部关键点对应一个特征图；

在本发明实施例中，可以对待处理图像(即一张二维的含手部区域的 RGB图像)进行预处理，具体预处理方式可以为将该待处理图像的尺寸剪裁至本发明实施例的算法模型可以接收的指定图像大小。

那么这里的目标二维图像可以是该待处理图像-即原图，也可以是该原图经过剪裁后得到的指定大小的中间图像，例如该中间图像的尺寸为cQ*cQ。

这里的手部关键点为能够用于识别手部姿态的手部图像区域中的像素点。本发明实施例可以预设几类关键点为手部关键点，例如手指各个关节处的像素点、手指指甲处的像素点等。

该特征图可以反映出该手部关键点的底层特征(例如像素特征)和高层特征(例如空间特征)。

本步骤的目的在于获取到该目标二维图像中各个手部关键点对应的特征图，因此，一个手部关键点对应一张特征图。例如预先设置手部关键点的数量为P，则这里可以获取到P个手部关键点分别对应的P张特征图。

那么具体到获取该特征图的具体方法可以通过将该中间图像输入至预先经过训练的特征提取网络，来得到特征提取网络输出的P个特征图，其中每个特征图的大小为Q*Q，这里，相较于剪裁后的中间图像的尺寸而言，该特征图的尺寸缩小了c倍，c大于0。

可选地，本发明实施例的算法模型可以包括该特征提取网络，那么在执行步骤101时，则将中间图像输入至该特征提取网络，从而的P个特征图。

可选地，本发明实施例的算法模型也可以不包括该特征提取网络，而直接从外部获取到目标二维图像的手部关键点的P个特征图。

那么在训练该特征提取网络时，则可以采用包括手部区域的图像作为训练样本来对该网络进行训练，该特征提取网络收敛后，即得到本发明实施例的经过训练的特征提取网络。其中，该训练样本中的每个图像具有标注数据，标注数据为该图像中各个手部关键点所在的位置。

此外，该特征图可以看作是Q*Q维度的矩阵，例如Q＝5，则该特征图中包括25个点，每个特征点都有一个数值，用于表示该特征图对应的手部关键点的特征。因此，手部关键点的特征图可以用于表示手部关键点的特征信息分布。

步骤102，将所述特征图输入至预先经过训练的多层级修正网络，生成修正后的特征图，其中，所述多层级修正网络用于修正相邻手指对应的手部关键点之间的位置偏移；

继续以步骤101处所列举的示例来进行说明，经过步骤101可以得到P 张特征图，且每个特征图的大小为Q*Q。

因此，P个大小为Q*Q的特征图Z＝{Z₁(u，v)，Z₂(u，v)，...，Z_J(u，v)}。

由于预设手部关键点的数量为P，但是该目标二维图像中的手部关键点可能小于或等于P，因此，这里的J≤P。其中，u、v为一个特征图中各个点的坐标。

本发明实施例的算法模型可以包括该多层级修正网络，该多层级修正网络包括多层的修正网络，每一层的修正网络的网络结构完全一致，该修正网络的具体层数可以根据最终需要达到的修正效果而灵活设置。

由于相关技术中在识别手部关键点的坐标时，会存在将某个手部关键点识别为相邻的手部关键点的情况，因此，为了解决相邻手指对应的手部关键点之间的偏移情况，本发明实施例预先训练该多层级修正网络，经过预先训练后收敛的所述多层级修正网络，专门用于修正相邻手指对应的手部关键点之间的位置偏移。这样，每一张特征图输入至该多层级修正网络后，都可以对特征图中的特征值进行修正，从而解决相邻手指之间关键点偏移的问题。

那么在训练该多层级修正网络时，训练样本为手部关键点的特征图，该特征图的标注数据包括该手部关键点的准确坐标信息，那么利用该训练样本来不断的调节各层修正网络的参数值，直到该多层级修正网络收敛，就可以得到本发明实施例的经过训练的多层级修正网络。利用该经过训练的多层级修正网络修正后的特征图，所得到的关键点的坐标是基本与该关键点的准确坐标相同的。

而这里的所谓多层级修正网络，例如其包括3层修正网络，每层修正网络的结构和参数都是相同的，那么特征图在输入至该3层修正网络后，可以经过第一层修正网络的修正，并将第一次修正后得到的特征图输入至第二层修正网络进行修正，从而得到第二次修正的特征图，再将该第二次修正后的特征图输入至第三层修正网络进行修正，从而得到经过三次修正后的特征图，即步骤102得到的特征图，这样多层级的修正网络可以提升对特征图的修正准确度。

此外，当本发明实施例的算法模型包括特征提取网络时，则该特征提取网络与该多层级的修正网络连接，使得步骤101得到的特征图可以逐个输入至多层级的修正网络进行修正，得到修正后的P张特征图。

可选地，在步骤101之后，在步骤104之前，根据本发明实施例的方法还可以包括：

步骤103，按照以热力图的中心点为坐标系原点的热力图坐标系，对所述特征图中按照原始坐标系设置的每个特征点的坐标进行调整。

其中，本发明对于步骤102和步骤103的执行顺序不做限制，也就是说，本步骤中的所述特征图可以是经过步骤102的修正处理之前的特征图，即步骤101得到特征图，也可以是经过步骤102的修正处理后的特征图。

以步骤103在步骤101之后，在步骤102之前执行为例进行说明：

由于步骤101得到的P个特征图中不同特征图所采用的坐标系并不一定是相同的，因此，为了便于生成下述的第一坐标矩阵和下述第二坐标矩阵，需要对P个特征图的坐标所采用的坐标系进行统一。

在本步骤中，可以以热力图的中心点(即heatmap的图像的中心点)为坐标系原点，对步骤101得到的P个特征图中每个特征图的25个特征点的坐标分别进行调整。

由于各个特征图原始采用的坐标系可能存在差异，因此，这里在对每个特征图的坐标进行偏移调整时，调整量是不同的。

这样，经过步骤103就可以将P个特征图的坐标***一成热力图的坐标系。

例如上述P个大小为Q*Q的特征图Z＝{Z₁(u，v)，Z₂(u，v)，...，Z_J(u，v)}中，每个特征图的特征点的坐标(u，v)即为以热力图坐标系为坐标系的坐标。

在本发明实施例中，通过将特征图的坐标进行坐标系的调整，可以统一不同特征图的坐标系，便于确定各个特征图对应的手部关键点的坐标。

步骤104，对每个所述修正后的特征图分别作归一化处理，生成多个目标特征图；

其中，每个修正后的特征图作归一化处理后，可以生成一张目标特征图，即目标特征图表示归一化处理后的特征图。因此，这里可以生成对应各个手部关键点的多个目标特征图。

其中，由于修正后的特征图中各个特征点的特征值可能不在一个数量级，例如同一个特征图中某个特征值为0.1，某个特征值为1000，那么则难以通过特征值来确定该特征图对应的手部关键点的坐标，因此，需要对P个特征图中的每个特征图均作归一化处理，使得每张归一化处理后的特征图(即每个目标特征图)中的每个特征值都是大于零且小于一的，且归一化后的每一张特征图(即每个目标特征图)的所有特征点的所有特征值的和都是1。

可选地，在对特征图进行归一化处理时，不仅可以对每个特征点的特征值进行归一化处理，还可以对每个特征点的坐标也进行归一化处理，使得归一化处理后的特征点的坐标都在[-1，1]内。

在执行步骤104时，可以通过本领域已知或未来开发的任意一种方法来对特征图作归一化处理。

可选地，在一个实施例中，在执行步骤104时，可以通过以下方式来实现：

首先，将每个所述修正后的特征图对应的二维图像转换为一维图像；

例如该特征图为5*5维度的，则其25个特征点对应有25个特征值以及 25个坐标值。

以对特征值作归一化处理为例进行说明，对坐标值进行归一化处理的方法与其类似，因此不再赘述。

以特征图1为例，可以将该特征图1的该25个特征值从二维转换为一维的数据结构，即从5*5的结构转换为1*25的结构，或者25*1的结构。

然后，对每组所述一维图像分别作归一化处理；

其中，可以采用softmax的方法来对1*25的结构一维的25个数值作归一化处理，使得处理后的25个数值的和变为1，且处理后的每个数值大于零且小于一。

最后，将归一化处理后的每组所述一维图像恢复为对应的归一化处理后的二维图像，生成每个所述手部关键点对应的目标特征图(归一化处理后的特征图)。

其中，可以按照前述步骤在进行结构转换时的转换方式的逆方式进行结构转换，例如将归一化的1*25的结构一维的25个数值，恢复(或者说还原) 为原本的5*5结构，这样，就实现了对二维数据的归一化处理。

例如得到P个归一化处理后的特征图(又名概率热力图)

，每个概率热力图满足以下公式：

其中，k∈[1，J]，

即归一化概率热力图上所有特征点的特征值(又称概率)的和为1。

在本发明实施例中，由于归一化处理的方法一般只针对一维向量进行处理，那么面临本发明实施例的特征图为二维向量时，则可以将该特征图的二维数据转换为一维数据，来进行归一化处理，再将归一化处理的一维数据转换为二维数据，从而实现对二维图像数据的归一化处理。

步骤105，对于每一个目标特征图，将所述目标特征图分别与第一坐标矩阵和第二坐标矩阵作内积运算，生成所述目标特征图对应的目标手部关键点的坐标，其中，所述第一坐标矩阵、所述第二坐标矩阵均为由坐标构成的矩阵。

由于步骤104得到P张归一化处理后的特征图(又称概率热力图)，那么每张概率热力图都可以称为目标特征图，对于每张目标特征图，可以直接利用本发明实施例预先生成的第一坐标矩阵和第二坐标矩阵，来直接生成该目标特征图对应的目标手部关键点的二维坐标。

这里的第一坐标矩阵和第二坐标矩阵都是矩阵，由于该矩阵的各个位置的取值是坐标值，因此，两个矩阵称为坐标矩阵。

该第一坐标矩阵和第二坐标矩阵的维度与所述目标特征图对应的矩阵维度m*n是相同的。该两个坐标矩阵可以称为两个坐标矩阵算子。

由于相关技术中在利用特征图来识别相应的手部关键点的坐标的方法，主要是通过将该特征图中概率值最高的点确定为关键点，并将该概率值最高的点的坐标确定为手部关键点的坐标，由于该概率值最高的点可能是噪声点，即噪声概率，从而影响了对手部关键点的坐标识别准确度。但是，本发明实施例的上述方法借助于上述步骤105解决了上述问题，提升了抗噪能力。

可选地，在步骤105之前，根据本发明实施例的方法还可以包括：

生成第一坐标矩阵的步骤，以及生成第二坐标矩阵的步骤。

那么在具体生成上述两个矩阵时，则可以通过如图2所示的流程来实现：

S201，以所述目标特征图对应的矩阵中心为坐标系原点，建立平面直角坐标系；

例如，该目标特征图为5*5维度的，那么其对应的矩阵中心即为第三行第三列的点。当然，这里由于维度为奇数的，所以，该矩阵中心为该目标特征图中的一个特征点。而当该维度为偶数时，例如目标特征图为4*4维度的，则该矩阵中心不属于该目标特征图中的特征点。

也就是说，该矩阵中心可以是目标特征图中的点，也可以不是该目标特征图中的点。

S202，对所述平面直角坐标系设置横坐标最大值、横坐标最小值、纵坐标最大值、纵坐标最小值；

其中，当特征图对应的矩阵为方阵时，即m＝n，则可以将所述平面直角坐标系的横坐标最大值、横坐标最小值、纵坐标最大值、纵坐标最小值分别设置为数值a、数值-a、数值b以及数值-b，其中，a>0，b>0，其中，a可以与b相同或不同。

由于该平面直角坐标系的原点为该m*n的矩阵的中心点，且m＝n，因此，横坐标最大值和横坐标最小值的绝对值相同，纵坐标最大值和纵坐标最小值的绝对值相同。

在一个示例中，为了便于理解，后文以m＝n＝5，a＝b＝1为例进行说明。

其中，S202在S201之后执行。

S203，获取所述目标特征图对应的矩阵维度m*n；

其中，m≥2，n≥2，m、n均为整数；

其中，本发明对于S201和S203的执行顺序不做限制。

本例中m＝n＝5。需要说明的是，一般情况下神经网络的输入数据都是正方形的图像数据，因此，优选地，该m＝n。

S204，将所述平面直角坐标系的横轴，在所述横坐标最大值和所述横坐标最小值的范围内进行n-1等分，生成n个横坐标；

其中，由于n为目标特征图对应的矩阵的列数，所以，如图3所示，可以将横轴(u轴)在-1～1范围内进行4等分，得到5个横坐标，从左至右依次为-1、-0.5、0、0.5、1。

S205，将所述平面直角坐标系的纵轴，在所述纵坐标最大值和所述纵坐标最小值的范围内进行m-1等分，生成m个纵坐标；

其中，由于m为目标特征图对应的矩阵的行数，所以，如图3所示，可以将纵轴(v轴)在-1～1范围内进行4等分，得到5个纵坐标：1、0.5、0、 -0.5、-1。

其中，在S202和S203之后，执行S204、S205，本发明对于S204和 S205之间的执行顺序不做限制。

S206，按照所述n个横坐标在所述平面直角坐标系中从左至右的排列顺序，将所述n个横坐标依次设置为m*n的矩阵中从左至右的n列数据，生成 m*n维度的第一坐标矩阵；

利用图3所示的坐标系，则可以生成下述对应于该目标特征图的横坐标矩阵(即第一坐标矩阵X)。

S207，按照所述m个纵坐标在所述平面直角坐标系中从上至下的排列顺序，将所述m个纵坐标依次设置为m*n的矩阵中从上至下的m行数据，生成m*n维度的第二坐标矩阵。

利用图3所示的坐标系，则可以生成下述对应于该目标特征图的纵坐标矩阵(即第二坐标矩阵Y)。

其中，本发明对于S206和S207之间的执行顺序不做限制。

这样，第一坐标矩阵相当于为归一化后的概率热力图(即目标特征图) 中每一个特征点(即概率)都赋予了S201的相对坐标系的横坐标，而第二坐标矩阵相当于归一化后的概率热力图(即目标特征图)中每一个特征点(即概率)都赋予了S201的相对坐标系的纵坐标。

在本发明实施例中，利用目标特征图来生成第一坐标矩阵和第二坐标矩阵，使得两个矩阵能够为该目标特征图中的每个概率都赋予坐标，便于利用该坐标和每个概率，来直接计算出该目标特征图对应的目标手部关键点的坐标。

可选地，在一个实施例中，在执行步骤105时，可以通过S301～S303来实现：

S301，对于每一个目标特征图，将所述目标特征图中每个特征点分别与第一坐标矩阵中相同位置的横坐标进行相乘，并将相乘结果相加，生成所述目标特征图对应的目标手部关键点的目标横坐标；

其中，该目标特征图中的每个特征点的取值都是一个概率，所以，该目标特征图中的25个概率可以看做是5*5的矩阵，例如矩阵

例如定义<·，·>符号表示矩阵内积运算，则

表示第k个手部关键点的目标横坐标，k∈[1，J]，J为得到的特征图的数量，

表示第k个归一化后的特征图。

具体而言，

中每个概率(即特征点)的坐标(u，v)，其中，25个概率的u值构成X矩阵，25个概率的v值构成Y矩阵。那么在计算矩阵

对应的目标手部关键点的目标横坐标值时，则可以分别计算5行的内积；

矩阵

的第一行与X矩阵的第一行的内积为：P11*(-1)+P12*(-0.5) +P13*(0)+P14*(0.5)+P15*(1)；

矩阵

的第二行与X矩阵的第二行的内积为：P21*(-1)+P22*(-0.5) +P23*(0)+P24*(0.5)+P25*(1)；

以此类推的计算，可以得到5行的内积，再将5行的内积求和，即得到矩阵

对应的目标手部关键点的目标横坐标值。

S302，对于每一个目标特征图，将所述目标特征图中每个特征点分别与第二坐标矩阵中相同位置的纵坐标进行相乘，并将相乘结果相加，生成所述目标特征图对应的目标手部关键点的目标纵坐标；

计算该目标纵坐标值的方法与S301所举例的方法类似，是将矩阵Y与矩阵

作内积运算，得到矩阵

对应的目标手部关键点的目标纵坐标值。

其中，本发明对于S301和S302之间的执行顺序不作限制。

S303，将所述目标横坐标和所述目标纵坐标分别设置为所述目标手部关键点的横坐标以及纵坐标，生成所述目标手部关键点的坐标。

那么对J个特征图对应的J个矩阵都进行上述的内积运算，则所求的J个手部关键点的坐标，定义为

其中 k∈[1，J]。

在本发明实施例中，这种坐标矩阵(即算子)来和归一化的特征图的概率值作内积运算，能够极大程度地利用归一化的特征图，使得该特征图上每个概率都参与到最终求解的目标手部关键点的坐标的计算，从而能够有效抑制个别噪声点(噪声概率)对结果的不利影响。同时，通过概率热力图直接计算得到坐标，相对于找最大概率值再确定位置的间接方式，坐标回归精度更高。

可选地，在一个实施例中，本发明实施例可以利用上述实施例生成的各个目标手部关键点的坐标，来进行手部姿态的估计。

手部姿态估计是计算机视觉领域中手势识别任务中的一种，相较于基于可穿戴设备的手势识别而言，手部姿态估计主要基于图像处理，具备成本低、使用不受可穿戴设备限制的特点，因而，该技术在人机交互等领域有着良好的应用前景。

那么在传统的手部姿态估计技术中，大多利用带有深度信息的图像来进行处理(3D手部姿态估计)，也存在少量只利用RGB图像来进行姿态估计的算法(2D手部姿态估计)。

对于利用带有深度信息图像的手部姿态估计算法而言，图像的获取方式大多来源于专业的深度摄像头，其使用场景一定程度上依赖于深度摄像头，无法大规模应用在移动端普通摄像头的使用场景中。因此，只利用RGB图像信息成为手部姿态估计的有利趋势。

因此，在本发明实施例中，可以将步骤105得到的目标手部关键点的坐标，映射到原始的待处理图像中的坐标，从而得到各个目标手部关键点的目标坐标；然后，按照预设的手部关键点之间的连接顺序，对所述目标二维图像中坐标为所述目标坐标的各个手部关键点依次连接，生成所述目标二维图像中的手部姿态图像，从而达到对目标二维图像进行手部姿态估计的目的。

可选地，当所述方法包括上述步骤103时，则在步骤105之后，根据本发明实施例的方法还可以包括：

按照所述原始坐标系，对每个所述手部关键点的坐标进行调整；

其中，由于步骤105得到的手部关键点的坐标是以热力图坐标系为坐标系的坐标，这里需要调整为以原始坐标系为坐标系的坐标，即对步骤105得到的每个手部关键点进行偏移调整。

将调整后的每个所述手部关键点的坐标映射至所述目标二维图像的坐标系，生成每个所述手部关键点的目标坐标；

其中，由于步骤101得到的特征图的尺寸相较于该目标二维图像的尺寸是缩小了c倍的，因此，可以对调整后的坐标扩大c倍，从而映射到该目标二维图像的坐标系，生成每个手部关键点的目标坐标。

按照预设的手部关键点之间的连接顺序，对所述目标二维图像中坐标为所述目标坐标的各个所述手部关键点依次连接，生成所述目标二维图像中的手部姿态图像。

在本发明实施例中，可以将手部关键点的坐标映射到目标二维图像中，从而对目标二维图像中的各个手部关键点的位置进行连接，得到该目标二维图像中手部的姿态图像，实现了对手部姿态的估计。

参照图4，示出了本发明一个实施例的图像处理装置的框图。本发明实施例的图像处理装置能实现上述实施例中的图像处理方法的细节，并达到相同的效果。图4所示图像处理装置，可以应用于电子设备，该装置包括：

第一获取模块41，用于获取目标二维图像内的手部关键点对应的特征图，其中，每个所述手部关键点对应一个特征图；

修正模块42，用于将所述特征图输入至预先经过训练的多层级修正网络，生成修正后的特征图，其中，所述多层级修正网络用于修正相邻手指对应的手部关键点之间的位置偏移；

归一化模块43，用于对每个所述修正后的特征图分别作归一化处理，生成多个目标特征图；

第一生成模块44，用于对于每一个目标特征图，将所述目标特征图分别与第一坐标矩阵和第二坐标矩阵作内积运算，生成所述目标特征图对应的目标手部关键点的坐标，其中，所述第一坐标矩阵、所述第二坐标矩阵均为由坐标构成的矩阵。

可选地，所述装置还包括：

建立模块，用于以所述目标特征图对应的矩阵中心为坐标系原点，建立平面直角坐标系；

设置模块，用于对所述平面直角坐标系设置横坐标最大值、横坐标最小值、纵坐标最大值、纵坐标最小值；

第二获取模块，用于获取所述目标特征图对应的矩阵维度m*n，其中， m≥2，n≥2，m、n均为整数；

第一等分模块，用于将所述平面直角坐标系的横轴，在所述横坐标最大值和所述横坐标最小值的范围内进行n-1等分，生成n个横坐标；

第二等分模块，用于将所述平面直角坐标系的纵轴，在所述纵坐标最大值和所述纵坐标最小值的范围内进行m-1等分，生成m个纵坐标；

第二生成模块，用于按照所述n个横坐标在所述平面直角坐标系中从左至右的排列顺序，将所述n个横坐标依次设置为m*n的矩阵中从左至右的n 列数据，生成m*n维度的第一坐标矩阵；

第三生成模块，用于按照所述m个纵坐标在所述平面直角坐标系中从上至下的排列顺序，将所述m个纵坐标依次设置为m*n的矩阵中从上至下的 m行数据，生成m*n维度的第二坐标矩阵。

可选地，所述第一生成模块44包括：

第一生成子模块，用于对于每一个目标特征图，将所述目标特征图中每个特征点分别与第一坐标矩阵中相同位置的横坐标进行相乘，并将相乘结果相加，生成所述目标特征图对应的目标手部关键点的目标横坐标；

第二生成子模块，用于对于每一个目标特征图，将所述目标特征图中每个特征点分别与第二坐标矩阵中相同位置的纵坐标进行相乘，并将相乘结果相加，生成所述目标特征图对应的目标手部关键点的目标纵坐标；

第三生成子模块，用于将所述目标横坐标和所述目标纵坐标分别设置为所述目标手部关键点的横坐标以及纵坐标，生成所述目标手部关键点的坐标。

可选地，所述装置还包括：

第一调整模块，用于按照以热力图的中心点为坐标系原点的热力图坐标系，对所述特征图中按照原始坐标系设置的每个特征点的坐标进行调整。

可选地，所述装置还包括：

第二调整模块，用于按照所述原始坐标系，对每个所述手部关键点的坐标进行调整；

第四生成模块，用于将调整后的每个所述手部关键点的坐标映射至所述目标二维图像的坐标系，生成每个所述手部关键点的目标坐标；

第五生成模块，用于按照预设的手部关键点之间的连接顺序，对所述目标二维图像中坐标为所述目标坐标的各个所述手部关键点依次连接，生成所述目标二维图像中的手部姿态图像。

可选地，所述归一化模块43包括：

第一转换子模块，用于将每个所述修正后的特征图对应的二维图像转换为一维图像；

归一化子模块，用于对每组所述一维图像分别作归一化处理；

第二转换子模块，用于将归一化处理后的每组所述一维图像恢复为对应的归一化处理后的二维图像，生成每个所述手部关键点对应的目标特征图。

本发明实施例提供的图像处理装置能够实现上述方法实施例实现的各个过程，为避免重复，这里不再赘述。

图5为实现本发明各个实施例的一种电子设备的硬件结构示意图，

该电子设备400包括但不限于：射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、处理器410、以及电源411等部件。本领域技术人员可以理解，图5中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

处理器410，用于获取目标二维图像内的手部关键点对应的特征图，其中，每个所述手部关键点对应一个特征图；将所述特征图输入至预先经过训练的多层级修正网络，生成修正后的特征图，其中，所述多层级修正网络用于修正相邻手指对应的手部关键点之间的位置偏移；对每个所述修正后的特征图分别作归一化处理，生成多个目标特征图；对于每一个目标特征图，将所述目标特征图分别与第一坐标矩阵和第二坐标矩阵作内积运算，生成所述目标特征图对应的目标手部关键点的坐标，其中，所述第一坐标矩阵、所述第二坐标矩阵均为由坐标构成的矩阵。

应理解的是，本发明实施例中，射频单元401可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器410处理；另外，将上行的数据发送给基站。通常，射频单元401包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元401还可以通过无线通信***与网络和其他设备通信。

电子设备通过网络模块402为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元403可以将射频单元401或网络模块402接收的或者在存储器409中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元403还可以提供与电子设备400执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元403包括扬声器、蜂鸣器以及受话器等。

输入单元404用于接收音频或视频信号。输入单元404可以包括图形处理器(Graphics Processing Unit，GPU)4041和麦克风4042，图形处理器4041 对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元 406上。经图形处理器4041处理后的图像帧可以存储在存储器409(或其它存储介质)中或者经由射频单元401或网络模块402进行发送。麦克风4042 可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元401发送到移动通信基站的格式输出。

电子设备400还包括至少一种传感器405，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板4061的亮度，接近传感器可在电子设备400移动到耳边时，关闭显示面板4061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器405还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元406用于显示由用户输入的信息或提供给用户的信息。显示单元406可包括显示面板4061，可以采用液晶显示器(Liquid Crystal Display， LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板4061。

用户输入单元407可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元407 包括触控面板4071以及其他输入设备4072。触控面板4071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板4071上或在触控面板4071附近的操作)。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器410，接收处理器410发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板4071。除了触控面板4071，用户输入单元407还可以包括其他输入设备4072。具体地，其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板4071可覆盖在显示面板4061上，当触控面板4071 检测到在其上或附近的触摸操作后，传送给处理器410以确定触摸事件的类型，随后处理器410根据触摸事件的类型在显示面板4061上提供相应的视觉输出。虽然在图5中，触控面板4071与显示面板4061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板4071与显示面板4061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元408为外部装置与电子设备400连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元408可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备400内的一个或多个元件或者可以用于在电子设备400和外部装置之间传输数据。

存储器409可用于存储软件程序以及各种数据。存储器409可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器409可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器410是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器409内的软件程序和/或模块，以及调用存储在存储器409内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器410可包括一个或多个处理单元；优选的，处理器410可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器410中。

电子设备400还可以包括给各个部件供电的电源411(比如电池)，优选的，电源411可以通过电源管理***与处理器410逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

另外，电子设备400包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种电子设备，包括处理器410，存储器 409，存储在存储器409上并可在所述处理器410上运行的计算机程序，该计算机程序被处理器410执行时实现上述图像处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述图像处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种图像处理方法，应用于电子设备，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对于每一个目标特征图，将所述目标特征图分别与第一坐标矩阵和第二坐标矩阵作内积运算，生成所述目标特征图对应的目标手部关键点的坐标之前，所述方法还包括：

以所述目标特征图对应的矩阵中心为坐标系原点，建立平面直角坐标系；

对所述平面直角坐标系设置横坐标最大值、横坐标最小值、纵坐标最大值、纵坐标最小值；

获取所述目标特征图对应的矩阵维度m*n，其中，m≥2，n≥2，m、n均为整数；

将所述平面直角坐标系的横轴，在所述横坐标最大值和所述横坐标最小值的范围内进行n-1等分，生成n个横坐标；

将所述平面直角坐标系的纵轴，在所述纵坐标最大值和所述纵坐标最小值的范围内进行m-1等分，生成m个纵坐标；

按照所述n个横坐标在所述平面直角坐标系中从左至右的排列顺序，将所述n个横坐标依次设置为m*n的矩阵中从左至右的n列数据，生成m*n维度的第一坐标矩阵；

按照所述m个纵坐标在所述平面直角坐标系中从上至下的排列顺序，将所述m个纵坐标依次设置为m*n的矩阵中从上至下的m行数据，生成m*n维度的第二坐标矩阵。

3.根据权利要求1所述的方法，其特征在于，所述对于每一个目标特征图，将所述目标特征图分别与第一坐标矩阵和第二坐标矩阵作内积运算，生成所述目标特征图对应的目标手部关键点的坐标，包括：

对于每一个目标特征图，将所述目标特征图中每个特征点分别与第一坐标矩阵中相同位置的横坐标进行相乘，并将相乘结果相加，生成所述目标特征图对应的目标手部关键点的目标横坐标；

对于每一个目标特征图，将所述目标特征图中每个特征点分别与第二坐标矩阵中相同位置的纵坐标进行相乘，并将相乘结果相加，生成所述目标特征图对应的目标手部关键点的目标纵坐标；

将所述目标横坐标和所述目标纵坐标分别设置为所述目标手部关键点的横坐标以及纵坐标，生成所述目标手部关键点的坐标。

4.根据权利要求1所述的方法，其特征在于，

所述对每个所述修正后的特征图分别作归一化处理之前，所述方法还包括：

按照以热力图的中心点为坐标系原点的热力图坐标系，对所述特征图中按照原始坐标系设置的每个特征点的坐标进行调整。

5.根据权利要求4所述的方法，其特征在于，所述对于每一个目标特征图，将所述目标特征图分别与第一坐标矩阵和第二坐标矩阵作内积运算，生成所述目标特征图对应的目标手部关键点的坐标之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述对每个所述修正后的特征图分别作归一化处理，生成多个目标特征图，包括：

将每个所述修正后的特征图对应的二维图像转换为一维图像；

对每组所述一维图像分别作归一化处理；

将归一化处理后的每组所述一维图像恢复为对应的归一化处理后的二维图像，生成每个所述手部关键点对应的目标特征图。

7.一种图像处理装置，应用于电子设备，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取所述目标特征图对应的矩阵维度m*n，其中，m≥2，n≥2，m、n均为整数；

第二生成模块，用于按照所述n个横坐标在所述平面直角坐标系中从左至右的排列顺序，将所述n个横坐标依次设置为m*n的矩阵中从左至右的n列数据，生成m*n维度的第一坐标矩阵；

第三生成模块，用于按照所述m个纵坐标在所述平面直角坐标系中从上至下的排列顺序，将所述m个纵坐标依次设置为m*n的矩阵中从上至下的m行数据，生成m*n维度的第二坐标矩阵。

9.根据权利要求7所述的装置，其特征在于，所述第一生成模块包括：

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：