CN107392097B

CN107392097B - 一种单目彩***的三维人体关节点定位方法

Info

Publication number: CN107392097B
Application number: CN201710453792.1A
Authority: CN
Inventors: 聂琳; 王可泽; 林木得; 成慧; 王青
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2017-06-15
Filing date: 2017-06-15
Publication date: 2020-07-07
Anticipated expiration: 2037-06-15
Also published as: CN107392097A

Abstract

本发明提供了一种单目彩***的三维人体关节点定位方法，包括以下步骤：S1、构建可配置的深度模型，并在该深度模型中引入时序信息；S2、采集训练样本，并利用训练样本学习出深度模型的参数；S3、利用S2中学习得到的参数对深度模型进行初始化，将需要进行三维人体关节点定位的单目彩***数据转化为连续多帧二维图像，输入深度模型以进行分析；针对每帧二维图像，输出其中人物的三维人体关节点坐标。本发明利用深度学习，构建深层次的卷积神经网络，来从大量的训练样本中自动学习出有效的时空特征，而不再依赖人工设计的先验条件和人体关节结构约束；通过学习出的有效特征，直接回归出人体的关节点位置。

Description

一种单目彩***的三维人体关节点定位方法

技术领域

本发明涉及三维人体姿态识别、计算机视觉、模式识别和人机交互领域，特别是基于卷积神经网络和长短时记忆网络的单目彩***的三维人体关节点定位方法。

背景技术

姿态估计是计算机视觉研究的一个重要领域，其主要任务是让计算机能够自动地感知场景中的人“在哪里”和判断人在“干什么”，它的应用包括智能监控、病人监护和一些涉及人机交互的***。人体姿势的目标是希望能够自动地从未知的视频中(例如，一段图像帧)中推测人体各个部分的姿态参数(例如，关节点坐标)。通过这些姿态参数可以在三维空间中重建人体的动作，为整个场景的语义理解奠定基础。

然而随着社会的进步，当前的二维姿态估计已经不能满足用户的需求，并且在普通的RGB图像或视频中估计姿态受光照、遮挡、环境因素影响大，难以做到鲁棒。而目前从单彩色图像序列中估计三维姿态不仅要面对估计二维姿态存在的挑战，还面临如何确保三维姿态的几何约束的问题。

现在对单目彩***中三维人物关节点定位主要存在以下难点：

1、人物外表变化大，相机视点不固定，外物或者自身遮挡导致的部分关节点不可见。

2、从几何角度来说三维姿态本身含有二义性。

现有的三维姿态识别方法多是依赖人工设计的先验条件和人体关节结构约束，但是这种方法评测内部各个模块，也不能根据具体情境进行扩展。

发明内容

为了克服上述现有技术的不足，本发明提供了一种基于卷积神经网络和长短时记忆网络的单目彩***的三维人体关节点定位方法，该方法可以有效地自动抽取复杂人物姿态的时空特征，提高姿势估计的准确率。

为实现上述目的，本发明采用以下技术方案：

一种单目彩***的三维人体关节点定位方法，包括以下步骤：

S1、构建可配置的深度模型，并在该深度模型中引入时序信息；

其中，所述深度模型包括互相串联的卷积神经网络和长短时记忆网络；

所述卷积神经网络用于对视频数据进行逐帧处理，提取二维图像中人物的二维人体关节点特征，并将二维图像中人物的二维人体关节点特征转化到三维人体关节点坐标相关的特征空间；

所述长短时记忆网络用于结合当前帧及其之前的连续多帧二维图像的特征信息，预测出当前帧二维图像的三维人体关节点坐标；

S2、采集训练样本，并利用训练样本学习出深度模型的参数；所述训练样本包括：被转换成连续多帧二维图像的视频数据、每帧二维图像对应的真实的二维人体关节点坐标和三维人体关节点坐标；其中，视频数据和二维人体关节点坐标用于供深度模型学习出构建卷积神经网络的参数，视频数据和三维人体关节点坐标用于供深度模型学习出构建长短时记忆网络的参数；

S3、利用S2中学习得到的参数对深度模型进行初始化，将需要进行三维人体关节点定位的单目彩***数据转化为连续多帧二维图像，输入深度模型以进行分析；针对每帧二维图像，输出其中人物的三维人体关节点坐标。

进一步地，所述卷积神经网络包括互相串联的二维特征抽取模块和特征转化模块；

所述二维特征抽取模块包括依次串联的多个二维卷积层和穿插连接于二维卷积层之间的多个降采样层，用于提取二维图像的人物相关特征；所述特征转化模块包括依次串联的多个二维卷积层和1个第一全连接层，用于将二维图像的人物特征转化到三维人体关节点坐标相关的特征空间，最终通过第一全连接层输出到长短时记忆网络；

所述长短时记忆网络包括互相串联的长短时记忆层和第二全连接层；所述长短时记忆层包括依次连接的多个长短时记忆单元，用于引入连续多帧二维图像的时序信息，将经卷积神经网络处理得到的当前帧及其之前的连续多帧二维图像的特征信息按照时序排列并记忆，以在预测当前帧二维图像的三维人体关节点坐标时提供参考；所述第二全连接层用于最终输出预测的当前帧二维图像的三维人体关节点坐标。

进一步地，在所述卷积神经网络中，每个二维卷积层后面连接一个矫正线性单元层；

所述二维卷积层用于对输入的图像或者特征图在二维空间上进行卷积运算，提取层次化特征；

所述降采样层使用没有重叠的max-pooling操作，用于提取形状和偏移不变的特征，同时减少特征图大小，提高计算效率；

所述矫正线性单元层采用非线性阀值函数，对输入信号进行只允许非负信号通过的变化。

进一步地，所述第一全连接层为隐藏层，是在二维卷积层的输出上建立的感知机模型；

具体地，所述特征转化模块中的二维卷积层用于大幅减小特征图的大小，第一全连接层用于将前面各层处理得到的二维关节点特征图串联成一个特征序列，该序列是从单目彩***中抽取到的特征，它的每一维元素都连向隐藏层的所有节点，输出人物三维关节点特征并进一步全连接到长短时记忆网络的输入；

所述第二全连接层为逻辑回归层，是整个深度模型的输出；

具体地，作为深度模型输出的第二全连接层的输出将长短时记忆层的输出映射到一个Kx3维的实数序列，其中K为人体关节点的数量；所述实数序列中每三个单元的输出为单目彩***中人物对应关节点的三维坐标。

进一步地，所述S2中，通过隐式网络结构反向传播算法来学习深度模型的参数，具体包括：

S201、采集训练样本；

S202、利用训练样本中的视频数据和二维人体关节点坐标，预学习出构建二维特征抽取模块的模型参数；

S203、初始化卷积神经网络和长短时记忆网络的模型参数，其中，二维特征抽取模块的模型参数采用S202中预学习得到的参数进行初始化，其余部分的模型参数随机初始化；

S204、将视频数据输入深度模型，采用前向传播算法，预测出三维人体关节点坐标；

S205、将训练样本中真实的三维人体关节点坐标与S204中预测的三维人体关节点坐标进行对比运算，采用后向传播算法，学习出S203中所述的其余部分的参数。

进一步地，所述S202具体包括以下步骤：

S2021、在二维特征抽取模块的后面接1x1的二维卷积层，以输出每个二维人体关节点的特征图；

S2022、随机初始化二维特征抽取模块的参数；

S2023、利用训练样本中转换成连续多帧二维图像的视频数据及每帧图像对应的二维人体关节点坐标，使用后向传播算法学习出构建二维特征抽取模块的模型参数；

预学习过程用的损失函数是预测的特征图和理想的置信图的欧氏距离，其定义如下：

其中，K是关节点数目，b^k(z)是关节点k的预测特征图，

是关节点k的置信图，z是置信图的包含的空间范围。

进一步地，在S205中，具体包括：计算训练样本中真实的三维人体关节点坐标与S204中预测的三维人体关节点坐标的误差；采用时序反向传播算法求长短时记忆网络中各个参数的偏导数；根据长短时记忆网络传入的残差，通过反向传播算法求卷积神经网络中各个参数的偏导数；根据计算结果更新模型参数并重复迭代计算；

具体地，先求解训练样本中真实的三维人体关节点坐标与S204中预测的三维人体关节点坐标之间的损失函数J(ω)，然后求得其对于参数ω的梯度，采用Adam算法更新ω，总的损失函数J(ω)定义为：

其中，batch_size为输入深度模型的连续帧数目，K为关节点数目，

为前向传播算法预测的三维人体关节点坐标，

为训练样本中真实的三维人体关节点坐标。

进一步地，在S2和S3中，将视频数据输入深度模型前，还需对每一帧二维图像添加记忆标记参数，以区分记忆帧和遗忘帧；记忆标记参数和视频数据一同作为深度模型的输入；

所述添加记忆标记参数的方法包括：当视频数据为多段不连续的视频数据时，每段视频数据的开头第一帧标记为遗忘帧；对于一段连续的视频数据，除视频数据的开头第一帧标记为遗忘帧外，按照时序，每间隔若干帧后，选取下一帧标记为遗忘帧；其余帧均标记为记忆帧；其中，两个相邻遗忘帧之间间隔的记忆帧数小于长短时记忆层中包含的长短时记忆单元个数；

在深度模型的长短时记忆层中，当当前处理的二维图像为遗忘帧时，长短时记忆单元对之前记忆的二维图像特征信息进行遗忘，此时，长短时记忆网络仅参考遗忘帧的特征信息进行三维人体关节点坐标的预测；当当前处理的二维图像为记忆帧时，长短时记忆单元对之前处理过的连续若干帧二维图像特征信息保持记忆并沿用，此时，长短时记忆网络同时参考当前帧和直到上一个遗忘帧(包括遗忘帧)之间的全部帧的特征信息进行三维人体关节点坐标的预测。

进一步地，每个长短时记忆单元包括1个输入门、1个输出门、1个忘记门和1个记忆元组；其中，忘记门用于控制记忆元组，对记忆元组记录的内容进行选择性遗忘。

进一步地，在S2和S3中，将视频数据输入深度模型前，还需对视频数据进行人物区域初步定位处理，所述人物区域初步定位处理包括：识别视频数据中每一帧二维图像的人物区域，使用矩形框将人物区域包围起来，形成人物矩形包围框；将人物矩形包围框外的图像信息去除，仅将人物矩形包围框内的图像输入深度模型。

与现有技术相比，本发明的有益效果是：

第一，本发明利用深度学习，构建深层次的卷积神经网络，来从大量的训练样本(这些训练样本包含了摄像机摆放的多种角度、摄像机与人的多种距离和人物自身的多种遮挡程度)中自动学习出有效的时空特征，而不再依赖人工设计的先验条件和人体关节结构约束；通过学习出的有效特征，直接回归出人体的关节点位置。

第二，本发明用一个模型同时强调了人体的二维空间关系、三维几何约束和时序连续性；通过获取身体各部分的长时间依赖关系来提高三维姿态估计的准确性，充分利用时空约束。并且本发明具有端对端训练的可微分结构，可以整体优化模型的各个模块。

本发明同时强调人体姿态的时空约束及时序的连续性，能抗遮挡、噪声等多种挑战，拥有很高的准确率。

附图说明

图1是本发明提供的一种单目彩***的三维人体关节点定位方法的流程示意图。

图2是本发明中深度模型中各层的分布图。

图3是本发明提供的一种单目彩***的三维人体关节点定位方法的数据流向图。

具体实施方式

下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。

如图1所示，本发明提供了一种单目彩***的三维人体关节点定位方法，其主要包括以下步骤：

S2、采集训练样本，并利用训练样本学习出深度模型的参数；

S3、利用S2中学习得到的参数对深度模型进行初始化，将需要进行三维人体关节点定位的单目彩***数据转化为图片流(即连续多帧二维图像)，输入深度模型以进行分析；针对每帧二维图像，输出其中人物的三维人体关节点坐标。

本发明S1中提出了一个卷积神经网络和长短时记忆网络相结合的深度模型，以对单目彩***中的三维人体姿态关节点进行估计。下面将对本发明采用的深度模型的结构进行详细说明。

如图2所示，本发明中，所述深度模型包括互相串联的深层卷积神经网络和长短时记忆网络。所述卷积神经网络用于对视频数据进行逐帧处理，提取二维图像中人物的二维人体关节点特征，并将二维图像中人物的二维人体关节点特征转化到三维人体关节点坐标相关的特征空间；

所述长短时记忆网络用于结合当前帧及其之前的连续多帧二维图像的特征信息，预测出当前帧二维图像的三维人体关节点坐标。

具体地，所述卷积神经网络包括互相串联的二维特征抽取模块和和特征转化模块；其中，所述二维特征抽取模块包括依次串联的多个二维卷积层和穿插连接于二维卷积层之间的多个降采样层，用于提取二维图像的人物相关特征；所述特征转化模块包括依次串联的多个二维卷积层和1个第一全连接层，用于将二维图像的人物特征转化到三维人体关节点坐标相关的特征空间，最终通过第一全连接层输出到长短时记忆网络。

进一步地，在所述卷积神经网络中，每个二维卷积层后面连接一个矫正线性单元层。

在本发明实施例中，二维特征抽取模块中有17个二维卷积层和3个降采样层。所述特征转化模块则包括2个二维卷积层。

深度模型中各层的具体分布如图3所示，其中，conv为二维卷积层，pool为降采样层，lstm为长短时记忆层，fc_1为第一全连接层，fc_2为第二全连接层，矫正线性单元层未在图2中示出。下面将逐一介绍：

二维卷积层：所述二维卷积层用于对输入的图像或者特征图在二维空间上进行卷积运算，提取层次化特征。具体地，假设输入图像的宽度和高度分别为w和h，三维卷积核的大小为w′×h′×m′,其中w′，h′，m′分别表示宽度，高度和通道数。卷积后可以获得一个特征图，其中位于特征图(x,y)位置处的值可以表示成：

其中p_{(x+i)(y+j)(s+k)}表示输入的第(s+k)个通道在(x+I,y+j)位置的像素值，ω_ijk表示卷积核的参数，b表示跟与该特征图相关的偏置。故此我们可以得到一个特征图，每个特征图的大小为(w-w′+1，h-h′+1)。由于单个卷积核只能抽取一种类型的特征，因此我们在每层二维卷积层中引入了多个卷积核抽取多种不同的特征。

降采样层(又称为池化层)：所述降采样层使用没有重叠的max-pooling(对邻域内特征点取最大)操作，用于提取形状和偏移不变的特征，同时减少特征图大小，提高计算效率。其中，max-pooling操作是指对特征图按照一定策略(选取最大值)进行降采样的过程，这是一种被广泛应用的有效过程，它能够提取出保持形状和偏移不变性的特征。对于一组特征图，max-pooling操作通过对它们降采样，得到同样数量的一组低分辨率特征图。并且本发明在a₁×a₂大小的特征图上应用2×2的max-pooling操作，抽取2×2不重叠区域上的最大值，得到大小为a₁/2×a₂/2的新特征图。

矫正线性单元层：所述矫正线性单元层采用简单的非线性阀值函数，对输入信号进行只允许非负信号通过的变化。矫正线性单元层是神经网络里的一个基本单元层，在所有的卷积单元层后面都会有这一个单元层的存在。假设g表示本层的输出，W表示本层边的权重，a表示本层输入，则我们有：

g＝max(0，W^Ta)；

实验证明在深层卷积神经网络中，使用校正线性单元可使网络的训练收敛速度比使用传统的激励函数更快。

长短时记忆层：所述长短时记忆层可以看做是一个包含T个长短时记忆单元的小网络，T是输入网络的连续帧数量。每个长短时记忆单元由输入门l，忘记门φ，输出门ω和记忆元组c四个节点组成，其中，忘记门用于控制记忆元组，对记忆元组记录的内容进行选择性遗忘。

前向传播时t时刻各节点的净输入包括t时刻的输入和t-1时刻的历史信息，具体公式如下：

输入门：

忘记门：

记忆元组：

输出门：

其中，

表示单元j在t时刻的净输入，

表示单元j的激活值，W_ij表示节点i与节点j之间的连接权重,

表示t时刻记忆元组c的状态，I表示输入的数量，H表示记忆元组的数量，f、g、h表示激活函数。

第一全连接层：所述第一全连接层为隐藏层，是在二维卷积层的输出上建立的感知机模型。具体地，为了将卷积神经网络与长短时记忆网络连接在一起，本发明引入了特征转化模块，再加上长短时记忆层的输入要求是一个序列，因此所述特征转化模块中的二维卷积层用于大幅减小特征图的大小，第一全连接层用于将前面各层处理得到的二维关节点特征图串联成一个特征序列，该序列是从单目彩***中抽取到的特征，它的每一维元素都连向隐藏层的所有节点，输出人物三维关节点特征并进一步全连接到长短时记忆网络的输入。

第二全连接层：所述第二全连接层为逻辑回归层，是整个深度模型的输出。具体地，作为深度模型输出的第二全连接层的输出将长短时记忆层的输出映射到一个Kx3维的实数序列，其中K为人体关节点的数量，每三个单元的输出为单目彩***中人物对应关节点的三维坐标。

下面将结合以上所述的深度模型结构，对本发明的S2和S3进行详细说明。

首先，需要重要声明的是，在S2和S3中，将视频数据输入深度模型前，还需对每一帧二维图像添加记忆标记参数，以区分记忆帧和遗忘帧；记忆标记参数和视频数据一同作为深度模型的输入；

在深度模型的长短时记忆层中，当当前处理的二维图像(即当前帧)为遗忘帧时，长短时记忆单元对之前记忆的二维图像特征信息进行遗忘，此时，长短时记忆网络仅参考遗忘帧的特征信息进行三维人体关节点坐标的预测；当当前处理的二维图像为记忆帧时，长短时记忆单元对之前处理过的连续若干帧二维图像特征信息保持记忆并沿用，此时，长短时记忆网络同时参考当前帧和直到上一个遗忘帧(包括遗忘帧)之间的全部帧的特征信息进行三维人体关节点坐标的预测。以上定义的处理过程，也是本发明提供的深度模型中引入时序信息的一种具体体现。

在本实施例中，采用以下方式添加记忆标记参数：对于每个输入的二维图像，增加一维记忆标记参数s_i，s_i等于0或1；s_i＝0表示当前帧为遗忘帧；s_i＝1表示当前帧为记忆帧。对所有输入的视频数据定义新增的记忆标记参数为(S₁，…，S_M)，所有输入的视频数据共包括M段视频，对应的该段视频的帧的数量为(t₁,...,t_M)，其中

当需要长短时记忆单元遗忘之前的内容时，将当前帧i的s_i设为零。

在S1和S2中，可以通过合理设置记忆标记参数，使长短时记忆层在检测到新视频的开始时清空之前的记忆，或者以固定的间隔清空之前的记忆。例如，需要每5帧清空一次记忆，则设置S＝(0，1，1，1，1，0，1，…，0，1…)，即每间隔4帧记忆帧设置1帧遗忘帧。

作为改进，在S2和S3中，将视频数据输入深度模型前，还需对视频数据进行人物区域初步定位处理，所述人物区域初步定位处理包括：识别视频数据中每一帧二维图像的人物区域，使用矩形框将人物区域包围起来，形成人物矩形包围框；将人物矩形包围框外的图像信息去除，仅将人物矩形包围框内的图像输入深度模型。通过人物区域初步定位处理，形成人物矩形包围框，能够预先去除二维图像中与人物信息无关的部分，大大降低深度模型的运算量，显著提高效率。

所述S2中，参数包括深度模型中各层的权重和偏置。在本发明实施例中，通过隐式网络结构反向传播算法来学习深度模型的参数，具体包括：

S201、采集训练样本；所述训练样本包括：被转换成连续多帧二维图像的视频数据、每帧二维图像对应的真实的二维人体关节点坐标和三维人体关节点坐标；其中，视频数据和二维人体关节点坐标用于供深度模型学习出构建卷积神经网络的参数，视频数据和三维人体关节点坐标用于供深度模型学习出构建长短时记忆网络的参数。

S203、初始化卷积神经网络和长短时记忆网络的模型参数，其中，二维特征抽取模块的模型参数采用S202中预学习得到的参数进行初始化，其余部分的模型参数随机初始化；这一步中，利用S202中预学习的二维特征抽取模块的模型参数对二维特征抽取模块进行初始化，能够使深度模型获得较好的二维人物特征表达，降低S205中其余参数的学习运算难度；

具体地，所述S201中采集训练样本的方法包括以下步骤：

S2011、将彩色摄像头以及动作捕捉***校准到同一个世界坐标系中；

S2012、实验人员穿着带有动作捕捉***所需辅助标注的服装在场景中做各种动作，比如走路，谈话，坐着，躺着等；

S2013、利用三维几何关系以及彩色摄像机参数，把动作捕捉***采集到的三维动作点信息转换到图像平面中，以得到对应关节点在图像中的坐标，即二维人体关节点坐标；

S2014、将三维关节点数据转换到对应摄像机为原点的世界坐标系中，将转换后的三维关节点坐标、二维人体关节点坐标和彩色摄像头录制的彩***一起保存好。

进一步地，所述S202具体包括以下步骤：

S2022、随机初始化二维特征抽取模块的参数；

S2023、利用训练样本中大量的人物二维姿势图片(即转换成连续多帧二维图像的视频数据及每帧图像对应的二维人体关节点坐标)，使用后向传播算法学习出构建二维特征抽取模块的模型参数；

其中，K是关节点数目，b^k(z)是关节点k的预测特征图，

是关节点k的置信图，z是置信图的包含的空间范围。

进一步地，在S205中，具体包括：计算训练样本中真实的三维人体关节点坐标与S204中预测的三维人体关节点坐标的误差；采用时序反向传播算法求长短时记忆网络中各个参数的偏导数；根据长短时记忆网络传入的残差，通过反向传播算法求卷积神经网络中各个参数的偏导数；根据计算结果更新模型参数并重复迭代计算。

为前向传播算法预测的三维人体关节点坐标，

为训练样本中真实的三维人体关节点坐标。经试验证明深度模型中能够记住的连续帧的数目越多结果越好，即深度模型中的长短时记忆单元越多、视频数据中连续的记忆帧越多，预测的结果越稳定可靠。

在S205中，与传统的反向传播算法不同的是，第t(t<T)时刻，本层节点的残差有两个来源：一是上一层节点t时刻的残差进行加权，等价于前面的神经元的误差累积形成的残差，二是后一个时刻(t+1)隐层节点的残差进行加权。所以，层与层之间的交互也只是将上一层的t时刻残差传给下一层。计算梯度时，是平均T个时刻的残差，来更新梯度。因此实际训练中上一层网络只需要将1到T时刻的残差传递给下一层即可，表示长短时记忆网络要学习长度为T的序列。根据深度模型中输入门l，忘记门φ，输出门ω和记忆元组c的前述定义，S205中具体的时序反向传播过程如下：

输出门：

记忆单元：

忘记门：

输入门：

实际训练过程中将长短时记忆单元展开，采用链式的方法对各个参数求偏导，如此就可以与之前的卷积神经网络的反向传播接上，整个网络一起训练，要求卷积神经网络中二维卷积层的输入批次与长短时记忆网络的输入时间序列数相同，本发明中采用每五个连续视频帧更新一次梯度。

作为改进，在S2中，还可以对训练样本中真实的三维人体关节点坐标进行归一化处理，具体为：

对于含有N帧二维图像的视频数据，构造一个N×(K×3)的二维矩阵，K是关节点数目，这个矩阵的每一行代表一张二维图像对应的三维人体关节点坐标向量；计算这个矩阵的每一列的最大值X_max以及最小值X_min，然后对于每一帧二维图像中的三维人体关节点坐标分别进行如下运算：

其中X为归一化之前的三维人体关节点坐标，Y为进行归一化后的三维人体关节点坐标，这个操作可以把预测的坐标值的范围转换到[0,1]范围内，可以减小训练模型时的抖动。

对应地，由于在S2中进行了上述归一化操作，使得在S3中，训练好的深度模型预测出的三维人体关节点坐标也具备归一性；因此，需要对预测结果进行去归一化处理，得到的才是世界坐标系中实际的三维关节点坐标值。具体地，通过以下公式将预测的三维人体关节点坐标重新映射到原图像的世界坐标系，进行评估与可视化：

X＝Y(X_max-X_min)+X_min。

进一步地，本发明还可以通过以下方法对深度模型预测的结果进行评估：给定连续5帧二维图像(即连续5帧视频帧)，输入训练好的深度模型中，可获得五张图像，分别对应的所有关节点的归一化后的三维坐标。通过上面的去归一化处理，将该坐标变换回原始图像上，即可得到连续五帧的所有关节点的原始坐标。评价标准如下：

其中，x^pred是深度网络预测的关节点坐标，x^gt是训练样本中真实的关节点坐标。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种单目彩***的三维人体关节点定位方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述卷积神经网络包括互相串联的二维特征抽取模块和特征转化模块；

3.根据权利要求2所述的方法，其特征在于，在所述卷积神经网络中，每个二维卷积层后面连接一个矫正线性单元层；

4.根据权利要求2所述的方法，其特征在于，所述第一全连接层为隐藏层，是在二维卷积层的输出上建立的感知机模型；

所述第二全连接层为逻辑回归层，是整个深度模型的输出；

5.根据权利要求2所述的方法，其特征在于，所述S2中，通过隐式网络结构反向传播算法来学习深度模型的参数，具体包括：

S201、采集训练样本；

6.根据权利要求5所述的方法，其特征在于，所述S202具体包括以下步骤：

S2022、随机初始化二维特征抽取模块的参数；

其中，K是关节点数目，b^k(z)是关节点k的预测特征图，

是关节点k的置信图，z是置信图的包含的空间范围。

7.根据权利要求5所述的方法，其特征在于，在S205中，具体包括：计算训练样本中真实的三维人体关节点坐标与S204中预测的三维人体关节点坐标的误差；采用时序反向传播算法求长短时记忆网络中各个参数的偏导数；根据长短时记忆网络传入的残差，通过反向传播算法求卷积神经网络中各个参数的偏导数；根据计算结果更新模型参数并重复迭代计算；

为前向传播算法预测的三维人体关节点坐标，

为训练样本中真实的三维人体关节点坐标。

8.根据权利要求2所述的方法，其特征在于，在S2和S3中，将视频数据输入深度模型前，还需对每一帧二维图像添加记忆标记参数，以区分记忆帧和遗忘帧；记忆标记参数和视频数据一同作为深度模型的输入；

在深度模型的长短时记忆层中，当当前处理的二维图像为遗忘帧时，长短时记忆单元对之前记忆的二维图像特征信息进行遗忘，此时，长短时记忆网络仅参考遗忘帧的特征信息进行三维人体关节点坐标的预测；当当前处理的二维图像为记忆帧时，长短时记忆单元对之前处理过的连续若干帧二维图像特征信息保持记忆并沿用，此时，长短时记忆网络同时参考当前帧和直到上一个遗忘帧之间的全部帧的特征信息进行三维人体关节点坐标的预测。

9.根据权利要求8所述的方法，其特征在于，每个长短时记忆单元包括1 个输入门、1个输出门、1个忘记门和1个记忆元组；其中，忘记门用于控制记忆元组，对记忆元组记录的内容进行选择性遗忘。

10.根据权利要求8所述的方法，其特征在于，在S2和S3中，将视频数据输入深度模型前，还需对视频数据进行人物区域初步定位处理，所述人物区域初步定位处理包括：识别视频数据中每一帧二维图像的人物区域，使用矩形框将人物区域包围起来，形成人物矩形包围框；将人物矩形包围框外的图像信息去除，仅将人物矩形包围框内的图像输入深度模型。