CN105354528A

CN105354528A - 基于深度图像序列的人体动作识别的方法及***

Info

Publication number: CN105354528A
Application number: CN201510417282.XA
Authority: CN
Inventors: 姬晓鹏; 程俊; 陶大鹏
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2015-07-15
Filing date: 2015-07-15
Publication date: 2016-02-24

Abstract

本发明适用于模式识别技术领域，提供了一种基于深度图像序列的人体动作识别的方法及***。所述方法包括：对所述深度图像序列中的深度图像数据提取四维超曲面法向量；采用局部均值时空立方体对所述四维超曲面法向量进行特征提取；采用稀疏编码对提取的所述特征进行预处理；采用时空金字塔对预处理后的特征进行池化，获得池化后的特征；使用支持向量机对所述池化后的特征进行分类，以识别人体动作。通过本发明，可以在保证识别精确度的情况下，大幅度缩减算法的时间复杂度。

Description

基于深度图像序列的人体动作识别的方法及***

技术领域

本发明属于模式识别技术领域，尤其涉及基于深度图像序列的人体动作识别的方法及***。

背景技术

人体动作识别在现实生活中有着广泛的应用，比如人机交互、视频监控和家庭监护等。随着成像技术的不断发展，深度摄像头引起越来越多研究人员的关注。与传统的可见光图像相比，深度图像具有以下的优点：1)提供空间丰富的结构信息；2)在区域分割中对物体的颜色和纹理特征不敏感；3)对光照变化有很好的鲁棒性，有利于在比较黑暗环境下的应用。

现有基于深度图像的人体动作识别方法主要基于骨骼关节点信息以及三维点云信息等。骨骼关节点信息可以获得比较高的识别率，但很难适用于人机交互等骨骼信息无法获取的场合。相比骨骼关节点信息，三维点云信息也可以获得比较高的识别率，而且对噪声和遮挡问题更加鲁棒。

现有技术虽然都可以获得比较高的识别率，但由于所抽取特征的维数较高，在特征检测方面耗费了大量的时间，从而使得现有技术很难应用到实际当中去。此外，在高维特征中，数据之间往往包含大量的冗余信息，隐藏了重要关系的相关性，导致无法表达数据真实内在结构。

发明内容

鉴于此，本发明实施例提供一种基于深度图像序列的人体动作识别的方法及***，以在保证识别精确度的情况下，大幅度缩减算法的时间复杂度。

第一方面，本发明实施例提供了一种基于深度图像序列的人体动作识别的方法，所述方法包括：

对所述深度图像序列中的深度图像数据提取四维超曲面法向量；

采用局部均值时空立方体对所述四维超曲面法向量进行特征提取；

采用稀疏编码对提取的所述特征进行预处理；

采用时空金字塔对预处理后的特征进行池化，获得池化后的特征；

使用支持向量机对所述池化后的特征进行分类，以识别人体动作。

第二方面，本发明实施例提供了一种基于深度图像序列的人体动作识别的***，所述***包括：

超曲面法向量提取单元，用于对所述深度图像序列中的深度图像数据提取四维超曲面法向量；

特征提取单元，用于采用局部均值时空立方体对所述四维超曲面法向量进行特征提取；

预处理单元，用于采用稀疏编码对提取的所述特征进行预处理；

特征池化单元，用于采用时空金字塔对预处理后的特征进行池化，获得池化后的特征；

分类单元，用于使用支持向量机对所述池化后的特征进行分类，以识别人体动作。

本发明实施例与现有技术相比存在的有益效果是：本发明实施例通过局部均值时空立方体对深度图像中的四维超曲面法向量做特征描述，并通过稀疏编码去除特征中的冗余向量，通过时空金字塔对冗余处理后的特征进行池化，以获取特征的空间信息和时间信息。与现有技术相比，本发明实施例可以在保证识别精确度的情况下，大幅度缩减算法的时间复杂度，具有较强的易用性和实用性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于深度图像序列的人体动作识别方法的实现流程示意图；

图2是本发明实施例提供的局部时空立方体的示意图；

图3是本发明实施例提供的时空金字塔划分的示意图；

图4是本发明实施例提供的基于深度图像序列的人体动作识别的示意图；

图5是本发明实施例提供的基于深度图像序列的人体动作识别***的组成结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透切理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

请参阅图1，为本发明实施例提供的基于深度图像序列的人体动作识别方法的实现流程，该方法可适用于各类终端设备，如个人计算机、平板电脑、手机等。该方法主要包括以下步骤：

步骤S101，对所述深度图像序列中的深度图像数据提取四维超曲面法向量。

在本发明实施例中，所述深度图像序列为人体深度图像序列，所述人体深度图像序列为四维数据，而现有基于三维点云的方法会丢失时间这一维度的信息。

对所述深度图像序列中的深度图像数据采用以下公式计算获得四维超曲面法向量n，

n = &dtri; S = {(\frac{\partial z}{\partial x}, \frac{\partial z}{\partial y}, \frac{\partial z}{\partial t}, - 1)}^{T}

其中，(x,y,z)表示第t帧中点数据的坐标，深度图像序列中的每个点数据(x,y,t,z)满足S(x,y,t,z)＝f(x,y,t)-z＝0，S表示四维超曲面，T表示转置。

需要说明的是，与现有的三维点云的梯度方向相比，在上式中多出的标量维度(-1)可以保留物体在时空中的几何信息。

在步骤S102中，采用局部均值时空立方体对所述四维超曲面法向量进行特征提取。

具体的可以是，1)对所述四维超曲面法向量提取局部时空立方体；示例性的，该局部时空立方体的大小为3×3×3，相邻局部时空立方体在时空上有3×3×2个点向量的重叠区域；

对每个所述局部时空立方体中的法向量，分别按行、列、帧三个方向分为三层，如图2所示；

分别对每层的n×m(例如3×3)个法向量求均值，得到局部均值时空立方体的特征表达，其中n、m均为大于零的整数。示例性的，每个局部均值时空立方体的特征长度为(3+3+3)×4＝36。假设深度图像序列分辨率为320×240，共50帧，则所抽取的均值法向量的特征维度为36×(320-2)×(240-2)×(50-2)＝36×3632832。

在步骤S103中，采用稀疏编码对提取的所述特征进行预处理。

在本发明实施例中，所述预处理包括冗余处理。

具体的可以是，通过以下稀疏编码代价函数对提取的所述特征进行字典学习，获取字典D∈R^M×K和相应的稀疏系数α∈R^K×N：

\min_{D, α} \frac{1}{N} Σ_{i = 1}^{N} (\frac{1}{2} | | x_{i} - {Dα}_{i} | |_{2}^{2} + λ | | α_{i} | |_{1})

满足

| | d_{k} | |_{2}^{2} \leq 1, &ForAll; k = 1, ... K

其中，输入样本x_i∈R^M×1属于训练数据集合X＝{x₁,x₂,...,x_N}，M为输入向量x_i的长度，N为输入样本的个数，是重构项，λ||α_i||为惩罚项，d_k是字典D中的一个词，K是字典D中词的个数，α_i是α的第i个系数，λ是一个变换量，控制上述公式重构项和惩罚项的相对重要性；

通过以下公式获得输入样本对应的稀疏系数α∈R^K×P：

\min_{α} | | Y - D α | |_{2}^{2}

满足||α||₁≤λ

其中，输入样本y_i∈R^M×1属于测试数据集合Y＝{y₁,y₂,...,y_P}，M为输入向量y_i的长度，P为输入样本的个数。

在步骤S104中，采用时空金字塔对预处理后的特征进行池化，获得池化后的特征。

具体的可以是，依次将总帧数为T的深度图像序列划分为4×3的空间网格G_t，再将每一个空间网格划分为{F₁}，{F₂,F₃}，{F₄,F₅,F₆,F₇}的三层共七段的时域金字塔，时空金字塔的划分如图3所示；

对落在每个空间网格G_t内的均值法向量采用以下公式进行空间均匀池化：

u_{k} (t) = \frac{1}{| D_{t} |} \underset{i &Element; G_{t}}{Σ} α_{k, i} (p_{i} - d_{k})

其中，t＝1,2,...,T，α_k,i表示α_i的第k个词，u_k(t)表示第t帧的网格G_t中的第k个词的空间均匀池化后的向量；

对空间均匀池化后的向量u_k(t)按时域片段F_s进行最大池化：

u_{k, s} = \max_{t &Element; F_{s}} u_{k} (t), s = 1, 2, ...7

其中u_k,s表示在第s个时域片段F_s中第k个词在时域最大池化后的向量，将上述时域片段串联后得到则最后获得的池化后的特征为：

u = {(u_{1}^{T}, u_{2}^{T}, ..., u_{K}^{T})}^{T} .

举例说明如下：假设深度图像序列分辨率为320×240，共50帧，所述步骤S102所抽取的均值法向量的特征维度为36×3632832，则一个时空金字塔网格最后得到池化特征维度为36×7×K，一个深度图像序列最后得到的特征维度为36×7×K×12＝9072(K＝3)。

在步骤S105中，使用支持向量机对所述池化后的特征进行分类，以识别人体动作。

其中，使用支持向量机对所述池化后的特征进行分类可以采用现有技术实现，在此不再赘述。

图4示出了本发明基于深度图像序列的人体动作识别的示意流程，首先获取人体深度图像序列，然后对所述深度图像序列中的深度图像数据提取四维超曲面法向量，提取局部均值时空领域特征，采用稀疏编码对提取的所述特征进行冗余处理，采用时空金字塔对冗余处理后的特征进行池化，获得池化后的特征，最后使用支持向量机对所述池化后的特征进行分类，以识别人体动作。

为了进一步说明本发明的有益效果，本发明在微软研究院(MSR)Action3D数据集上进行了一系列实验，同四维法向量方向直方图(HON4D)、主成分方向直方图(HOPC)、超级法向量(SNV)进行了对比，得到如表1的实验结果。

表1

从表1可以看出，本发明人体动作识别的精度优于其他方法，而耗时却明显低于其他方法。

请参阅图5，为本发明实施例提供的基于深度图像序列的人体动作识别***的组成结构示意图。为了便于说明，仅示出了与本发明实施例相关的部分。

所述基于深度图像序列的人体动作识别***可以是内置于终端设备(例如个人计算机、手机、平板电脑等)中的软件单元、硬件单元或者是软硬件结合的单元。

所述基于深度图像序列的人体动作识别***包括：超曲面法向量提取单元51、特征提取单元52、预处理单元53、特征池化单元54以及分类单元55，各模块具体功能如下：

超曲面法向量提取单元51，用于对所述深度图像序列中的深度图像数据提取四维超曲面法向量；

特征提取单元52，用于采用局部均值时空立方体对所述四维超曲面法向量进行特征提取；

预处理单元53，用于采用稀疏编码对提取的所述特征进行预处理；

特征池化单元54，用于采用时空金字塔对预处理后的特征进行池化，获得池化后的特征；

分类单元55，用于使用支持向量机对所述池化后的特征进行分类，以识别人体动作。

进一步的，所述超曲面法向量提取单元51具体用于：

n = &dtri; S = {(\frac{\partial z}{\partial x}, \frac{\partial z}{\partial y}, \frac{\partial z}{\partial t}, - 1)}^{T}

其中，(x,y,z)表示第t帧中点数据的坐标，深度图像序列中的每个点数据(x,y,t,z)满足S(x,y,t,z)＝f(x,y,t)-z＝0，S表示四维超曲面。

进一步的，所述特征提取单元52包括：

第一提取模块521，用于对所述四维超曲面法向量提取局部时空立方体；

划分模块522，用于对每个所述局部时空立方体中的法向量，分别按行、列、帧三个方向分为三层；

特征获取模块523，用于分别对每层的n×m个法向量求均值，得到局部均值时空立方体的特征表达，其中n、m均为大于零的整数。

进一步的，所述预处理单元53具体用于：

通过以下稀疏编码代价函数对提取的所述特征进行字典学习，获取字典D∈R^M×K和相应的稀疏系数α∈R^K×N：

\min_{D, α} \frac{1}{N} Σ_{i = 1}^{N} (\frac{1}{2} | | x_{i} - {Dα}_{i} | |_{2}^{2} + λ | | α_{i} | |_{1})

满足

| | d_{k} | |_{2}^{2} \leq 1, &ForAll; k = 1, ... K

通过以下公式获得输入样本对应的稀疏系数α∈R^K×P：

\min_{α} | | Y - D α | |_{2}^{2}

满足||α||₁≤λ

进一步的，所述特征池化单元54包括：

划分模块541，用于依次将总帧数为T的深度图像序列划分为4×3的空间网格G_t，再将每一个空间网格划分为{F₁}，{F₂,F₃}，{F₄,F₅,F₆,F₇}的三层共七段的时域金字塔；

均匀池化模块542，用于对落在每个空间网格G_t内的均值法向量采用以下公式进行空间均匀池化：

u_{k} (t) = \frac{1}{| D_{t} |} \underset{i &Element; G_{t}}{Σ} α_{k, i} (p_{i} - d_{k})

最大池化模块543，用于对空间均匀池化后的向量u_k(t)按时域片段F_s进行最大池化：

u_{k, s} = \max_{t &Element; F_{s}} u_{k} (t), s = 1, 2, ...7

其中u_k,s表示在第s个时域片段F_s中第k个词在时域最大池化后的向量；

池化特征获取模块544，用于将上述时域片段串联后得到则最后获得的池化后的特征为：

u = {(u_{1}^{T}, u_{2}^{T}, ..., u_{K}^{T})}^{T} .

综上所述，本发明实施例通过局部均值时空立方体对深度图像中的四维超曲面法向量做特征描述，并通过稀疏编码去除特征中的冗余向量，通过时空金字塔对冗余处理后的特征进行池化，以获取特征的空间信息和时间信息。与现有技术相比，本发明实施例可以在保证识别精确度的情况下，大幅度缩减算法的时间复杂度，具有较强的易用性和实用性。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述***的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的***和方法，可以通过其它的方式实现。例如，以上所描述的***实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims

1.一种基于深度图像序列的人体动作识别的方法，其特征在于，所述方法包括：

采用稀疏编码对提取的所述特征进行预处理；

2.如权利要求1所述的方法，其特征在于，所述对所述深度图像序列中的深度图像数据提取四维超曲面法向量包括：

3.如权利要求1所述的方法，其特征在于，所述采用局部均值时空立方体对所述四维超曲面法向量进行特征提取包括：

对所述四维超曲面法向量提取局部时空立方体；

对每个所述局部时空立方体中的法向量，分别按行、列、帧三个方向分为三层；

分别对每层的n×m个法向量求均值，得到局部均值时空立方体的特征表达，其中n、m均为大于零的整数。

4.如权利要求1所述的方法，其特征在于，所述采用稀疏编码对提取的所述特征进行预处理包括：

满足

通过以下公式获得输入样本对应的稀疏系数α∈R^K×P：

满足||α||₁≤λ

5.如权利要求1所述的方法，其特征在于，所述采用时空金字塔对预处理后的特征进行池化，获得池化后的特征包括：

依次将总帧数为T的深度图像序列划分为4×3的空间网格G_t，再将每一个空间网格划分为{F₁}，{F₂,F₃}，{F₄,F₅,F₆,F₇}的三层共七段的时域金字塔；

对空间均匀池化后的向量u_k(t)按时域片段F_s进行最大池化：

6.一种基于深度图像序列的人体动作识别的***，其特征在于，所述***包括：

7.如权利要求6所述的***，其特征在于，所述超曲面法向量提取单元具体用于：

8.如权利要求6所述的***，其特征在于，所述特征提取单元包括：

第一提取模块，用于对所述四维超曲面法向量提取局部时空立方体；

划分模块，用于对每个所述局部时空立方体中的法向量，分别按行、列、帧三个方向分为三层；

特征获取模块，用于分别对每层的n×m个法向量求均值，得到局部均值时空立方体的特征表达，其中n、m均为大于零的整数。

9.如权利要求6所述的***，其特征在于，所述预处理单元具体用于：

满足

通过以下公式获得输入样本对应的稀疏系数α∈R^K×P：

满足||α||₁≤λ

10.如权利要求6所述的***，其特征在于，所述特征池化单元包括：

划分模块，用于依次将总帧数为T的深度图像序列划分为4×3的空间网格G_t，再将每一个空间网格划分为{F₁}，{F₂,F₃}，{F₄,F₅,F₆,F₇}的三层共七段的时域金字塔；

均匀池化模块，用于对落在每个空间网格G_t内的均值法向量采用以下公式进行空间均匀池化：

最大池化模块，用于对空间均匀池化后的向量u_k(t)按时域片段F_s进行最大池化：

池化特征获取模块，用于将上述时域片段串联后得到则最后获得的池化后的特征为：