CN112580442A

CN112580442A - 一种基于多维金字塔层次模型的行为识别方法

Info

Publication number: CN112580442A
Application number: CN202011398484.1A
Authority: CN
Inventors: 黄倩; 李畅; 陈斯斯; 李兴; 毛莺池
Original assignee: Nanjing Huiying Electronic Technology Co ltd; Hohai University HHU
Current assignee: Nanjing Huiying Electronic Technology Co ltd; Hohai University HHU
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-03-30
Anticipated expiration: 2040-12-02
Also published as: CN112580442B

Abstract

本发明公开了一种基于多维金字塔层次模型的行为识别方法，通过构建包含空间维度和时间维度的多维金字塔层次模型来对视频中的行为进行建模以捕获结构化的多尺度特征，然后通过分类器进行行为识别。本发明从多个维度充分描述了不同尺度下的行为特征，为行为识别提供了更具判别性的附加信息，有效地提高了行为识别的准确性和鲁棒性。

Description

一种基于多维金字塔层次模型的行为识别方法

技术领域

本发明属于计算机视觉技术领域，特别涉及了一种行为识别方法。

背景技术

行为识别是计算机视觉领域的重要研究课题之一，并且在智能安全监控、新型人机交互、智能交通管理、智慧城市和智能家居等方面有着广泛的应用前景。早期的行为识别技术主要是基于普通相机获取的RGB数据。这些技术容易受到拍摄环境、光照条件和穿着纹理等外界因素的影响。随着行为智能分析需求的与日俱增，一系列基于深度数据、骨骼数据和多模态融合的行为识别技术在大数据和机器学习算法的推动下应运而生。

为了构建基于深度视频数据的行为识别模型，直观的方法是将RGB图像视频中常用的特征描述符拓展应用到深度图像视频中。为此，人们研究了许多有效的动作特征编码技术用于描述动作的深度序列，如运动能量图(MEI)、运动历史图(MHI)和深度运动图(DMI)等。基于骨骼的方法则通过动态的三维骨架序列数据表示人体动作信息，该类方法主要致力于挖掘各个关键骨骼点的相对位置进行识别。随后，基于多模态融合数据的行为识别方法受到关注，该方法结合了两种或多种数据进行行为识别，可以为动作描述提供更多的互补信息从而提高了行为识别的准确度。

虽然，对于行为识别的研究已经取得了诸多进展，但仍然存在很多问题。行为包含着不同维度的信息，包括空间和时间等，并且不同维度下的行为还包含着丰富的多尺度信息。当人们对行为者观察的维度和尺度发生变化时，动作的呈现方式也会改变。但在未知的场景中，计算机视觉并不能像人眼一样感知尺度的变化。现有的行为识别方法忽视了动作的多尺度信息，因而这些方法缺乏鲁棒性，难以应用到实际环境中。

综上所述，现有行为识别方法的主要问题在于无法充分提取不同维度下的多尺度动作特征来识别相似行为。因此设计一种描述多种维度下不同尺度特征的行为模型并从中提取结构化的多尺度特征是亟需解决的问题。

发明内容

为了解决上述背景技术提到的技术问题，本发明提出了一种基于多维金字塔层次模型的行为识别方法。

为了实现上述技术目的，本发明的技术方案为：

一种基于多维金字塔层次模型的行为识别方法，包括以下步骤：

(1)构建多维金字塔层次模型：将深度相机获得的深度视频帧投影到坐标平面上，获得动作特征图，用于表示每个动作样本的深度视频序列，再通过高斯低通滤波和下采样操作生成高斯金字塔作为空间维金字塔；将每个动作样本的深度视频序列划分为若干分区，计算每个分区的动作特征图以构建时间维金字塔；所述空间维金字塔和时间维金字塔共同构成多维金字塔层次模型；

(2)提取结构化的多尺度特征：先按照空间维金字塔的层次结构由下到上依次提取动作特征，再按照时间维金字塔的层次结构提取动作特征，然后将两次提取的动作特征级联起来生成时空多尺度动作特征；

(3)行为识别：将步骤(2)提取的多尺度特征输入训练好的分类器或神经网络中进行分类，得到行为识别结果。

进一步地，在步骤(1)中，在生成高斯金字塔的基础上，进一步生成拉普拉斯金字塔来增强多尺度动态信息，作为优化的空间维金字塔。

进一步地，在步骤(1)中，构建空间维金字塔的过程如下：

(1a)将深度相机获得的深度视频帧投影到三个正交的笛卡尔平面上并以深度视频序列中相同像素位置的最小值作为动作特征图的像素值，每个深度帧都会生成三个不同视角的动作特征图，分别对应于前视图、侧视图和俯视图；对生成的动作特征图进行亮度归一化，并对感兴趣的区域进行裁剪；

(1b)通过对每个视角的动作特征图进行高斯低通滤波和下采样操作生成高斯金字塔；

(1c)将高斯金字塔的各层通过内插值法和高斯平滑处理得到预测金字塔，将高斯金字塔与预测金字塔的各层对应相减得到拉普拉斯金字塔。

进一步地，在步骤(1)中，构建时间维金字塔的过程如下：

(1A)将每个动作样本的深度视频序列分为若干个分区，每个分区包含相同或不同数量的帧，按照划分方法不同分为不同的级别，未分区的视为0级，划分为两个分区的为1级，依此类推；

(1B)分别计算每个分区的动作特征图作为时间维金字塔，以捕获深度视频序列中不同时间尺度的子动作。

进一步地，步骤(2)的具体过程如下：

(2a)将相同视角下的动作特征图归一化为相同大小；

(2b)将从空间维金字塔中相同层次的动作特征图提取的动作特征级联得到该尺度下三个视角的动作特征；

(2c)按照空间维金字塔层次结构从下到上依次提取不同层次的动作特征并级联生成不同尺度的动作特征；

(2d)按照时间维金字塔的层级提取多尺度时间特征，首先提取0级的动作特征，再依次提取其它层级的动作特征，将每个层级中的动作特征级联；

(2e)步骤(2c)和(2d)中的动作特征级联为结构化的时空多尺度动作特征，并对结构化的时空多尺度动作特征进行归一化和降维处理。

进一步地，所述动作特征采用方向梯度直方图、局部二值模式或者尺度不变特征变换。

进一步地，所述动作特征图采用深度运动图、运动能量图或运动历史图。

进一步地，所述空间维金字塔和时间维金字塔的的层数根据计算资源和存储资源确定，采用CPU利用率、内存占用率、显卡性能和GPU显存使用率作为衡量计算资源和存储资源的评估指标。

进一步地，采用四层的空间维金字塔和两层的时间维金字塔；此外，在CPU利用率、内存占用率和GPU显存使用率低于30％且显卡性能优于标准状态时使用更高层次金字塔，在CPU利用率、内存占用率和GPU显存使用率高于70％且显卡性能低于标准状态时使用更低层次的金字塔。

进一步地，在步骤(3)中，将步骤(2)提取的多尺度特征划分为训练集和测试集，首先对分类器进行随机初始化，使用训练集的动作样本根据交叉熵损失训练分类器中的参数，然后将测试集输入训练好的分类器中得到最终的行为识别结果；所述分类器包括但不限于极限学习机、支持向量机和随机森林分类器。

采用上述技术方案带来的有益效果：

1、本发明提出的多维金字塔层次模型是一种可用于描述识别对象在不同维度上的结构化多尺度特征的建模方法。首先，该模型可以实现维度和层数的动态压缩和扩充以满足不同应用领域的需求，因此具有更广泛的适用性。其次，在每个维度上，该模型都可以通过扩充子节点数量来增加特征种类，相同维度下该模型也可以通过设置金字塔的层数调节该类特征的尺度多样性，因此可以更充分地挖掘和描述识别对象的特征。除此之外，模型整体呈现一种树状层次结构，可以有效提取结构化的多尺度特征。

2、本发明提出的基于多维金字塔层次模型的行为识别方法在空间和时间维度上充分提取了结构化的多尺度动作特征，捕获了更具判别性的时空信息，因此该方法对解决相似行为和相反行为的识别问题有着重要的作用，提高了行为识别的准确度和鲁棒性。

附图说明

图1是本发明的整体框架示意图；

图2是实施例中深度特征图DMI的示意图；

图3是实施例中时间维金字塔的结构图；

图4是实施例中多维金字塔层次模型示意图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

如图1所示，使用深度动作图来表示动作的深度序列，再构建高斯金字塔(拉普拉斯金字塔)作为空间维金字塔以捕获更具判别性的空间多尺度动作信息。然后，通过将视频序列划分为不同的片段生成不同层次的特征图作为时间维金字塔以捕获动作的时间多尺度信息。计算多维金字塔层次模型的动作特征并级联得到结构化的多尺度动作特征，再投入分类器进行行为识别。除此之外，还可以构建其他维度的金字塔共同构成多维金字塔层次模型。

多维金字塔层次模型提供了一种可用于描述识别对象在不同维度上的结构化多尺度特征的建模方法，同时可以实现维度和层数的动态压缩和扩充。模型整体呈现一种树状层次结构，可以有效提取结构化的多尺度特征。其中，维度包括时间和空间等作为父节点，在时间维度上可以按照时间顺序划分视频序列进一步提取整体和局部等特征为其子节点。相应地，在空间维度上，还可以进一步提取静态和动态等特征作为其子节点。在每个维度上，该模型都可以通过扩充子节点数量来增加特征的种类，相同维度下该模型也可以设置金字塔的层数调节该类特征的尺度多样性。通过本发明提供的多维金字塔层次模型可以有效捕获目标在不同维度下的多尺度特征并适用于多种识别任务。

下面结合具体分析对本发明作进一步描述。

1.生成空间维金字塔

将深度相机获得的深度帧投影到三个正交的笛卡尔平面上，因此每个3D的深度帧都会生成三个2D的动作图，记为map_v(v∈{f,s,t})分别对应于前视图、侧视图和俯视图，如图2所示。DMI以深度图序列的相同像素位置的最小值作为特征图的像素值。帧数为N的深度序列可以通过以下等式计算得出：

DMI_v(i,j)＝255-min(map_v(i,j,t))

其中，map_v(i,j,t)是v视角的下的第t帧动作图中(i,j)位置的像素值。可以通过将每个像素值除以图像中所有像素的最大值来对结果图像进行亮度归一化。另外，可以通过裁剪DMI的感兴趣区域来排除多余的黑色像素。这种进一步的归一化可以减少类内差异，降低体型和动作幅度对动作识别的干扰。

对DMI进行高斯金字塔分解来生成一簇不同尺度的特征图像，用于模拟人眼观察动作的尺度变化。通过高斯滤波和下采样操作获得结构化的DMI多尺度图像集，按照由下到上的方式对空间金字塔的每一层进行编号，如图3所示。用G_l来表示第l层高斯金字塔，也就是说G_l+1层的图像尺度比G_l层小。为了获取G_l+1层的金字塔图像，需要对G_l层图像进行高斯核卷积和向下采样。通常情况下，第l层图像的对应坐标(i,j)位置的灰度值为：

其中，

是卷积运算符；L是高斯金字塔的层数；R_l和C_l分别是高斯金字塔第l层特征图对应的行数和列数；

是(2c+1)×(2c+1)大小的高斯窗口，可以表示为：

其中，m,n分别为的行数和列数；σ称为尺度空间因子，是高斯正态分布的标准差，反映了图像被模糊的程度。将原特征图G₁作为高斯金字塔的最底层，按公式可以依次计算得到G₂,G₃,...,G_L构成L层高斯金字塔。由上述高斯卷积核和下采样操作生成的一系列图像{I₁,I₂,I₃,...,I_L}构成了DMI的高斯金字塔作为一种空间维金字塔，记为GP-DMI。金字塔算法将层级之间的滤波器带宽限制降低了八度，并且将采样间隔降低了相同的倍数。下采样的频率与原始图像的大小有关。由M×N大小的图像构建的高斯金字塔的最大层数L_max＝log₂min(M,N)。

高斯金字塔分解不可避免地导致了动作图的倍数级增长，由此生成的冗余静态信息会降低行为识别的准确率。为了解决上述问题，进一步生成拉普拉斯金字塔来得到更紧凑、更具判别性的多尺度动作特征图，以减少冗余静态信息对行为识别干扰。将高斯金字塔的第l层特征图G_l通过内插值法，即在偶数行和列***0，再利用高斯核进行滤波处理可以得到和其下层一样大小的特征图记为G_l ^*：

其中

进而，拉普拉斯金字塔的生成过程可以表示为：

式中L为拉普拉斯金字塔顶层的层号，LP_l是拉普拉斯金字塔分解的第l层图像。需要注意的是：为了保持特征图中动作信息的完整性，这里直接取高斯金字塔的顶层图像作为拉普拉斯金字塔的顶层图。拉普拉斯金字塔是一种优化的空间维金字塔，记为LP-DMI。图4展示了示例动作样本生成的空间维金字塔。

2.生成时间维金字塔

首先将视频序列分为包含相等数量帧的多个部分或分区，按照划分分区的不同分为不同的级别，未分区的视为0级，平均划分为两个分区的为1级，依此类推。分别按照1中所述方法计算每个分区的动作特征图DMI作为时间维金字塔以捕获视频序列中不同时间尺度的子动作，记为HP-DMI。生成的时间维金字塔的结构如图4所示。除此之外，还可以构建其他维度的金字塔共同构成多维金字塔层次模型。

具体实施时根据计算资源、存储资源和实际应用需求选择多维金字塔层次模型的层数。使用CPU利用率、内存占用率、显卡性能、GPU显存的使用率等作为衡量计算资源的评估指标。首先打开cmd窗口，使用nivdia-smi命令查看计算资源的使用情况，再根据各项指标评估当前计算机的性能来确定各维度金字塔的层数。在CPU利用率、内存占用率和GPU显存使用率低于30％且显卡性能优于P₂时推荐使用更高层次金字塔，在CPU利用率、内存占用率和GPU显存使用率高于70％且显卡性能差于P₈时推荐使用低层次的金字塔。其它情况推荐使用四层的空间维金字塔和两层的时间维金字塔，可以根据实际应用场景调整维度。

3.提取结构化的多尺度特征

HOG表示局部图像中的梯度和边缘信息的分布，可以很好地描述梯度变化并增强图像的轮廓信息，因此选择提取多尺度的HOG特征用于动作分类。初次之外，也可以选用局部二值模式(LBP)、尺度不变特征变换(SIFT)等特征。首先，用复制相邻像素的方法将相同视角的不同尺寸的特征图归一化为相同大小，以避免分解层数过多造成的图片过小的问题。将从时间维金字塔中相同层次的LP-DMI提取的HOG级联可以得到该尺度下三个视角的动作特征。按照LP-DMI的层次结构从下到上依次提取不同层次的动作特征并级联生成不同尺度的动作特征，即空间多尺度特征。再按照HP-DMI的层级提取多尺度时间特征，首先提取0级HP-DMI的特征，然后依次提取其它层级的特征。第N层级包含N个特征图，依次提取每个层级中所有的子动作特征再级联。将从多维金字塔层次模型中提取的特征级联为结构化的多尺度特征，这里可以进一步进行特征处理。首先，使用最大最小值方法对动作特征进行归一化，再使用主成分分析算法(PCA)对动作特征进行降维。也可以使用其它归一化和降维方法。

4.行为识别

将处理后的行为特征划分为训练集和测试集，首先对ELM(极限学习机)进行随机初始化，使用训练集的动作样本根据交叉熵损失训练极限学习中的参数，然后用测试集中动作样本的预测结果作为最终的识别结果并评估方法的有效性。使用的ELM分类器也可以替换为支持向量机、随机森林等分类器和其它深度网络。

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于多维金字塔层次模型的行为识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于多维金字塔层次模型的行为识别方法，其特征在于，在步骤(1)中，在生成高斯金字塔的基础上，进一步生成拉普拉斯金字塔来增强多尺度动态信息，作为优化的空间维金字塔。

3.根据权利要求2所述基于多维金字塔层次模型的行为识别方法，其特征在于，在步骤(1)中，构建空间维金字塔的过程如下：

4.根据权利要求1所述基于多维金字塔层次模型的行为识别方法，其特征在于，在步骤(1)中，构建时间维金字塔的过程如下：

5.根据权利要求1所述基于多维金字塔层次模型的行为识别方法，其特征在于，步骤(2)的具体过程如下：

(2a)将相同视角下的动作特征图归一化为相同大小；

6.根据权利要求5所述基于多维金字塔层次模型的行为识别方法，其特征在于，所述动作特征采用方向梯度直方图、局部二值模式或者尺度不变特征变换。

7.根据权利要求1述基于多维金字塔层次模型的行为识别方法，其特征在于，所述动作特征图采用深度运动图、运动能量图或运动历史图。

8.根据权利要求1所述基于多维金字塔层次模型的行为识别方法，其特征在于，所述空间维金字塔和时间维金字塔的的层数根据计算资源和存储资源确定，采用CPU利用率、内存占用率、显卡性能和GPU显存使用率作为衡量计算资源和存储资源的评估指标。

9.根据权利要求8所述基于多维金字塔层次模型的行为识别方法，其特征在于，采用四层的空间维金字塔和两层的时间维金字塔；此外，在CPU利用率、内存占用率和GPU显存使用率低于30％且显卡性能优于标准状态时使用更高层次金字塔，在CPU利用率、内存占用率和GPU显存使用率高于70％且显卡性能低于标准状态时使用更低层次的金字塔。

10.根据权利要求1所述基于多维金字塔层次模型的行为识别方法，其特征在于，在步骤(3)中，将步骤(2)提取的多尺度特征划分为训练集和测试集，首先对分类器进行随机初始化，使用训练集的动作样本根据交叉熵损失训练分类器中的参数，然后将测试集输入训练好的分类器中得到最终的行为识别结果；所述分类器包括但不限于极限学习机、支持向量机和随机森林分类器。