CN107194366A

CN107194366A - 基于稠密轨迹协方差描述子的行为识别方法

Info

Publication number: CN107194366A
Application number: CN201710418123.0A
Authority: CN
Inventors: 同鸣; 闫娜; 赵梦傲; 汪厚峄
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2017-06-06
Filing date: 2017-06-06
Publication date: 2017-09-22
Anticipated expiration: 2037-06-06
Also published as: CN107194366B

Abstract

本发明公开了一种基于稠密轨迹协方差描述子的行为识别方法，主要解决现有技术没有考虑不同特征之间的相关性，未能准确描述行为主体运动，导致行为识别准确率低的问题。其实现步骤是：1)提取视频的稠密轨迹，对轨迹立方体中的每个像素点，获取梯度、空间位置以及梯度、光流和运动边界的时间导数并将这些特征作为底层特征；2)获取底层特征集合，对其求取协方差矩阵并投影到欧式空间以获取轨迹子块的描述子；3)串接轨迹子块的描述子，获取基于稠密轨迹的协方差矩阵描述子；4)对协方差矩阵描述子进行BOW编码后利用线性SVM分类模型进行行为识别。本发明提高对行为的描述能力和识别准确率，可用于视频监控的复杂环境。

Description

基于稠密轨迹协方差描述子的行为识别方法

技术领域

本发明属于视频处理技术领域，特别涉及一种行为识别方法，可用于视频监控复杂环境中对视频行为的描述。

背景技术

在行为识别领域，人工局部特征已经成为一种有效的特征表示方式。局部特征不需要特定的算法来检测人体部位，并且对复杂背景，光照变化和视频噪声等影响具有鲁棒性。

典型的局部特征包括：时空兴趣点STIP、立方体和稠密轨迹，通常与梯度方向直方图HOG、光流方向直方图HOF、3D梯度方向直方图HOG3D、运动边界直方图MBH、和扩展的加速鲁棒特征ESURF等描述子结合使用。

局部特征的提取主要包含两个步骤：首先发掘行为视频中显著和信息丰富的运动区域，然后在运动区域周围提取描述子。在上述人工局部特征中，基于稠密轨迹的特征在各种具有挑战的数据库中获得了较好的性能。事实上，上述描述子均为基于单个特征的1维直方图表示，并没有考虑到不同特征之间的联合统计特性。然而，这些统计特性对于行为识别也许是非常重要的。

目前已提出的获取特征之间相关性的方法有：

(1)Guo K,Ishwar P,Konrad J.Action recognition from video usingfeature covariance matrices[J].IEEE Transactions on Image Processing,2013,22(6):2479-2494，这种方法将协方差矩阵运用到两种局部特征集合，一种来自运动目标的轮廓序列，另一种来自光流，并应用一个稀疏线性表示的框架来实现行为识别。然而，该方法需要对视频进行精确分割，这对真实场景中的视频是非常困难的。

(2)Bilinski P,Bremond F.Video covariance matrix logarithm for humanaction recognition in videos[C]//IJCAI 2015-24th International JointConference on Artificial Intelligence(IJCAI).2015，这种方法在稠密轨迹的基础上，提出视频协方差矩阵对数(VCML)描述子，来模拟不同底层静态特征之间线性关系。该方法虽然考虑到了不同特征之间的关系，但只考虑了静态特征，并未考虑行为主体的动态特征，无法准确描述行为的运动，导致行为识别结果的准确率低。

发明内容

本发明目的在于针对上述已有技术的不足，提出一种基于稠密轨迹协方差描述子的行为识别方法，以获取准确描述视频中行为主体的运动信息，并在此基础上获取不同特征之间的联合统计特性，从而增强对视频行为的描述能力，进一步提高行为识别的准确率。

实现本发明的技术关键是在对底层特征集合求协方差矩阵的过程中不仅以位置信息和梯度作为静态特征，而且计算了梯度、光流和运动边界的时间导数作为运动特征，由此构造了基于稠密轨迹的协方差矩阵描述子，具体步骤包括如下：

(1)对视频序列进行稠密采样，计算采样点处的稠密光流f，设光流阈值为T_flow；

(2)将光流f大小大于设定阈值T_flow的采样点视为特征点，对特征点进行筛选，再对筛选后的特征点进行追踪，以获取长度为L的行为主体运动轨迹，在每一帧中以每一个运动轨迹点为中心选取W×H大小的图像块，得到大小为W×H×L的随轨迹弯曲的轨迹立方体；

(3)对轨迹立方体中的每一个像素点，提取d维底层特征；

(4)将轨迹立方体中视频帧I对应的空间区域表示为R_I，用R_I中所有像素点提取的d维底层特征构成特征向量集合{F_(k,I)∈R^d}_k＝1,...,n，其中，n表示R_I中像素点的个数，接着计算其协方差矩阵C_I；

(5)通过Log-Euclidean度量方式将协方差矩阵投影到欧式空间，获取矩阵对数log(C_I)，并将该矩阵的上三角部分转换为一个矢量Vec(log(C_I))；

(6)将大小为W×H×L的轨迹立方体，均分为W×H×l的m个子块，利用(5)中获取的矢量计算每个轨迹子块的描述子其中，l为轨迹子块的帧长度，m＝L/l；

(7)串接m个轨迹子块的描述子,以获取基于稠密轨迹的协方差矩阵描述子，D_CMDT＝[D_{Sub_1},D_{Sub_2},...,D_{Sub_i},...,D_{Sub_m}]^T，其中，D_{Sub_i}表示第i个轨迹子块的描述子，i∈[1,m]，[·]^T表示转置；

(8)将所有视频基于稠密轨迹的协方差矩阵描述子分为训练集VF_tr和测试集VF_te，采用BOW方法进行编码，得到训练集的码字直方图VH_tr和测试集的码字直方图VH_te；

(9)利用训练集的码字直方图VH_tr训练SVM分类模型，将测试集的码字直方图VH_te输入到训练好的SVM分类模型中进行测试，获取行为识别结果。

本发明与现有技术相比具有以下优点：

1)本发明在稠密轨迹的基础上，将梯度、光流和运动边界的时间导数作为底层运动特征，准确反映了运动部位的速度信息，获取了运动目标和边界的加速度信息，有利于行为识别结果的提高。

2)本发明通过计算静态和动态底层特征之间的协方差矩阵，构造了基于稠密轨迹的协方差矩阵描述子，考虑了底层特征之间的相关性，这种特征之间的联合统计信息，能够提高对复杂环境中视频行为的描述能力。

附图说明

图1是本发明的实现流程图。

具体实施方式

下面结合附图对本发明的实施作进一步详细描述。

参照图1，本发明的基于稠密轨迹协方差描述子的行为识别步骤如下：

步骤1，对视频序列进行稠密采样，计算采样点处的稠密光流f。

(1.1)对视频帧每隔w个像素进行网格采样获取采样点，参数w的值设为5；

(1.2)对(1.1)中获取的采样点采用Gunnar算法计算光流：

(1.2a)将图像中每个像素的邻域像素值表示为一个二次多项式：

f(x)＝x^TAx+b^Tx+c，

其中，f(x)表示与邻域x对应的像素值，A为对称矩阵，b为一个向量，c代表了偏移量，这些参数可通过加权的最小二乘法进行估计得到；

(1.2b)将当前视频帧的图像表示为：

f₁(x)＝x^TA₁x+b₁ ^Tx+c₁，

其中，A₁，b₁和c₁分别表示当前视频帧图像对应的对称矩阵，向量和偏移量；

(1.2c)将当前视频帧后面一个视频帧的图像表示为：

其中，z表示当前视频帧图像到后面一个视频帧图像发生的全局位移，A₂，b₂和c₂分别表示当前视频帧后面一个视频帧图像对应的对称矩阵，向量和偏移量；

(1.2d)根据(1.2c)中二次多项式对应系数相等性质，得出全局位移：即为像素点的稠密光流f。

步骤2，对特征点进行筛选并进行跟踪，得到稠密轨迹，获取随轨迹弯曲的轨迹立方体。

在复杂的行为环境中通常存在摄像头运动，由摄像头运动产生的特征点会对由行为主体运动产生的特征点产生干扰，影响行为识别的效果，因此，需要对特征点进行筛选，去除由摄像头运动产生的特征点，具体步骤如下：

(2.1)设光流阈值为T_flow＝0.4，将光流f大小大于设定阈值T_flow的采样点视为特征点，将其保留下来并计入特征点数目Num_feat，否则将其舍去；若剩下的特征点数目超过设定的阈值T_feat，即Num_feat＞T_feat，则认为该视频帧存在摄像头运动，此时，对运动特征点的光流采用DBSCAN算法进行聚类，进一步移除摄像头运动的干扰，其中，W_Vid和H_Vid分别表示视频帧图像的宽和高；α表示运动特征点数目占所有采样点的比例，α＝0.1；

(2.2)经过(2.1)进行特征点筛选后，在随后的连续帧图像中对特征点进行跟踪，获取长度为L的轨迹，轨迹的长度限制为L＝15，在每一帧中以每一个运动轨迹点为中心选取W×H大小的图像块，得到大小为W×H×L的随轨迹弯曲的轨迹立方体，W＝32，H＝32。

步骤3，对轨迹立方体中的每一个像素点提取d维底层特征。

(3.1)对轨迹立方体中的每个点P，采用一维Sobel算子[-1,0,1]计算空间梯度，得到x和y方向的梯度P_x和P_y，以反映点P的外观信息，其计算式如下：

(3.2)以(3.1)获取的梯度为基础，对两个连续的梯度采用[-1,1]的时间滤波器计算时间偏导，以获取梯度边界信息：

由于人体梯度边界的变化，反映运动部位的速度，强调运动边缘边界，故可通过P_x和P_y对时间方向t的偏导数P_t,x和P_t,y来计算梯度边界的变化信息，计算式如下：

(3.3)将光流f沿x和y方向的分量分别表示为u和v，采用[-1,1]的时间滤波器，计算u在时间方向t上的偏导数f_t,x和v在时间方向t上的偏导数f_t,y，它们反映运动部位的加速度信息，计算如下式：

(3.4)计算光流f的运动边界，计算过程如下：

利用一维Sobel算子[-1,0,1]，分别计算u沿水平方向的导数u沿垂直方向的导数v沿水平方向的导数v沿垂直方向的导数以获取f的运动边界；

(3.5)计算运动边界的时间偏导，以反映目标运动边界的速度变化，计算过程如下：

利用[-1,1]的时间滤波器，分别计算的时间偏导u_t,x，的时间偏导u_t,y，的时间偏导v_t,x和的时间偏导v_t,y，计算式如下：

(3.6)对于行为识别而言，除了(3.1)～(3.5)中计算的像素点P的梯度、梯度的时间导数、光流的时间导数和运动边界的时间导数外，P的空间位置X和Y也是有用的信息，因此也作为底层特征，将X，Y，P_x，P_y，P_t,x、P_t,y及其幅值和方向角，f_t,x、f_t,y及其幅值和方向角，u_t,x、u_t,y及其幅值和方向角，v_t,x、v_t,y及其幅值和方向角进行串接构成d＝20维的特征向量，由此，将每个P可通过d维的底层特征来表示。

步骤4，将轨迹立方体中视频帧I对应的空间区域表示为R_I，获取R_I的特征向量集合，并对其计算协方差矩阵。

通过步骤3获取底层特征后，对每个特征的方差以及不同特征之间的协方差进行编码，可以得到一个更加紧凑的特征表示，故通过计算特征向量集合的协方差矩阵来实现，具体步骤如下：

(4.1)对R_I中所有像素点提取d维底层特征，构成特征向量集合{F_(k,I)∈R^d}_k＝1,...,n，其中，n表示R_I中像素点个数，n＝W×H，d为底层特征的维数；

(4.2)通过下式计算特征向量集合的协方差矩阵：

其中，F_(k,I)表示R_I的特征向量集合中的第k个特征向量，k∈[1,n]，μ_I为特征向量均值，

步骤5，将协方差矩阵投影到欧式空间，获取R_I的特征表示。

协方差矩阵可以表示为一个连通的黎曼流形，为了方便进一步地对基于协方差矩阵的描述子进行聚类并构造码书，需要通过Log-Euclidean度量方式将协方差矩阵投影到欧式空间，具体步骤如下：

(5.1)对协方差矩阵进行奇异值分解，得到U，V和Σ，其中，U为左奇异矩阵，V为右奇异矩阵，Σ＝diag(λ₁,λ₂,...,λ_j,...,λ_d)为由奇异值构成的对角矩阵，λ_j为C_I的第j个奇异值，j∈[1,d]，奇异值的个数为d，diag(·)表示构成对角矩阵；

(5.2)利用U，V和Σ计算矩阵对数log(C_I)：

log(C_I)＝U·log(Σ)·V^T＝U·diag(log(λ₁),log(λ₂),...,log(λ_j),...,log(λ_d))·V^T；

(5.3)取矩阵的上三角部分Vec(log(C_I))来表示R_I，其中，Vec(·)表示将矩阵的上三角部分转换为一个矢量，因为协方差矩阵是一个d×d维的对称矩阵，由d(d+1)/2个值决定，所以取上三角部分可以获取更加紧凑的形式。

步骤6，通过R_I的特征表示计算每个轨迹子块的描述子。

将一个W×H×L的轨迹立方体均分为W×H×l的m个子块，为了使每个子块均有一个紧凑的表示，将子块中所有R_I特征表示的平均矢量作为子块的描述子：

其中，l为轨迹子块的帧长度，l＝5，m＝L/l。

步骤7，将m个轨迹子块的描述子串接，得到基于稠密轨迹的协方差矩阵描述子：

D_CMDT＝[D_{Sub_1},D_{Sub_2},...,D_{Sub_i},...,D_{Sub_m}]^T，

其中，D_{Sub_i}表示第i个轨迹子块的描述子，i∈[1,m]，[·]^T表示转置。

步骤8，对协方差矩阵描述子进行BOW编码，获取码字直方图。

将所有视频基于稠密轨迹的协方差矩阵描述子分为训练集VF_tr和测试集VF_te，采用K-means聚类算法对训练集VF_tr进行聚类，得到包含K个码字的码书，K＝1000，将训练集VF_tr和测试集VF_te分别映射到码书中，得到训练集的码字直方图VH_tr和测试集的码字直方图VH_te。

步骤9，训练线性SVM分类模型，进行行为识别。

利用训练集的码字直方图VH_tr训练线性SVM分类模型，将测试集的码字直方图VH_te输入到训练好的线性SVM分类模型中进行测试，获取行为识别结果。

本发明的效果可通过以下实验结果进一步说明；

用本发明对较为复杂的标准人体行为数据库UCF-Sports进行行为识别实验，得到94％的识别正确率，实验结果证明了本发明的有效性。

以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都有可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是，这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于稠密轨迹协方差描述子的行为识别方法，包括：

(3)对轨迹立方体中的每一个像素点，提取d维底层特征；

2.根据权利要求1所述的方法，其中步骤(1)中计算采样点处的稠密光流f，按如下步骤进行：

(1a)根据Gunnar算法，将图像中每个像素的邻域像素值表示为一个二次多项式f(x)＝x^TAx+b^Tx+c，其中，f(x)表示与邻域x对应的像素值，A为对称矩阵，b为一个向量，c代表了偏移量，这些参数可通过加权的最小二乘法进行估计得到；

(1b)将当前视频帧的图像表示为：

f₁(x)＝x^TA₁x+b₁ ^Tx+c₁

(1c)将当前视频帧后面一个视频帧的图像表示为：

f₂(x)＝f₁(x-z)＝(x-z)^TA₁(x-z)+b₁ ^T(x-z)+c₁

＝x^TA₁x+(b₁-2A₁z)^Tx+z^TA₁z-b₁ ^Tz+c₁

＝x^TA₂x+b₂ ^Tx+c₂，

(1d)根据(1c)中二次多项式对应系数相等性质，得出全局位移：即为像素点的稠密光流f；

(1e)根据步骤(1a)～(1d)的计算，得到每个采样点对应的像素点处的稠密光流f。

3.根据权利要求1所述的方法，其中步骤(3)中对轨迹立方体中的每一个像素点提取d维底层特征，按如下步骤进行：

(3a)对于轨迹立方体中的每个像素点P，采用一维Sobel算子[-1,0,1]计算像素点空间梯度，得到x和y方向的梯度P_x和P_y：

(3b)在梯度的基础上，对两个连续的梯度采用[-1,1]的时间滤波器，以计算P_x和P_y对时间方向t的偏导数P_t,x和P_t,y：

(3c)将光流f沿x和y方向的分量分别表示为u和v，采用[-1,1]的时间滤波器，计算u在时间方向t上的偏导数f_t,x和v在时间方向t上的偏导数f_t,y：

(3d)利用一维Sobel算子[-1,0,1]，分别计算u沿水平方向的导数u沿垂直方向的导数v沿水平方向的导数v沿垂直方向的导数以获取光流f的运动边界；利用[-1,1]的时间滤波器，分别计算的时间偏导u_t,x，的时间偏导u_t,y，的时间偏导v_t,x和的时间偏导v_t,y：

(3e)对轨迹立方体中的每个像素点，通过步骤(3a)～(3d)分别计算像素点的梯度、梯度的时间导数、光流的时间导数和运动边界的时间导数，并结合像素点的空间位置信息，构成d维的底层特征。

4.根据权利要求1所述的方法，其中步骤(4)中计算其协方差矩阵C_I，通过如下公式进行：

<mrow> <msub> <mi>C</mi> <mi>I</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>I</mi> <mo>)</mo> </mrow> </msub> <mo>-</mo> <msub> <mi>&mu;</mi> <mi>I</mi> </msub> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>I</mi> <mo>)</mo> </mrow> </msub> <mo>-</mo> <msub> <mi>&mu;</mi> <mi>I</mi> </msub> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>,</mo> </mrow>

其中，F_(k,I)表示R_I的特征向量集合中的第k个特征向量，k∈[1,n]，n为R_I中像素点的个数；μ_I为特征向量均值，

5.根据权利要求1所述的方法，其中步骤(5)中通过Log-Euclidean度量方式将协方差矩阵投影到欧式空间，获取矩阵对数log(C_I)，按如下步骤进行：

(5a)对协方差矩阵C_I进行奇异值分解，得到U，V和Σ，其中，U为左奇异矩阵，V为右奇异矩阵，Σ＝diag(λ₁,λ₂,...,λ_j,...,λ_d)为由奇异值构成的对角矩阵，λ_j为C_I的第j个奇异值，j∈[1,d]，奇异值的个数为d，diag(·)表示构成对角矩阵；

(5b)利用以下公式计算矩阵对数log(C_I)：

log(C_I)＝U·log(Σ)·V^T＝U·diag(log(λ₁),log(λ₂),...,log(λ_j),...,log(λ_d))·V^T其中，log(·)表示求对数。