CN106022251A

CN106022251A - 基于视觉共生矩阵序列的异常双人交互行为识别方法

Info

Publication number: CN106022251A
Application number: CN201610326773.8A
Authority: CN
Inventors: 姬晓飞; 左鑫孟; 王艳辉; 王扬扬; 刘洋
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2016-05-17
Filing date: 2016-05-17
Publication date: 2016-10-12
Anticipated expiration: 2036-05-17
Also published as: CN106022251B

Abstract

本发明公开了基于视觉共生矩阵序列的异常双人交互行为识别方法，包括步骤1:对摄像头采集的视频中的交互行为进行运动检测与分割；步骤2:对视频中左右动作执行人分别进行分区域HOG特征提取；步骤3:利用步骤2中提取的HOG特征，采用K‑means算法构建视觉单词，生成视觉词袋，并对视觉词袋中的单词进行编码；利用相似度量函数，对区域特征进行视觉单词编码；统计时间维度中交互个体之间的视觉共生关系，得到视觉共生矩阵序列来表示视频中的异常双人交互行为；步骤4:HMM算法的训练与识别。本发明提出的算法过程的方法简单、高效，识别准确率较高；针对识别智能监控***中异常的双人交互行为，具有较好的识别性能。

Description

基于视觉共生矩阵序列的异常双人交互行为识别方法

技术领域

本发明属于计算机视觉领域，具体涉及基于视觉共生矩阵序列的异常双人交互行为识别方法。

背景技术

在大数据时代的背景下，计算机视觉领域备受关注，其中人体异常交互行为识别算法研究已成为热点问题，拥有交互行为识别能力的计算机能够代替人高效且准确地完成繁琐而重要的工作；因此，异常交互行为的识别算法研究具有较高的实用价值，其成果在识别智能监控***中异常的双人交互行为，有着广泛的应用前景。

目前异常双人交互行为识别方法大体有两种框架，一种是基于整体的交互动作识别与理解的框架，该框架处理简单且无需分割个体，但往往无法准确表述交互动作的内在属性，需要依靠十分复杂的特征表示及匹配方法来保证识别的准确性；交互动作通常是由动作执行个体的具体时间顺序的多个子动作在高层次的结合而成的；另外一种基于个体分割的交互动作识别与理解的框架，正是将交互动作分解为单个人的子动作并结合考虑人与人之间的运动关系进行交互行为的识别与理解，该框架下得到的交互信息较为丰富，因此得到了大量研究者的重视，目前基于个体分割的识别方法主要可分为三类：

(1)基于语义描述的识别方法：此类方法侧重于利用语义对个体姿态、原子动作或整个交互行为的表述；文献[1]等提出了基于上下文无关文法的表示方法，利用已定义的语法规则实现交互行为的识别与理解；文献[2]提出交互短语来描述执行人间的运动关系，并训练基于SVM的识别模型对交互动作进行识别；然而该类方法往往需要预先定义所有可能的产生式规则，工作繁琐；详见：[1]Ryoo M.S.，Aggarwal J.K..Recognition ofcomposite human activities through context-free grammar based representation[C].Proc.IEEE Computer Society Conf.Computer Vision and Pattern Recognition，NY，USAa，2006：1709-1719.[2]Kong Y.，Jia Y.，Fu Y..Interactive phrases：semanticdescriptions for human interaction recognition[J].IEEE Transactions onPattern Analysis and Machine Intelligence，2014，36(9)：1775-1788。

(2)基于概率图模型的识别方法：此类方法通常利用概率图模型对个体动作和双人交互动作进行分层建模与识别；文献[3-4]提出了一种基于整体光流特征和身体部分局部特征描述的耦合隐条件随机场模型，该模型通过分层建模身体各部分及单人动作间的运动关系实现交互行为的识别与理解；该方法将复杂的交互动作看成多个身体部分子动作及单人动作的级联，可以较好的建模复杂的交互动作，但是太过于依赖身体各部分区域的准确检测；详见：[3]Dong Z.，Kong Y.，Liu C，Li H.，Jia Y..Recognizing humaninteraction by multiple features[C].Proc.1st Asian Conf.PatternRecognition.Beijing，China，2011：77-81.[4]Kong Y.，Liang W.，Dong Z.，JiaY..Recognizing human interaction from videos by a discriminative model[J].Institution of Engineering and Technology Computer Vision，2014，8(4)：277-286。

(3)基于共生原子动作的匹配识别方法：此类方法对来自不同个体的成对出现的共生原子动作进行模板表示，然后采用模板匹配的方法进行识别；文献[5]将视频序列用一系列具有一致空间结构和一致运动的组件表示，通过对比这些成对组件的时空关系对双人交互行为进行识别；文献[6]提出了一种基于共生视觉词典的方法，该方法提取3D-SIFT特征，并通过统计动作执行人间共生视觉词的发生频率对双人交互行为进行表示和识别；该类方法原理简单，容易实现，但算法通常计算量大，特征表述能力不强，分类器的性能有待提高，这也导致目前此类方法的准确性不高；详见：[5]Yuan F.，Prinet V.，YuanJ..Middle-Level representation for human activities recognition：the role ofspatio-temporal relationships[C].Proc.11th European Conf.Computer Vision，Heraklion，Greece，2010：168-180.[6]Slimani K.，Benezeth Y.，Souami F..Humaninteraction recognition based on the co-occurrence of visual words[C].Proc.IEEE Conf.Computer Vision and Pattern Recognition Workshops.Columbus，Ohio，USA，2014：461-466。

发明内容

为解决上述异常双人交互识别研究中存在的识别率较低、计算复杂度较高的技术问题，本发明有效结合了基于共生原子动作描述及概率图模型识别方法的优势，设计了基于视觉共生矩阵序列的异常双人交互行为识别方法。

本发明采用的技术方案为：基于视觉共生矩阵序列的异常双人交互行为识别方法，包括以下几个步骤：

步骤1：对摄像头采集的视频中的交互行为进行运动检测与分割；

步骤2：对视频中左右动作执行人分别进行分区域HOG特征提取；

步骤3：利用步骤2中提取的HOG特征，采用K-means聚类算法构建视觉单词，生成视觉词袋，并对视觉词袋中的单词进行编码；利用相似度量函数，对区域特征进行视觉单词编码；统计时间维度中交互个体之间的视觉共生关系，得到视觉共生矩阵序列来表示视频中的异常双人交互行为；

步骤4：利用HMM算法，对各类异常双人交互行为进行训练，利用训练好的不同交互行为模型，对实际输入视频进行异常双人交互行为识别。

作为一种优选的技术方案，所述的步骤1具体包括：

步骤1.1：拍摄视频：启动摄像头，录制双人交互视频，收集不同动作执行人的各类交互动作视频，作为交互动作的训练视频，并对各类训练视频进行交互行为含义标记，建立视频训练集；利用摄像头捕捉需要进行测试的视频流，进而形成视频测试集；

步骤1.2：检测与分割：对拍摄的视频进行运动检测处理，利用ViBe算法进行动态背景建模，建模后视频背景置为黑色，交互的前景区域为彩色，完成运动检测，并且利用人体的轮廓信息以及体心距离，将交互的左右动作执行人实现运动分割，得到两个彼此分开的个体；最后，将视频进行灰度化处理，便于后续特征提取。

作为一种优选的技术方案，所述的步骤2具体包括：

步骤2.1：提取序列图像的梯度幅值与梯度方向，如公式(1)所示：

\{\begin{matrix} G_{x} = f (x + 1, y) - f (x - 1, y) \\ G_{y} = f (x, y + 1) - f (x, y - 1) \end{matrix} - - - (1)

其中G_x为图像中像素点(x，y)处的水平方向梯度，G_y是垂直方向梯度，其像素点(x，y)处的梯度幅值G(x，y)和梯度方向分别为公式(2)和公式(3)所示：

G (x, y) = \sqrt{G_{x} {(x, y)}^{2} + G_{y} {(x, y)}^{2}} - - - (2)

步骤2.2：将整帧图像分成c×r个块区域，然后计算各区域中像素点的梯度大小对其不同方向区域，方向个数为q，贡献不同的权重，累加权重到所有的梯度方向上，最终得到特征向量。

作为一种优选的技术方案，所述的步骤3具体包括：

步骤3.1：采用K-means算法构建视觉单词，生成视觉词袋：

①分别提取视频训练集中左右动作执行人的分区域HOG特征向量set_i，共同生成一个特征向量集SET，SET＝{set₁，set₂，…set_m}；其中m为特征向量的总数，且i＝1，2，m

②对SET进行K-means算法操作，生成具有代表性的视觉单词w_p，组成词袋W，W＝{w₁，w₂，…，w_n}，其中n为视觉单词个数，且p＝1，2，...n；

③利用哈希技术将W中的视觉单词w_p单一映射到h＝f(w_p)，实现对视觉词袋中单词的量化编码，量化编码的取值范围为1～N，且h∈{1，2，…N}，哈希函数如公式(4)所示：

h = f (w_{p}) = \frac{1}{2} Σ_{j = 1}^{n} [s g n (| | w_{p} | |_{2} - | | w_{j} | |_{2}) + 1] + \frac{1}{2} - - - (4)

其中，w_j∈W；

步骤3.2：完成对左右动作执行人分区域特征的视觉单词编码：

①对视频中每帧图片左右执行人的局部区域HOG特征向量set_i，采用相似度量函数，将set_i与W＝{w₁，w₂，…，w_n}中的视觉单词进行相似性比较，得到与之最相似的视觉单词；

②将分块的视频帧左右动作执行人局部区域的set_i，分别标记为该视觉单词经过哈希函数得到的量化编码，从而完成视频区域特征的视觉单词编码；

步骤3.3：将视频描述为对应的视觉共生矩阵序列：

①以视频帧图像为单位建立一个N×N的视觉共生矩阵，用来统计每帧中左右执行人之间视觉单词共生的频数。例如：左边执行人的视觉单词编码h_i与右边执行人的视觉单词编码h_j共同出现的频数为k，则在视觉共生矩阵对应(h_i，h_j)的位置处记为k。最终得到一个表示视频帧图片中左右执行人之间关系的视觉共生矩阵vc，并进行归一化处理；

②对于视频来说，在时间维度T上得到视觉共生矩阵序列VC＝{vc₁，vc₂，…，vc_num}来表征基于视频的交互行为信息，对于测试视频同样进行本步骤操作；

步骤3.4：由于在双人交互过程中，存在动作执行人的左右位置不同，这将导致视觉单词对共生的位置发生变化，因此，这里将采用得到vc，并取其上三角视觉共生矩阵代替原来的矩阵，来增加算法的鲁棒性。

作为一种优选的技术方案，所述的步骤4具体包括：

步骤4.1：HMM算法的训练

一个HMM可以由λ＝{A，B，π}来描述，其中A为状态转移矩阵，B是观察概率矩阵，π表示初始状态概率矢量；采用Baum-Welch算法训练基于视觉共生矩阵序列的双人交互HMM，采用K-means算法为Baum-Welch算法选取初始值，K-means算法具体包括：

步骤4.1.1：初值选取：选取一类训练动作的N个等间距帧的特征作为K-means算法的初始值U^(K-start)，其中

步骤：4.1.2更新过程；求取每一个观察向量o_t与每一个u_i的距离d_i(o_t)，把o_t划分到与其距离最近的类中，获得更新的N类观察向量，并计算每类新观察向量的均值如公式(5)所示：

u_{i}^{(K - n e w)} = \frac{1}{N_{i}} Σ_{x i = 1}^{N_{i}} o_{x i} - - - (5)

其中o_xi为第i类观察向量，N_i为其个数；

步骤4.1.3：终止条件：每类新观察向量均值不在变化，将每类动作的聚类中心作为各类HMM的初始值，利用Baum-Welch算法采用多个训练序列来训练各类交互行为的HMM，来完成动作识别；

步骤4.2：HMM算法的识别：

利用HMM算法识别过程如下：需要采用forward-backward算法依次计算测试序列O＝{o₁，o₂，...，o_T}与训练得到的各类交互行为HMM的相似度，相似度最大的模型所代表的交互行为，则为测试视频最终的交互行为。

与现有技术相比较，本发明的有益效果在于：(1)本发明创新性的设计了双人交互行为的特征描述方法，并充分利用HMM进行双人交互行为的识别；(2)利用HOG提取的特征，设计基于视觉共生矩阵序列的特征描述方法，得到交互行为视频的全局特征与分布特征；(3)利用HMM实现了交互行为的分类与识别；(4)本发明提高了相似交互行为的识别率，且方法简单、实时性好。

附图说明

图1为本发明算法流程图；

图2为HOG底层特征提取算法示意图；

图3为基于视觉共生矩阵序列描述的算法框图。

具体实施方式：

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

本发明选择了计算复杂度较低的分区域HOG特征作为底层特征，在兼顾局部特征优势的同时，也包含区域之间的位置信息；然后，本发明设计将左右动作执行人的特征集在帧图像层上建立视觉单词共生矩阵，利用视觉共生矩阵序列描述一个交互行为视频的特征，丰富了视频中隐含的内在信息，同时增强了不同交互行为的区分度；最后，考虑到基于概率图模型的识别方法能够较好地建模人体运动的动态过程，所以采用基于隐马尔科夫模型算法进行动作建模和识别；提高了交互行为识别的准确率和识别速度。

下面依据附图1-3，对本发明的技术方案做进一步的详细描述：

基于视觉共生矩阵序列的异常双人交互行为识别方法，包括以下几个步骤：

步骤1：对摄像头采集的视频中的交互行为进行运动检测与分割；双人交互行为识别***实现首先是进行运动检测与左右动作执行人的分割，完成视频的预处理操作，本发明采用普通的视频监控摄像头采集视频，获取RGB彩***流；采用ViBe算法进行背景建模，得到视频的前景，即双人交互的感兴趣区域；背景模型为每个背景点存储了一个样本集，并用每个新的像素值与其比较，来判断是否为背景点；可以知道若一个新的观察值属于背景点，则它应该和样本集中的采样值比较接近；并利用形态学原理将得到的交互行为前景信息进行闭运算，进而填补前景的空洞部分，然后采用中值滤波进行降噪处理；然后根据人体的外部轮廓特征和体心距离，实现双人交互行为的检测与个体分割。

步骤2：对视频中左右动作执行人分别进行分区域HOG特征提取；HOG特征是表征人体运动的边缘梯度信息，无需进行边缘检测，这种方法能够克服因光照、尺度变化、衣着以及背景的变化所带来的干扰，即使在一些复杂的背景环境仍然能有较强的抗干扰能力；HOG特征采用分区域的方法，对像素点求取梯度的幅值和方向，能够更好的描述细节和分布特征；图2说明了双人交互视频分区域HOG特征提取的过程；

步骤3：利用步骤2中提取的HOG特征，采用K-means算法构建视觉单词，生成视觉词袋，并对视觉词袋中的单词进行编码；利用相似度量函数，对区域特征进行视觉单词编码；统计时间维度中交互个体之间的视觉共生关系，得到视觉共生矩阵序列来表示视频中的异常双人交互行为；本发明基于共生矩阵的思想，并合理地结合了HOG和BOW各自的优势，通过对图像构建视觉单词共生矩阵序列来描述刻画视觉单词间在空间上的相关性，图3说明了双人交互视频中视觉共生矩阵序列特征描述的过程；

步骤4：利用HMM算法，对各类异常双人交互行为进行训练。利用训练好的不同交互行为模型，对实际输入视频进行异常双人交互行为识别。

作为一种优选的技术方案，所述的步骤1具体包括：

作为一种优选的技术方案，所述的步骤2具体包括：

\{\begin{matrix} G_{x} = f (x + 1, y) - f (x - 1, y) \\ G_{y} = f (x, y + 1) - f (x, y - 1) \end{matrix} - - - (1)

G (x, y) = \sqrt{G_{x} {(x, y)}^{2} + G_{y} {(x, y)}^{2}} - - - (2)

作为一种优选的技术方案，所述的步骤3具体包括：

步骤3.1：采用K-means算法构建视觉单词，生成视觉词袋：

h = f (w_{p}) = \frac{1}{2} Σ_{j = 1}^{n} [s g n (| | w_{p} | |_{2} - | | w_{j} | |_{2}) + 1] + \frac{1}{2} - - - (4)

其中，w_j∈W；

步骤3.3：将视频描述为对应的视觉共生矩阵序列：

②对于视频来说，在时间维度T上得到视觉共生矩阵序列VC＝{vc₁，vc₂，…，vc_num}来表征基于视频的交互行为信息，对于测试视频同样进本步骤操作；

作为一种优选的技术方案，所述的步骤4具体包括：

步骤4.1：HMM算法的训练

一个HMM可以由λ＝{A，B，π}来描述，其中A为状态转移矩阵，B是观察概率矩阵，π表示初始状态概率矢量；采用Baum-Welch算法训练基于视觉共生矩阵序列的双人交互HMM，采用K-means算法为Baum-Welch算法选取初始值，K-means算法包括：

u_{i}^{(K - n e w)} = \frac{1}{N_{i}} Σ_{x i = 1}^{N_{i}} o_{x i} - - - (5)

其中o_xi为第i类观察向量，N_i为其个数；

步骤4.2：HMM算法的识别：

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.基于视觉共生矩阵序列的异常双人交互行为识别方法，其特征在于，包括以下几个步骤：

2.根据权利要求1所述的基于视觉共生矩阵序列的异常双人交互行为识别方法，其特征在于，所述的步骤1具体包括：

步骤1.1：拍摄视频：启动摄像头，录制双人交互视频，收集不同动作执行人的各类交互动作视频，作为交互动作的训练视频，并对各类训练视频进行交互行为含义标记，建立视频训练集；利用摄像头捕捉需要进行测试的视频流，形成视频测试集；

3.根据权利要求1所述的基于视觉共生矩阵序列的异常双人交互行为识别方法，其特征在于，所述的步骤2具体包括：

\{\begin{matrix} G_{x} = f (x + 1, y) - f (x - 1, y) \\ G_{y} = f (x, y + 1) - f (x, y - 1) \end{matrix} - - - (1)

G (x, y) = \sqrt{G_{x} {(x, y)}^{2} + G_{y} {(x, y)}^{2}} - - - (2)

4.根据权利要求1所述的基于视觉共生矩阵序列的异常双人交互行为识别方法，其特征在于，所述的步骤3具体包括：

步骤3.1：采用K-means算法构建视觉单词，生成视觉词袋：

①分别提取视频训练集中左右动作执行人的分区域HOG特征向量set_i，共同生成一个特征向量集SET，SET＝{set₁，set₂，…set_m}；其中m为特征向量的总数，且i＝1，2，m；

h = f (w_{p}) = \frac{1}{2} Σ_{j = 1}^{n} [s g n (| | w_{p} | |_{2} - | | w_{j} | |_{2}) + 1] + \frac{1}{2} - - - (4)

其中，w_j∈W；

步骤3.3：将视频描述为对应的视觉共生矩阵序列：

①以视频帧图像为单位建立一个N×N的视觉共生矩阵，用来统计每帧中左右执行人之间视觉单词共生的频数；最终得到一个表示视频帧图片中左右执行人之间关系的视觉共生矩阵vc，并进行归一化处理；

②对于视频来说，在时间维度T上得到视觉共生矩阵序列VC＝{vc₁，vc₂，…，vc_num}来表征基于视频的交互行为信息，对于视频测试集同样进行本步骤操作；

步骤3.4：当在双人交互过程中，存在动作执行人的左右位置不同，这将导致视觉单词对共生的位置发生变化，因此，采用得到vc，并取其上三角视觉共生矩阵代替原来的矩阵，来增加算法的鲁棒性。

5.根据权利要求1所述的基于视觉共生矩阵序列的异常双人交互行为识别方法，其特征在于，所述的步骤4具体包括：

步骤4.1：HMM算法的训练

HMM由λ＝{A，B，π}来描述，其中A为状态转移矩阵，B是观察概率矩阵，π表示初始状态概率矢量；采用Baum-Welch算法训练基于视觉共生矩阵序列的双人交互HMM，采用K-means算法为Baum-Welch算法选取初始值，K-means算法具体包括：

u_{i}^{(K - n e w)} = \frac{1}{N_{i}} Σ_{x i = 1}^{N_{i}} o_{x i} - - - (5)

其中o_xi为第i类观察向量，N_i为其个数；

(2)步骤4.2：HMM算法的识别：

采用forward-backward算法依次计算测试序列O＝{o₁，o₂，...，o_T}与训练得到的各类交互行为HMM的相似度，相似度最大的模型所代表的交互行为，则为测试视频最终的交互行为。