CN103810717A

CN103810717A - 一种人体行为检测方法及装置

Info

Publication number: CN103810717A
Application number: CN201210448054.5A
Authority: CN
Inventors: 谢志明; 潘晖; 潘石柱; 张兴明; 傅利泉; 朱江明; 吴军; 吴坚
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2012-11-09
Filing date: 2012-11-09
Publication date: 2014-05-21
Anticipated expiration: 2032-11-09
Also published as: CN103810717B

Abstract

本发明公开了一种人体行为检测方法及装置，该方法包括：获得待检测视频的图像帧；确定获得的相邻两个图像帧之间的全局光流场，得到相邻两个图像帧之间的运动信息；根据得到的运动信息，获得至少一个具有预设运动方向的运动区域，其中，所述运动区域包含至少一个构成图像帧的像素点；对获得的运动区域进行过滤处理，并将过滤处理后的运动区域进行预设人体行为形状匹配；根据匹配结果，确定出待检测视频中包含的人体行为。采用上述技术方案，应用普适性较强，能够较好地提高视频监控***中人体行为检测的准确性，节省资源。

Description

一种人体行为检测方法及装置

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种人体行为检测方法及装置。

背景技术

智能视频监控以数字化、网络化视频监控为基础，但是又区别于普通的网络化视频监控，属于一种更高端的视频监控应用。智能视频监控***能够识别不同的物体，发现监控画面中的异常情况，并且能够以较快和较佳的方式发出警报和提供有用信息，从而能够更佳有效地协助安全人员处理危机，并最大限度地降低误报和漏报现象。

现有技术中，通过视频监控实现对人体行为的检测，主要有两种方式，一种方式是通过视频监控，将人体行为进行摄录，后续由网络管理人员人工监视摄录画面，当发现异常画面时发出报警等相关信息，这种方式由于是由网络管理人员监控视频画面得到人体行为信息，当由于某些原因，网络管理人员离开视频监控画面时，就无法实现对人体行为的检测，因此局限性较强，人体行为检测的准确性较差。还有一种方式，是通过机器学习的方式，得到一个人体行为检测模型，通过得到的人体行为检测模型，来实现对待检测视频进行人体行为检测。但是这种方式在具体实施中，需要采集大量的样本视频信息进行标注，然后从采集到的大量视频样本信息中提出相关特征进行机器学习，最终才可以获得一个人体行为检测模型，通过人体行为检测模型来实现对待检测视频进行分析，因此准确性较低，比较浪费资源。

综上所述，现有技术中提出的人体行为检测方法，准确性较低，比较浪费资源。

发明内容

本发明实施例提供了一种人体行为检测方法及装置，应用普适性较强，能够较好地提高视频监控***中人体行为检测的准确性。

一种人体行为检测方法，包括：获得待检测视频的图像帧；确定获得的相邻两个图像帧之间的全局光流场，得到相邻两个图像帧之间的运动信息；根据得到的运动信息，获得至少一个具有预设运动方向的运动区域，其中，所述运动区域包含至少一个构成图像帧的像素点；对获得的运动区域进行过滤处理；并将过滤处理后的运动区域进行预设人体行为形状匹配；根据匹配结果，确定出待检测视频中包含的人体行为。

一种人体行为检测装置，包括：图像帧获得模块，用于获得待检测视频的图像帧；运动信息确定模块，确定图像帧获得模块获得的相邻两个图像帧之间的全局光流场，得到相邻两个图像帧之间的运动信息；运动区域获得模块，用于根据运动信息确定模块得到的运动信息，获得至少一个具有预设运动方向的运动区域，其中，所述运动区域包含至少一个构成图像帧的像素点；匹配模块，用于对运动区域获得模块获得的运动区域进行过滤处理，并将过滤处理后的运动区域进行预设人体行为形状匹配；人体行为确定模块，用于根据匹配模块匹配结果，确定出待检测视频中包含的人体行为。

采用上述技术方案，对于待检测的视频，获得待检测视频的图像帧，然后确定获得的相邻两个图像帧之间的全局光流场，得到包含的运动信息，根据运动信息，获得具有预设运动方向的运动区域，再结合预设人体行为形状，确定出待检测视频中包含的人体行为。与现有技术相比，不需要人为的监控视频画面，普适性较好，并且也不需要对搜集的大量的视频样本信息中包含的人体行为的相关特征进行机器学习，准确性较高，较好地节省了资源。

附图说明

图1为本发明实施例中，提出的人体行为检测方法流程图；

图2为本发明实施例中，以2帧图像帧为例阐述运动区域过滤处理过程示意图；

图3为本发明实施例中，提出的人体行为检测装置结构图。

具体实施方式

针对现有技术中存在的人体行为检测时，局限性较强，并且准确性较低，比较浪费资源的问题，本发明实施例这里提出的技术方案，对于待检测的视频，能够根据待检测视频中包含的运动信息，然后结合预设人体行为形状，确定出待检测视频中包含的人体行为。与现有技术相比，不需要人为的监控视频画面，普适性较好，并且也不需要对搜集的大量的视频样本信息中包含的人体行为的相关特征进行机器学习，准确性较高，较好地节省了资源。

下面将结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。

本发明实施例这里提出一种人体行为检测方法，如图1所示，具体处理过程如下述：

步骤11，针对待检测视频，获得待检测视频的图像帧。

其中，获得待检测视频的图像帧时，可以但不限于采用下述两种方式：

第一种方式：获得待检测视频的全部图像帧。例如，待检测视频一共包含10帧图像帧，将10帧图像帧依次提取出来。

第二种方式：获得待检测视频的部分图像帧。

对于待检测视频，可以间隔N帧提取出一帧图像帧，N的取值一般为2~5之间。例如，假设待检测视频一共包含10帧图像帧，分别是1~10，则可以按照预设条件，依次隔几帧提取一帧图像帧，例如，依次提取第1帧、第3帧、第5帧、第7帧、第9帧图像帧。采用第二种方式获得待检测视频的部分图像帧，可以较好地提高获得图像帧的处理速度，降低计算量，节省处理资源。

步骤12，对获得的待检测视频的图像帧进行高斯平滑处理，去除获得的图像帧中包含的噪声。

需要说明的是，本发明实施例这里提出的技术方案，具体实施中，步骤12的处理步骤是可选的，也就是说，基于图1所示的方法流程，是本发明实施例这里提出的一种较佳地实施方式。对获得的待检测视频的图像帧进行高斯平滑处理，去除获得的图像帧中包含的噪声，可以较好地降低计算量，提高人体行为检测的准确性。

步骤13，确定获得的相邻两个图像帧之间的全局光流场，得到相邻两个图像帧之间的运动信息。

其中，根据步骤11中获得的图像帧的两种方式，相应地，在进行全局光流场计算时，可以但不限于采用下述两种方式：

第一种方式：针对步骤11中获得的待检测图像的全部图像帧，依次确定相邻两个图像帧之间的全局光流场，得到相邻两个图像帧之间的运动信息。例如，假设步骤11中获得待检测视频的10帧图像帧，分别用1~10进行标识，则依次对1和2、2和3、3和4、4和5、5和6、6和7、7和8、8和9、9和10图像帧进行全局光流场计算，确定1和2、2和3、3和4、4和5、5和6、6和7、7和8、8和9、9和10图像帧之间的运动信息。

第二种方式：针对步骤11中获得的待检测图像的全部图像帧，可以间隔N帧依次进行计算，N的取值一般为2~5。例如，假设步骤11中获得待检测视频的10帧图像帧，分别用1~10进行标识，则依次对1和3、3和5、5和7、7和9图像帧之间进行全局光流场计算，确定1和3、3和5、5和7、7和9图像帧之间的运动信息。

采用第二种方式，可以较好地提高全局光流场的运算速度，节省处理资源。

其中，光流场反映的是图像帧之间的运动信息。对于视频图像中包含的每一个像素点(x，y)，都有一个运动矢量(vx，vy)与其对应。运动矢量包括数值和方向。

具体地，光流反映了在一定时间间隔内，由于运动所造成的图像变化。由于在短时间内任何物体点所观察到的亮度是恒定不变的，例如像素点的位置信息为(x,y)，该像素点在dt时间内，由位置信息为(x,y)移动到位置信息(x+dx,y+dy)，该像素点的亮度是恒定不变的，所以有下述公式1成立：

f(x+dx,y+dy,t+dt)＝f(x,y,t) 公式1

进一步地，如果将动态图像标识为空间和时间的函数，并将公式1进行泰勒展开，可以得到公式2：

f (x + dx, y + dy, t + dt) = f (x, y, t) + f_{x} dx + f_{y} dy + f_{t} dt + O ({&PartialD;}^{2})

公式2

其中，上述公式1和公式2中，f(x,y,t)表示是t时刻的视频图像中像素点（x，y）的像素灰度，f(x+dx,y+dy，t+dt)表示的是t+dt时刻的视频图像中像素点(x+dx，y+dy)的像素灰度，

表示高阶项，f_xdx表示一阶x偏导数，f_ydy表示一阶y偏导数，f_tdt表示一阶t偏导数。

需要说明的是，在一般情况下，dx，dy，dt都比较小，高阶项可以忽略不计，则结合公式1和公式2可以得到下述公式3：

- f_{t} = f_{x} \frac{dx}{dt} + f_{y} \frac{dy}{dt} = f_{x} u + f_{y} v

公式3

其中，u，v表示待求的图像光流场，即物体在X方向和Y方向的运动速度。

需要说明的是，现有技术中已经提出较多的成熟计算图像全局光流场的方法，本发明实施例这里不再一一赘述。

较佳地，本发明实施例这里基于多边形扩展的方式，确定获得的相邻两个图像帧之间的全局光流场。具体地，基于多边形扩展的方法是GunnarFarneback提出的，本发明实施例这里提出的技术方案，对基于多边形扩展的方式，进行了浮点数定点化的优化设计，这样，基于多边形扩展的方式确定获得的相邻两个图像帧之间的全局光流场时，计算过程中不涉及浮点数，后续比较容易移植到嵌入式设备中，并且提高较好的加快运算速度。

步骤14，根据得到的运动信息，获得至少一个具有预设运动方向的运动区域。

其中，所述运动区域包含至少一个构成图像帧的像素点。

由于在具体实施中，一个像素点构成的运动区域，通常认为是干扰信号，较佳地，可以按照视频图像分辨率的大小设置一个最小的数值，例如，设置为36，即所述运动区域包含至少36个图像帧的像素点，如可以包括60个像素点、70个像素点等等，小于预设值36的可以作为干扰信号滤除。从而能够较好地节省***的处理资源。

具体地，预设运动方向可以是向下运动方向，也可以是向上运动方向。当人体行为是下蹲动作时，预设运动方向是向下运动方向，当人体行为是由下蹲到起立的动作时，预设运动方向是向上运动方向，本发明实施例这里提出的技术方案，以下蹲动作为例进行详细阐述。

具体地，预设运动方向包含向下运动方向时，获得具有向下运动放下的运动区域的具体处理过程如下：

步骤一：根据得到的运动信息，确定每个像素点的运动信息。

其中，图像帧是由像素点组成，每个图像帧中包含至少一个像素点。

步骤二：根据确定的每个像素点的运动信息，选取种子像素点；

其中，运动信息可以是像素点的运动速度，运动速度可以是像素点在X轴方向的运动速度的绝对值和在Y轴方向的运动速度的绝对值之和。针对任一像素点，确定该像素点对应的运动速度，选取运动速度大于预设第一阈值的像素点作为种子像素点。

步骤三：以选择的种子像素点为基准，按照预设生长条件进行区域生长，获得至少一个运动区域。

步骤四：将获得的运动区域进行方向统计，确定出至少一个具有向下运动方向的运动区域。

其中，针对获得的每一运动区域，确定该运动区域中，满足Y轴方向的运动速度大于X轴方向的运动速度的绝对值的像素点的第一数量，和该运动区域的所有像素点的第二数量，确定第一数量和第二数量的比例值；根据确定出的比例值，若比例值大于预设门限值，则确定该运动区域为具有向下运动方向的运动区域。

具体实施中，在进行全局光流场计算之后，提取具有向下运动方向的运动区域。首先是要进行运动区域生长。运动区域生长需要选取种子像素点。具体地，可以将满足预设条件是V＞VTh的像素点作为种子像素点，然后按照V＞VTh条件作为运动区域生长条件进行区域生长，从而提取所有的运动区域。

其中V是像素点的运动速度，其值为像素点在X轴方向的运动速度Vx的绝对值与在Y轴方向的运动速度Vy的绝对值之和，VTh为预设的第一阈值，也可以称之为速度阈值。进行运动区域生长可以将噪声、计算误差等干扰信号去除，进一步提高计算的准确性。

其次，在进行运动区域生长之后，需要对得到的运动区域进行方向统计，从而删选出符合条件的运动区域，具体地，可以按照如下条件进行删选，如公式4所示：

\frac{{Num}_{Down}}{{Num}_{Total}} > PerTh

公式4

其中Num_Down为满足条件Y轴方向的速度大于X轴方向的速度的绝对值Vy＞Abs(Vx)的像素点的数量，Abs(Vx)是X轴方向的速度的绝对值，Num_total为运动区域中所有的像素点的数量，PerTh为预设的百分数阈值，较佳地，该预设的百分数阈值可以取为0.85。

步骤15，对获得的运动区域进行过滤处理。

其中，对获得的运动区域进行过滤处理，确定获得的相邻运动区域是否对应的是同一个运动目标。例如，假设获得了5个运动区域，分别标识为1~5，则依次确定1和2之间，2和3之间，3和4之间，4和5之间，是否对应的是同一个运动目标。

具体地，针对获得的任一运动区域，将该运动区域和相邻的运动区域按照区域像素重合度进行对应，确定出该运动区域的运动次数，将该运动区域的运动次数进行累加，获得累加和值，根据获得的累加和值，对获得的运动区域进行过滤处理，确定出符合预设运动条件的运动区域。

具体地，可以依次将前后两次得到运动区域，按照区域像素重合度进行对应，当两者间的重合像素点的数量大于预设数值时，则确定这两个运动区域对应成功。例如，假设一共有五个运动区域，分别标识为1~5，则将运动区域1和运动区域2，按照区域像素重合度进行对应，对应之后，运动区域1和运动区域2之间重合的像素点的数量大于预设数值，则确定运动区域1和运动区域2对应成功。然后将运动区域2和运动区域3，按照区域像素重合度进行对应，当两者间的重合像素点的数量小于预设数值时，确定运动区域2和运动区域3对应不成功，依次类推，对于运动区域3和运动区域4，运动区域4和运动区域5也按照区域像素重合度进行对应。

对于对应成功的运动区域，则表示两个运动区域对应的同一个运动目标。例如，以两个图像帧为例来进行详细阐述，假设第一图像帧得到了运动区域1，第二图像帧得到了运动区域2和运动区域3，如图2所示，由于运动区域1和运动区域3之间没有重合度，此时确定运动区域1和运动区域3对应的是两个不同的运动目标，而运动区域1和运动区域2的重合度比较大，所以确定运动区域1和运动区域2是同一个运动目标。

对于对应成功的运动区域，则进一步的统计该运动目标的运动次数，其中，运动次数可以是该对应成功的区域的图像帧的数量。如图2所示，此时运动次数2，假设若第三图像帧还有个运动区域3对应上了，那运动次数就是3，以此类推，直到第N图帧没有运动区域能对上为止，那么该运动目标的运动次数就是N-1。

将统计的数值进行累加，获得累加和值。即每找到一次对应则对此区域的运动次数加1，当且仅当运动次数满足如下条件时才进行下一步的操作，否则重新获得待检测视频的图像帧。

MLowTh＜MotionTimes＜MHighTh 公式5

其中MotionTimes是运动次数，MLowTh和MHighTh分别是预设的第一运动次数阈值和第二运动次数阈值，因为人体下蹲动作的过程不能过短，也不能太长。

步骤16，将过滤处理后的运动区域进行预设人体行为形状匹配，根据匹配结果，确定出待检测视频中包含的人体行为。

其中，预设人体行为形状是人体下蹲形状，按照边缘方向直方图方法，确定过滤处理后的运动区域的边缘方向直方图和人体下蹲模板的边缘方向直方图之间的距离值。

其中，现有技术中已经提出许多形状匹配方法，本发明实施例这里不再一一阐述。较佳地，本发明实施例这里采用的是边缘方向直方图的方法。具体实施中，分别统计待判断运动区域的边缘方向直方图和下蹲动作模板的边缘方向直方图，然后确定出距离值，当距离小于一定预设距离门限值值，确定运动区域的边缘方向直方图和下蹲动作模板的边缘方向直方图匹配成功，待检测视频中发生了人体下蹲的动作。

本发明实施例这里提出的技术方案，首先基于某一人体行为的方向性，基于全局光流场计算方法，提取相应的符合条件的运动区域。再基于预设人体行为模板进行形状匹配，最终根据匹配结果确定到底是那种人体行为。例如，对与人体下蹲动作，首先基于下蹲动作的方向性，利用全局光流场计算方法，提取具有如下特征的运动区域：具有连续向下的运动方向，并且在运动一定时间后静止。待区域静止后，再基于人体下蹲的形状对该区域进行形状匹配，如果匹配成功则认为发生了人体下蹲动作。

采用本发明实施例这里提出的技术方案，进行人体行为检测时，通过动态的运动方向检测和静态的形状匹配这两者的结合能有效地将下蹲动作和其他动作区分开来，例如对于人体下蹲动作的检测，仅需要少量的人体下蹲图像帧，以进行下蹲动作形状的模板提取。相对于现有技术中需要收集大量的视频样本数据进行下蹲动作的统计，然后进行样本数据标注，能够较好地提高人体行为检测速度，并且准确性较好，进而节省了***的处理资源。并且，本发明实施例这里提出的人体行为检测方案，可以用在不同的场景下，例如，对人体下蹲动作的检测，可以用在银行、商场等职能监控***中，当发现多人同时进行下蹲动作时，有可能会发生抢劫行为，此时可以发出报警信息，提高安保的安全性。

相应地，本发明实施例这里还提出一种人体行为检测装置，如图3所示，包括：

图像帧获得模块301，用于获得待检测视频的图像帧。

具体地，上述图像帧获得模块301，还用于对获得的待检测视频的图像帧进行高斯平滑处理，去除获得的图像帧中包含的噪声。

运动信息确定模块302，确定图像帧获得模块301获得的相邻两个图像帧之间的全局光流场，得到相邻两个图像帧之间的运动信息。

具体地，上述运动信息确定模块302，具体用于基于多边形扩展的方式，确定获得的相邻两个图像帧之间的全局光流场。

运动区域获得模块303，用于根据运动信息确定模块302得到的运动信息，获得至少一个具有预设运动方向的运动区域，其中，所述运动区域包含至少一个构成图像帧的像素点。

其中，所述预设运动方向包含向下运动方向；具体地，上述运动区域获得模块303，具体用于根据得到的运动信息，确定每个像素点的运动信息；根据确定的每个像素点的运动信息，选取种子像素点；以选择的种子像素点为基准，按照预设生长条件进行区域生长，获得至少一个运动区域；将获得的运动区域进行方向统计，确定出至少一个具有向下运动方向的运动区域。

其中，运动信息是像素点的运动速度，所述运动速度是像素点在X轴方向的运动速度和在Y轴方向的运动速度的绝对值之和；具体地，所述运动区域获得模块303，具体用于针对任一像素点，确定该像素点对应的运动速度；选取运动速度大于预设第一阈值的像素点作为种子像素点。

具体地，上述运动区域获得模块303，具体用于针对获得的每一运动区域，确定该运动区域中，满足Y轴方向的运动速度大于X轴方向的运动速度的绝对值的像素点的第一数量，和该运动区域的所有像素点的第二数量；确定第一数量和第二数量的比例值；根据确定出的比例值，若比例值大于预设门限值，则确定该运动区域为具有向下运动方向的运动区域。

匹配模块304，用于对运动区域获得模块获得的运动区域进行过滤处理，并将过滤处理后的运动区域进行预设人体行为形状匹配。

具体地，上述匹配模块304，具体用于针对获得的任一运动区域，将该运动区域和相邻的运动区域按照区域像素重合度进行对应，确定出该运动区域的运动次数；将该运动区域的运动次数进行累加，获得累加和值；根据获得的累加和值，对获得的运动区域进行过滤处理，确定出符合预设运动条件的运动区域。

其中，预设人体行为形状是人体下蹲形状；具体地，所述匹配模块304，具体用于按照边缘方向直方图方法，确定过滤处理后的运动区域的边缘方向直方图和人体下蹲模板的边缘方向直方图之间的距离值。

人体行为确定模块305，用于根据匹配模块304匹配结果，确定出待检测视频中包含的人体行为。

本领域的技术人员应明白，本发明的实施例可提供为方法、装置（设备）、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置（设备）和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种人体行为检测方法，其特征在于，包括：

获得待检测视频的图像帧；

确定获得的相邻两个图像帧之间的全局光流场，得到相邻两个图像帧之间的运动信息；

根据得到的运动信息，获得至少一个具有预设运动方向的运动区域，其中，所述运动区域包含至少一个构成图像帧的像素点；

对获得的运动区域进行过滤处理，并将过滤处理后的运动区域进行预设人体行为形状匹配；

根据匹配结果，确定出待检测视频中包含的人体行为。

2.如权利要求1所述的方法，其特征在于，在确定获得的相邻两个图像帧之间全局光流场之前，还包括：

对获得的待检测视频的图像帧进行高斯平滑处理，去除获得的图像帧中包含的噪声。

3.如权利要求1所述的方法，其特征在于，确定获得的相邻两个图像帧之间的全局光流场，包括：

基于多边形扩展的方式，确定获得的相邻两个图像帧之间的全局光流场。

4.如权利要求1所述的方法，其特征在于，所述预设运动方向包含向下运动方向；

根据得到的运动信息，获得至少一个具有预设运动方向的运动区域，包括：

根据得到的运动信息，确定每个像素点的运动信息；

根据确定的每个像素点的运动信息，选取种子像素点；

以选择的种子像素点为基准，按照预设生长条件进行区域生长，获得至少一个运动区域；

将获得的运动区域进行方向统计，确定出至少一个具有向下运动方向的运动区域。

5.如权利要求4所述的方法，其特征在于，所述运动信息是像素点的运动速度，所述运动速度是像素点在X轴方向的运动速度和在Y轴方向的运动速度的绝对值之和；

根据确定的每个像素点的运动信息，选取种子像素点，包括：

针对任一像素点，确定该像素点对应的运动速度；

选取运动速度大于预设第一阈值的像素点作为种子像素点。

6.如权利要求4所述的方法，其特征在于，将获得的运动区域进行方向统计，确定出至少一个具有向下运动方向的运动区域，包括：

针对获得的每一运动区域，确定该运动区域中，满足Y轴方向的运动速度大于X轴方向的运动速度的绝对值的像素点的第一数量，和该运动区域的所有像素点的第二数量；

确定第一数量和第二数量的比例值；

根据确定出的比例值，若比例值大于预设门限值，则确定该运动区域为具有向下运动方向的运动区域。

7.如权利要求1所述的方法，其特征在于，对获得的运动区域进行过滤处理，包括：

针对获得的任一运动区域，将该运动区域和相邻的运动区域按照区域像素重合度进行对应，确定出该运动区域的运动次数；

将该运动区域的运动次数进行累加，获得累加和值；

根据获得的累加和值，对获得的运动区域进行过滤处理，确定出符合预设运动条件的运动区域。

8.如权利要求1所述的方法，其特征在于，预设人体行为形状是人体下蹲形状；

将过滤处理后的运动区域进行预设人体行为形状匹配，包括：

按照边缘方向直方图方法，确定过滤处理后的运动区域的边缘方向直方图和人体下蹲模板的边缘方向直方图之间的距离值。

9.一种人体行为检测装置，其特征在于，包括：

图像帧获得模块，用于获得待检测视频的图像帧；

运动信息确定模块，确定图像帧获得模块获得的相邻两个图像帧之间的全局光流场，得到相邻两个图像帧之间的运动信息；

运动区域获得模块，用于根据运动信息确定模块得到的运动信息，获得至少一个具有预设运动方向的运动区域，其中，所述运动区域包含至少一个构成图像帧的像素点；

匹配模块，用于对运动区域获得模块获得的运动区域进行过滤处理，并将过滤处理后的运动区域进行预设人体行为形状匹配；

人体行为确定模块，用于根据匹配模块匹配结果，确定出待检测视频中包含的人体行为。

10.如权利要求9所述的装置，其特征在于，所述图像帧获得模块，还用于对获得的待检测视频的图像帧进行高斯平滑处理，去除获得的图像帧中包含的噪声。

11.如权利要求9所述的装置，其特征在于，所述运动信息确定模块，具体用于基于多边形扩展的方式，确定获得的相邻两个图像帧之间的全局光流场。

12.如权利要求9所述的装置，其特征在于，所述预设运动方向包含向下运动方向；

所述运动区域获得模块，具体用于根据得到的运动信息，确定每个像素点的运动信息；根据确定的每个像素点的运动信息，选取种子像素点；以选择的种子像素点为基准，按照预设生长条件进行区域生长，获得至少一个运动区域；将获得的运动区域进行方向统计，确定出至少一个具有向下运动方向的运动区域。

13.如权利要求12所述的装置，其特征在于，所述运动信息是像素点的运动速度，所述运动速度是像素点在X轴方向的运动速度和在Y轴方向的运动速度的绝对值之和；

所述运动区域获得模块，具体用于针对任一像素点，确定该像素点对应的运动速度；选取运动速度大于预设第一阈值的像素点作为种子像素点。

14.如权利要求12所述的装置，其特征在于，所述运动区域获得模块，具体用于针对获得的每一运动区域，确定该运动区域中，满足Y轴方向的运动速度大于X轴方向的运动速度的绝对值的像素点的第一数量，和该运动区域的所有像素点的第二数量；确定第一数量和第二数量的比例值；根据确定出的比例值，若比例值大于预设门限值，则确定该运动区域为具有向下运动方向的运动区域。

15.如权利要求9所述的装置，其特征在于，所述匹配模块，具体用于针对获得的任一运动区域，将该运动区域和相邻的运动区域按照区域像素重合度进行对应，确定出该运动区域的运动次数；将该运动区域的运动次数进行累加，获得累加和值；根据获得的累加和值，对获得的运动区域进行过滤处理，确定出符合预设运动条件的运动区域。

16.如权利要求9所述的装置，其特征在于，预设人体行为形状是人体下蹲形状；

所述匹配模块，具体用于按照边缘方向直方图方法，确定过滤处理后的运动区域的边缘方向直方图和人体下蹲模板的边缘方向直方图之间的距离值。