CN105512610B

CN105512610B - 一种基于感兴趣点位置信息的视频中人体动作识别方法

Info

Publication number: CN105512610B
Application number: CN201510831162.4A
Authority: CN
Inventors: 张见威; 朱林
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2015-11-25
Filing date: 2015-11-25
Publication date: 2019-01-29
Anticipated expiration: 2035-11-25
Also published as: CN105512610A

Abstract

本发明公开了一种基于感兴趣点位置信息的视频中人体动作识别方法，包括如下步骤：S1对于视频数据集中的每个视频序列，提取视频序列中人体动作感兴趣点；S2利用人体动作感兴趣点对视频序列进行智能分片，经视频数据分成若干个视频片段；S3针对每个视频片段，计算其人体动作感兴趣点位置分布Hop描述子，Hop描述子表示该视频的人体动作；S4以Hop描述子代表每个视频片段进行人体动作训练；S5最终将出现频率最高的人体动作作为视频数据集中所表示的人体动作。本发明提出利用感兴趣点位置信息计算HoP描述子的方法，可以有效保留不同动作之间的差异性。

Description

一种基于感兴趣点位置信息的视频中人体动作识别方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于感兴趣点位置信息的视频中人体动作识别方法。

背景技术

随着计算机技术和多媒体技术的发展，视频已经成为信息的主要载体。近年来，数码产品不断普及和互联网的迅速发展使得创建视频和分享视频变得越来越简单。另一方面，视频监控的普及、微软Kinect体感游戏机的风靡以及人机交互技术等的不断发展也带来了多样的视频。计算机视觉将视频流与计算机处理相结合，使得计算机可以像人类一样理解视频信息，正发挥着日益重要的作用。

人体动作识别在计算机视觉领域是一项极具吸引力和挑战性的课题。视频中的人体动作识别的应用领域相当广泛，其在高级人机交互、基于姿态的互动游戏、体育运动中动作分析、智能视频监控以及视频标注等应用场景中都发挥着不可替代的作用。

视频中的人体动作识别可以分为人体动作提取及表示和人体动作分类及识别这两个主要步骤。人体动作提取及表示(也被称为人体姿态计算)的主要工作是研究各种人体动作所包含的不同信息的提取和表示方法。这不仅要求人体动作表示方法能够有效区分各种动作类型，同时，在面对不同人体外形、衣着干扰、复杂背景、动作执行快慢、相机抖动、相机运动等多种情况时，更需要其保持相对的一致性。人体动作提取及表示作为视频中人体识别的核心内容，其大体可以分为3D表示方法和2D表示方法两种。而3D的人体动作表示需要多个视角或者人体轮廓等信息，其应用较为局限。2D的人体动作表示方法则有基于跟踪的方法、基于时空人体形状特征的方法以及基于特征包的方法等。不过基于跟踪的方法通常需要进行跟踪子的初始化，在一定程度上依赖于人的介入。基于时空人体形状特征的方法则依赖于准确的人体轮廓提取。而Laptev的文章“Learning realistic human actionsfrom movies(IEEE Conference on Computer Vision and Pattern Recognition,CVPR2008:1-8.)中首次提出了基于特征包的方法。即首先提取视频中的人体动作感兴趣点，接着对感兴趣点周围小块计算其描述子，将所有感兴趣点周围小块描述子聚类得到特征包字典，最后采用特征包的分布情况表示视频中的人体动作。Laptev的方法在一定程度上减少了进行视频中人体动作识别的限制，不过其缺点在于特征包字典的聚类极大依赖于特征包字典的数目，在面对大数据集时，其时间和内存消耗往往是无法容忍的。

发明内容

为了克服现有技术存在的缺点与不足，本发明提供一种基于感兴趣点位置信息的视频中人体动作识别方法。

本发明提出利用感兴趣点的位置信息进行人体动作识别，即首先利用视频中的感兴趣点位置信息对视频进行智能分片，并提出位置直方图描述子HoP(Histogram ofPosition)，对于每个视频片段计算HoP，然后利用HoP描述子代表每个视频片段进行人体动作训练，对于测试视频，同样将其分为多个片段进逐个进行识别，并以出现次数最多的视频片段作为该测试视频所表示的人体动作。该方法有效解决了目前人体动作识别方法计算复杂，内存需求过大的问题，同时可以达到较高的识别准确率。

本发明采用如下技术方案：

一种基于感兴趣点位置信息的视频中人体动作识别方法，包括如下步骤：

S1对于视频数据集中的每个视频序列，提取视频序列中人体动作感兴趣点；

S2利用人体动作感兴趣点对视频序列进行智能分片，经视频数据分成若干个视频片段；

S3针对每个视频片段，计算其人体动作感兴趣点位置分布Hop描述子，Hop描述子表示该视频的人体动作；

S4以Hop描述子代表每个视频片段进行人体动作训练；

S5最终将出现频率最高的人体动作作为视频数据集中所表示的人体动作。

所述S1中提取视频序列中人体感兴趣点具体是采用Laptev提出的Harris3D方法。

所述S2中利用人体动作感兴趣点对视频序列进行智能分片，经视频数据分成若干个视频片段，具体为：利用视频序列中人体动作感兴趣点的位置信息确定有效帧和无效帧，去除连续无效帧，根据剩下的的有效帧确定智能分片方案，最后将人体动作感兴趣点位置从原视频序列转换为视频片段。

所述S3中计算其人体动作感兴趣点位置分布Hop描述子包括计算有效帧动作全局描述，计算感兴趣点位置分布描述及计算有效帧间重心运动描述，将上述三部分线性组合得到Hop描述子。

所述计算有效帧动作全局描述具体包括有效帧平均感兴趣点数目，有效帧重心移动速度以及感兴趣点分布范围占视频高宽比。

所述人体动作训练采用包括支持向量机、最近邻分类器及随机森林算法。

具体包括如下步骤：

S2.1去除连续无效帧，具体为：记S1中的视频序列是分辨率W×H，帧数即长度为T的视频S_W,H,T，其中每一个像素点表示为P(x,y,t)，设S1中从视频序列中提取N个感兴趣点，则感兴趣点表示I_i(x,y,t)，其中1≤i≤N；

计算得到视频序列中每一帧所包含的感兴趣点数目为C_t，其中t表示第几帧，1≤t≤T，选定视频帧是否为有效帧的阈值为Thresh_Valid，根据如下公式进行判断：

其中，1≤t≤T，V_t如果是1表示该帧有效，V_t如果是0则表示该帧无效，也就是说一帧中检测出的感兴趣点过少，则定义为无效帧；

S2.2根据剩下的有效帧确定智能分片方案，具体为，去除无效帧后，视频序列成为若干个不同长度的有效序列，分别对每一个有效序列进行智能分片，具体方法如下：设有效序列分片的长度即帧数为L，重叠的两个分片定义为重叠量，记为O，两个参数根据有效序列的实际长度T_valid进行选择，长度为T_valid的有效片段在分片后得到的片段数目N_Chip如下式所示：

S2.3对于原始视频中的感兴趣点I_i(x,y,t)，需要将其中从第T_start到T_end帧中的感兴趣点转换为视频片段中的对应感兴趣点，假设视频片段的长度为L，视频片段中新的感兴趣点为I_i′(x′,y′,t′)：

根据上式求出视频片段中感兴趣点的时空位置，其中x为高度方向的坐标，y为宽度方向的坐标，t是时间方向的坐标。

所述有效帧平均感兴趣点数目Avg_Eff，用于衡量动作的幅度大小，具体计算为：

上式中，是该视频序列全部有效帧中包含的感兴趣点数目的总和，而为有效帧的数目；

所述有效帧重心移动速度，设有效帧感兴趣点为I_eff(x,y,t)，对于视频序列中第k帧有效帧，根据下式计算其重心，

其中x_i是所有在第k帧感兴趣点I_eff(x,y,k)的高度方向即x方向坐标和，而y_i则是所有在第k帧感兴趣点I_eff(x,y,k)的宽度方向即y方向坐标和；

本方法在高度x方向和宽度即y方向计算相邻两个有效帧的重心移动速度；

所述感兴趣点分布范围占视频高宽比的分布范围，如下式所示，

H_range＝max(x_i)-min(x_i)，W_range＝max(y_i)-min(y_i)

其中x_i和y_i是所有感兴趣点的坐标，H_range和W_range分别是感兴趣点在高度以及宽度方向的分布范围，下面的两个式子分别给出了感兴趣点的高度和宽度分布范围占视频的高宽比。

H_ratio＝H_range/H

W_ratio＝W_range/W

其中H_ratio是高度方向的占比，W_ratio是宽度方向的占比。

所述计算感兴趣点位置分布描述，具体为：

对于一个分辨率为W×H，长度为T的视频为S_W,H,T，其中每一个像素点表示为P(x,y,t)，从视频中提取N个感兴趣点，这些感兴趣点表示为I_i(x,y,t)，其中1≤i≤N；

S3.2.1首先计算该视频序列中所有感兴趣点在高度方向和宽度方向中最小及最大坐标；

S3.2.2然后分别在高度方向和宽度方向分成B个Bin对感兴趣点的分布进行统计，具体是即在高度上将视频从H_min到H_max的部分等分成B份，记为HeightBin_b，其中1≤b≤B；在宽度方向上将视频从W_min到W_max的部分等分成B份，记为WidthBin_b，其中1≤b≤B。并将HeightBin_b和WidthBin_b的值均置为0；

S3.2.3对于每个感兴趣点I_i(x,y,t)，分别计算其在高度和宽度所属的区间hBin和wBin，并将对应的HeightBin_hBin以及WidthBin_hBin加1，得到了记录了感兴趣点分布频数的HeightBin_b以及WidthBin_b，对感兴趣点分布频数进行归一化；

其中1≤b≤B，C_t为第t帧的感兴趣点数目，而则统计了整个视频序列中感兴趣点数目的总和；

S3.2.4最后得到感兴趣点位置分布的归一化描述。

所述有效帧间重心运动描述，具体是表示不同人体动作在相邻帧间的重心移动方向和大小的差异，具体描述步骤如下：

S3.3.1首先计算视频序列的有效帧，得到每个有效帧的重心位置，记第k帧有效帧的重心为F_k＝(x_k,y_k)，其中1≤k≤T，进一步计算得到有效帧重心在相邻有效帧间的移动方向和移动距离，具体为：

vecHeightDiff_k＝(x_k-x_nextk)/(nextk-k)vecWidthDiff_k＝(y_k-y_nextk)/(nextk-k)

其中，x_k和x_nextk分别是第k帧有效帧及其下一帧的感兴趣点重心在高度方向上的坐标，而y_k和y_nextk则分别是第k帧有效帧及其下一帧的感兴趣点重心在宽度方向上的坐标；

S3.3.2分别计算出第k帧及其下一帧感兴趣点重心的移动方向和移动矢量距离；

S3.3.3假定对重心的移动方向分成B_f个部分进行统计，记为其角度范围是[0°,360°]，这样对于重心移动方向为angle_k，重心移动距离为diff_k的相邻帧，首先根据其方向确定其落在那个角度范围中，假设其落在块OrientBin_b上，根据下式将其移动距离加到该块中；

OrientBin_b＝OrientBin_b+diff_k,angle_k∈OrientBin_b；

S3.3.4对OrientBin进行归一化，如下式所示：

其中统计了视频序列中有效帧的感兴趣点总数，这样就得到了对有效帧间重心移动的的归一化描述，一共包含B_f个参数，如下式所示：

本发明的有益效果：

(1)利用感兴趣点位置进行智能分片，有效避免了低效的硬盘读写，在节约了时间的同时节省了存储空间，同时智能分片自动过滤掉那些不包含任何有用的人体动作信息的视频片段(如视频中只有背景)，使得每个视频片段都更能代表实际的人体动作；

(2)提出利用感兴趣点位置信息计算HoP描述子的方法，可以有效保留不同动作之间的差异性；

(3)利用HoP描述子对视频中的人体动作进行描述和识别，相对于特征包的方法可以极大地减少所需的内存以及时间复杂度，可以进行快速的人体动作识别；

(4)本发明提出的识别方法可以作为视频中人体动作识别通用框架，可以选择是否采用智能分片直接对视频计算其感兴趣点位置信息描述子，同时可以使用不同的方法进行人体动作分类，如支持向量机、最近邻算法以及随机森林等算法。

附图说明

图1是本发明的工作流程图；

图2是本发明利用人体动作感兴趣点对视频序列进行智能分片的步骤流程图；

图3是本发明中计算描述子的步骤流程图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

如图1所示。首先对于视频数据集中的每个视频序列，提取视频序列中的人体动作感兴趣点；然后利用感兴趣点位置信息对其进行智能分片，将视频分成若干个视频片段。接着对每个视频片段，计算其感兴趣点位置分布HoP描述子，以HoP描述子表示该视频的人体动作。然后可以采用支持向量机、最近邻分类器等方法对视频进行训练和测试。对于每个测试视频同样对其进行智能分片处理，分别得到其每个视频片段所属的人体动作类别，最终将出现频率最高的人体动作作为测试视频所表示的人体动作。

具体包括如下如下步骤：

视频序列中的感兴趣点提取影响到整个人体动作识别的准确率，作为重要的步骤之一，目前已经有不少方法可以提取视频中的人体动作感兴趣点。

这里可以采用Laptev提出的Harris3D方法。该方法可以检测在空间域和时间域共三个维度上发生显著变化的点。也可以采用Harris角点检测与光流法相结合的方法进行感兴趣点提取。这里的感兴趣点提取方法并不局限。

S2利用人体动作感兴趣点对视频序列进行智能分片，经视频数据分成若干个视频片段，如图2所示；

首先利用原视频中感兴趣点位置信息确定有效帧和无效帧。对于连续的无效帧，认为这些帧中不包含人体动作，并将其去除。接着根据剩下的有效帧序列确定具体的视频分片方案。最终将感兴趣点位置信息从原视频转换到视频片段中。

智能分片的具体操作方法如下：

(1)去除连续无效帧

记一个分辨率为W×H，长度即帧数为T的视频为S_W,H,T，其中每一个像素点都可以表示为P(x,y,t)。从视频中提取N个感兴趣点，则这些感兴趣点可以表示为I_i(x,y,t)，其中1≤i≤N。处理这些感兴趣点信息，我们可以计算得到该视频每一帧所包含的感兴趣点数目为C_t，其中t表示第几帧，所以有1≤t≤T。选定判定一个视频帧是否为无效帧的阈值为Thresh_Valid(这是一个经验值，一般比较小)，我们可以根据式4-30计算视频中每一帧是否有效。

其中，1≤t≤T。V_t如果是1表示该帧有效，V_t如果是0则表示该帧无效。也就是说一帧中检测出的感兴趣点过少，则定义为无效帧。

因为人体动作存在很大差异性，如果在分片时排除单帧的无效帧，很可能会割裂一个完整的人体动作，因此这里将去除连续出现的无效帧。在实际的操作中，一般连续6-8帧以上的无效帧才会被真正去除。

(2)确定具体分片方案

在去除无效帧后，一个视频序列实际就已经被分成了若干个不同长度的有效序列。下面就逐一对这些序列进行分片。记视频分片的长度(即帧数)为L，两个分片之间可以有重叠，重叠的帧数定义为重叠量，记为O。本发明中分片长度L以及重叠量O的值可以根据有效序列的实际长度T_valid进行智能选择。当T_valid过小时，可以直接舍弃该有效序列。令舍弃序列的长度阈值为Thresh_Drop，则当T_Valid<Thresh_Drop时，舍弃该视频片段。当T_valid比较小时，可以直接将其视为一个片段不做分片或者选取较小的分片长度L以及较高的重叠量O，以获得更多的视频片段。而随着T_valid的增加，可以适当增加分片长度L并减小重叠量O，以减少随后进行人体动作识别的计算量。实际上，一个长度为T_valid的有效片段在分片后可以得到的片段数目N_Chip如下式所示：

其中L和O分别是分片的长度和重叠量。因此，采用上述分片方案，可以很方便地在分片数量和计算量上进行取舍和平衡。

(3)感兴趣点位置转换

在确定分片方案后，下面就需要将原视频中感兴趣点位置转换为其在视频片段中的位置。对于原始视频中的感兴趣点I_i(x,y,t)，需要将其中从第T_start到T_end帧中的感兴趣点转换为视频片段中的对应感兴趣点。假设视频片段的长度为L，视频片段中新的感兴趣点为I_i′(x′,y′,t′)。

可以根据上式求出视频片段中感兴趣点的时空位置，其中x为高度方向的坐标，y为宽度方向的坐标，t是时间方向的坐标。

S3针对每个视频片段，计算其人体动作感兴趣点位置分布Hop描述子，以Hop描述子表示该视频的人体动作，如图3所示；

首先根据已有的感兴趣点位置信息定义有效帧，下面分成三个部分对HoP描述子进行计算，即计算有效帧动作全局描述；计算感兴趣点位置分布描述；计算有效帧间重心动作描述。最后将这三个部分线性组合，即可得到感兴趣点位置分布HoP描述子。

(1)定义有效帧

记一个分辨率为W×H，长度为T的视频为S_W,H,T，其中每一个像素点都可以表示为P(x,y,t)。从视频中提取N个感兴趣点，则这些感兴趣点可以表示为I_i(x,y,t)，其中1≤i≤N。处理这些感兴趣点信息，可以计算得到该视频每一帧所包含的感兴趣点数目为C_t，其中1≤t≤T。记视频中感兴趣点总数为Sum_I,根下式可以计算出该数值。

根据下式可以计算出每帧的平均感兴趣点数目Avg_I和阀值Thresh_Eff

Avg_I＝Sum_I/T

Thresh_Eff＝Avg_I·λ

对于视频中的第t帧，如果其包含的感兴趣点数目C_t小于阈值Thresh_Eff，则判定该帧无效，否则该帧为有效帧。其中λ为可调参数。这样可以计算出视频中每一帧是否有效，这里用V_t标记第t帧是否为有效帧。

(2)计算有效帧动作全局描述

有效帧动作全局描述包括了有效帧平均感兴趣点数目，有效帧重心移动速度以及感兴趣点分布范围占视频高宽比三个方面。

有效帧平均感兴趣点数目

可以根据下式计算有效帧平均感兴趣点数目Avg_Eff

上式中，是该视频序列全部有效帧中包含的感兴趣点数目的总和，而为有效帧的数目。有效帧的平均感兴趣点数目的物理意义在于：假定一个数据集中同一个动作的幅度相似，则其有效帧的平均感兴趣点数目越多，其所代表的动作也就越剧烈。因此该参数可以用来衡量动作的幅度大小。

有效帧重心移动速度

在计算出一个视频序列的所有有效帧后，记所有属于有效帧的感兴趣点为I_eff(x,y,t)，那么对于视频序列第k帧有效帧，可以根据下式计算其重心，

其中x_i是所有在第k帧感兴趣点I_eff(x,y,k)的高度方向即x方向坐标和，而y_i则是所有在第k帧感兴趣点I_eff(x,y,k)的宽度方向即y方向坐标和。为了便于书写，下面记第k帧有效帧的重心为F_k＝(x_k,y_k)。

本方法在高度(即x方向)和宽度(即y方向)计算相邻两个有效帧的重心移动速度。而在计算速度的时候，同时计算其绝对移动速度以及矢量移动速度，因此这里有效帧重心的移动速度一共有四个参数，其计算方式如下。

其中H_absSpeed和H_vecSpeed是有效帧间在高度上的绝对移动速度和矢量移动速度，W_absSpeed和W_vecSpeed则是有效帧间在宽度上的绝对移动速度和矢量移动速度。以H_absSpeed为例，|x_k-x_nextk|为相邻两有效帧的重心在高度上的绝对移动距离，nextk-k为相邻两有效帧的间隔，而后面的则是进行归一化操作，使得不同视频长度计算出的参数具有可比性。而其他三个参数的计算方式与之类似，这里就不做赘述。

感兴趣点分布范围占视频高宽比

首先，计算视频中感兴趣点的在高度方向和宽度方向的分布范围，如下式所示：

H_range＝max(x_i)-min(x_i)

W_range＝max(y_i)-min(y_i)

其中x_i和y_i是所有感兴趣点的坐标，H_range和W_range分别是感兴趣点在高度以及宽度方向的分布范围。下面的两个式子分别给出了感兴趣点的高度和宽度分布范围占视频的高宽比。

H_ratio＝H_range/H

W_ratio＝W_range/W

其中H_ratio是高度方向的占比，W_ratio是宽度方向的占比。

这样，就完成了对有效帧动作的全局描述，一共包括7个参数，如下式所示：

Desc＝[Avg_Eff,H_absSpeed,H_vecSpeed,W_absSpeed,W_vecSpeed,H_ratio,W_ratio]

(3)计算感兴趣点位置分布描述

记一个分辨率为W×H，长度为T的视频为S_W,H,T，其中每一个像素点都可以表示为P(x,y,t)，从视频中提取N个感兴趣点，则这些感兴趣点可以表示为I_i(x,y,t)，其中1≤i≤N。

首先，根据下面的式子计算该视频序列中所有感兴趣点在高度方向和宽度方向出现的最小以及最大坐标。

H_max＝max(x_i)，H_min＝min(x_i)

W_max＝max(y_i)，W_min＝min(y_i)

接着分别在高度方向和宽度方向分成B个Bin对感兴趣点的分布进行统计。即在高度上将视频从H_min到H_max的部分等分成B份，记为HeightBin_b，其中1≤b≤B；在宽度方向上将视频从W_min到W_max的部分等分成B份，记为WidthBin_b，其中1≤b≤B。并将HeightBin_b和WidthBin_b的值均置为0。

对于每个感兴趣点I_i(x,y,t)，分别计算其在高度和宽度所属的区间hBin和wBin，并将对应的HeightBin_hBin以及WidthBin_hBin加1。这样就得到了记录了感兴趣点分布频数的HeightBin_b以及WidthBin_b。下面利用下面两个式子分别对其进行归一化：

其中1≤b≤B，C_t为第t帧的感兴趣点数目，而则统计了整个视频序列中感兴趣点数目的总和。这样就得到了对感兴趣点位置分布的归一化描述。一共包含2·B个参数，如下式所示：

Desc＝[HeightBin₁,...HeightBin_B；WidthBin₁,...WidthBin_B] (4-21)

(4)计算有效帧间重心运动描述

为了刻画不同人体动作在相邻帧间的重心移动方向和大小的差异，本发明设计了如下方法对相邻有效帧的重心移动进行描述。

记一个分辨率为W×H，长度为T的视频为S_W,H,T，其中每一个像素点都可以表示为P(x,y,t)。从视频中提取N个感兴趣点，则这些感兴趣点可以表示为I_i(x,y,t)，其中1≤i≤N。

首先计算出视频序列中的有效帧。接着利用得到视频中每个有效帧的重心位置，记第k帧有效帧的重心为F_k＝(x_k,y_k)，其中1≤k≤T。要计算重心在相邻有效帧间的移动方向和移动距离，首先需要分别计算重心在高度方向和宽度方向的移动矢量距离，如下面两个式子所示。

vecHeightDiff_k＝(x_k-x_nextk)/(nextk-k)

vecWidthDiff_k＝(y_k-y_nextk)/(nextk-k)

其中，x_k和x_nextk分别是第k帧有效帧及其下一帧的感兴趣点重心在高度方向上的坐标，而y_k和y_nextk则分别是第k帧有效帧及其下一帧的感兴趣点重心在宽度方向上的坐标。

angle_k＝arctan(vecHeightDiff_k/vecWidthDiff_k)

根据上面两个式子，可以分别计算出第k帧及其下一帧感兴趣点重心的移动方向和移动矢量距离。假定对重心的移动方向分成B_f个部分进行统计，记为其角度范围是[0°,360°]，这样对于重心移动方向为angle_k，重心移动距离为diff_k的相邻帧，首先根据其方向确定其落在那个角度范围中，假设其落在块OrientBin_b上，根据下式将其移动距离加到该块中。

OrientBin_b＝OrientBin_b+diff_k,angle_k∈OrientBin_b

与计算感兴趣点在高度和宽度上的分布类似，下面需要对OrientBin进行归一化，如下式所示：

其中统计了视频序列中有效帧的感兴趣点总数，这样就得到了对有效帧间重心移动的的归一化描述。一共包含B_f个参数，如下式所示：

综合(2)(3)(4)的描述，我们可以根据视频序列中感兴趣点的位置求出一个对其中感兴趣点位置分布的一个总的描述，称为HoP描述子。该描述子的长度L_HoP如下式所示：

L_HoP＝7+2·B+B_f

其中7为有效帧动作全局描述的长度，B为统计感兴趣点在高度和宽度方向分布时所分的段数，B_f则是在计算相邻有效帧重心移动方向时分的方向数。在计算出HoP描述子后，就可以用该描述子表示整个视频中的人体动作。

S4以Hop描述子代表每个视频片段进行人体动作训练；

本发明对于训练和测试所用的方法没有特别的限制。这里可以采用支持向量机，也可以用最近邻分类器、随机森林等算法。

首先将测试视频按照本发明中智能分片部分的方法分成若干个视频片段，接着对每个视频片段进行识别，得到其表示的人体动作类别，最终以出现次数最多的视频片段作为该测试视频所表示的人体动作。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于感兴趣点位置信息的视频中人体动作识别方法，其特征在于，包括如下步骤：

所述S2中利用人体动作感兴趣点对视频序列进行智能分片，经视频数据分成若干个视频片段，具体为：利用视频序列中人体动作感兴趣点的位置信息确定有效帧和无效帧，去除连续无效帧，根据剩下的的有效帧确定智能分片方案，最后将人体动作感兴趣点位置从原视频序列转换为视频片段；

S2.3对于原始视频中的感兴趣点I_i(x,y,t)，需要将其中从第T_start到T_end帧中的感兴趣点转换为视频片段中的对应感兴趣点，假设视频片段的长度为L，视频片段中新的感兴趣点为I′_i(x′,y′,t′)：

根据上式求出视频片段中感兴趣点的时空位置，其中x为高度方向的坐标，y为宽度方向的坐标，t是时间方向的坐标；

S4以Hop描述子代表每个视频片段进行人体动作训练；

S5最终将出现频率最高的人体动作作为视频数据集中所表示的人体动作；

所述S3中计算其人体动作感兴趣点位置分布Hop描述子包括计算有效帧动作全局描述，计算感兴趣点位置分布描述及计算有效帧间重心运动描述，将上述三部分线性组合得到Hop描述子；

所述计算有效帧动作全局描述具体包括有效帧平均感兴趣点数目，有效帧重心移动速度以及感兴趣点分布范围占视频高宽比；

H_range＝max(x_i)-min(x_i)，W_range＝max(y_i)-min(y_i)

其中x_i和y_i是所有感兴趣点的坐标，H_range和W_range分别是感兴趣点在高度以及宽度方向的分布范围，下面的两个式子分别给出了感兴趣点的高度和宽度分布范围占视频的高宽比，

H_ratio＝H_range/H

W_ratio＝W_range/W

其中H_ratio是高度方向的占比，W_ratio是宽度方向的占比；

所述计算感兴趣点位置分布描述，具体为：

S3.2.2然后分别在高度方向和宽度方向分成B个Bin对感兴趣点的分布进行统计，具体是即在高度上将视频从H_min到H_max的部分等分成B份，记为HeightBin_b，其中1≤b≤B；在宽度方向上将视频从W_min到W_max的部分等分成B份，记为WidthBin_b，其中1≤b≤B，并将HeightBin_b和WidthBin_b的值均置为0；

S3.2.4最后得到感兴趣点位置分布的归一化描述；

OrientBin_b＝OrientBin_b+diff_k,angle_k∈OrientBin_b；

S3.3.4对OrientBin进行归一化，如下式所示：

2.根据权利要求1所述的视频中人体动作识别方法，其特征在于，所述S1中提取视频序列中人体感兴趣点具体是采用Laptev提出的Harris3D方法。

3.根据权利要求1所述的视频中人体动作识别方法，其特征在于，所述人体动作训练采用包括支持向量机、最近邻分类器及随机森林算法。