CN115359566A

CN115359566A - 基于关键点及光流的人体行为识别方法、装置及设备

Info

Publication number: CN115359566A
Application number: CN202211013632.2A
Authority: CN
Inventors: 王秋阳; 胡懋成; 汪玉冰; 郑博超; 周婧雯; 凤阳; 刘丹
Original assignee: Shenzhen Sunwin Intelligent Co Ltd
Current assignee: Shenzhen Sunwin Intelligent Co Ltd
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-11-18

Abstract

本发明实施例公开了一种基于关键点及光流的人体行为识别方法、装置及设备，方法包括：获取检测区域内的图像数据；对图像数据进行切帧处理，以得到多帧静态图片；将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果。本发明在骨骼关键点位置特征中融合光流特征，然后对融合后的特征使用图卷积神经网络进行行为识别，很好的结合了关键点长短时间序列的特征，提高了识别率。使用光流模型可以很好的提取光流信息。另外，SPO‑GCN可以同时提取原图信息，骨骼关键点位置信息以及光流信息，并将三者信息进行融合，同时在空间，时间序列维度上进行行为预测，使得模型更加鲁棒，提高了模型的准确度。

Description

基于关键点及光流的人体行为识别方法、装置及设备

技术领域

本发明涉及计算机视觉技术领域，更具体地说是一种基于关键点及光流的人体行为识别方法、装置及设备。

背景技术

随着社会快速发展，人体行为预测是目前工业界和学界的一个研究热点和难点，其在实际生活中有重要应用价值。针对人体行为预测目前有以下几种方式：

第一种是首先对采集的可见光图像及红外图像进行图像处理得到跟踪目标区域，接着检测待跟踪目标区域是否包括行人，当包含行人的时候对行人进行跟踪，并在跟踪的过程中检测行人边缘以从待跟踪目标区域获得行人待识别区域，将行人待识别区域输入到识别模型得到行人行为识别结果。该专利基于红外的方式对目标进行跟踪，设备需要额外的花费，且基于传统的方向梯度直方图的方式对图像进行特征提取来判断行人目标，受光照影响严重，效果较差，且该方法仅仅基于人物外观轮廓进行行为识别忽略了空间时间融合信息，识别效果较差。

第二种是通过运用多任务深度学习的方法训练3D卷积神经网络，将多种人体行为属性以背景视频的固定连续帧数的帧快作为网络的输入，经过3D卷积神经网络训练后完成识别任务。该方法仅仅对固定位置的人体行为进行识别，且仅针对单个人进行行为识别，有很大的局限性。此外，基于3D卷积进行行为识别，模型效率较低，训练的模型容易受背景因素的影响严重，导致识别效果差。

第三种是通过获取视频片段，对视频片段中的图像帧序列进行特征提取以及降维处理，然后对降维后的特征向量进行编码，将降维特征向量进行扩充，得到预设个数的扩充特征向量。将扩充特征向量和所述编码特征向量输入到三层单层解码器进行解码，再将最后一层解码特征向量输入至单层全连接前馈网络进行计算，得到多个预测值。再将预测值输入至逻辑回归网络得到对应的预测概率，选取最大概率值对应的类别作为最后一层解码特征向量对应矩形框的人体行为动作类别。该方法先采取空间信息，接着再通过不同时间段的空间特征进行时间特征的提取，很容易在时间特征提取的过程中丢失空间信息，很难做到空间特征与时间特征的融合，因此动作识别的准确度会被降低。

发明内容

本发明的目的在于克服现有技术的不足，提供基于关键点及光流的人体行为识别方法、装置及设备。

为实现上述目的，本发明采用以下技术方案：

第一方面，基于关键点及光流的人体行为识别方法，包括：

获取检测区域内的图像数据；

对图像数据进行切帧处理，以得到多帧静态图片；

将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果。

其进一步技术方案为：所述将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果，包括：

将多帧静态图片以图片序列的形式输入至跟踪模型进行处理，以得到带有id索引的人物图像；

将带有id索引的人物图像输入目标检测与关键点检测模型进行处理，以得到不同id人物的人体骨骼关键点信息；

将带有id索引的人物图像输入至光流模型中进行处理，以得到二维光流特征图；

将人体骨骼关键点信息、二维光流特征图输入至图模型进行处理，以得到人体行为识别结果。

其进一步技术方案为：所述将多帧静态图片以图片序列的形式输入至跟踪模型进行处理，以得到带有id索引的人物图像，包括：

将多帧静态图片以图片序列的形式输入至跟踪模型，以检测出不同的人体目标框；

对检测出的不同的人体目标框赋予索引id，以得到带有id索引的人物图像。

其进一步技术方案为：所述将带有id索引的人物图像输入目标检测与关键点检测模型进行处理，以得到不同id人物的人体骨骼关键点信息，包括：

对带有id索引的人物图像添加keypoints分支进行关键点检测，以得到id人物的人体骨骼关键点信息。

其进一步技术方案为：所述将带有id索引的人物图像输入至光流模型中进行处理，以得到二维光流特征图，包括：

使用特征描述算子对前后两帧带有id索引的人物图像分别提取运动显著特征，以得到第一特征图和第二特征图；

将第一特征图和第二特征图逐像素求相关性处理，以得到相关性特征；

将相关性特征输入到卷积层和残差层进行处理后，得到处理后的特征；

将处理后的特征进行上采样放大处理，以得到第一阶段的光流信息；

利用第一阶段的光流信息对提取到的光流特征图进行Warp操作，以得到Warp特征图；

使用Subtracting Operator对第二特征图和Warp特征图进行element-wisesubtraction处理，以得到特征差图；

将特征差图和第一特征图输入到FlowNetCorr网络中进行光流估计，以得到二维光流特征图。

其进一步技术方案为：所述利用第一阶段的光流信息对提取到的光流特征图进行Warp操作，以得到Warp特征图，包括：

使用特征描述算子运动边界直方图对前后两帧带有id索引的人物图像进行运动物体边界信息的特征提取；

对提取到的运动物体边界信息中的x方向和y方向上的光流图进行HOG特征计算，以得到x方向和y方向上光流特征图；

将x方向和y方向上的光流特征图进行合并，以得到合并后的光流特征图；

对合并后的光流特征图进行双线性插值处理，以得到Warp特征图。

其进一步技术方案为：所述将人体骨骼关键点信息、二维光流特征图输入至图模型进行处理，以得到人体行为识别结果，包括：

基于人体骨骼关键点信息构建骨骼节点图；

基于静态图片的像素信息构建像素图；

基于二维光流特征图构建光流图；

对骨骼节点图、像素图和光流图进行时间特征提取和空间特征提取，以得到第一时空特征图、第二时空特征图和第三时空特征图；

将第一时空特征图、第二时空特征图和第三时空特征图进行融合处理，得到融合特征图；

将融合特征图通过全连接层和SoftMax处理，以得到人体行为识别结果。

第二方面，基于关键点及光流的人体行为识别装置，包括：

获取单元，用于获取检测区域内的图像数据；

第一处理单元，用于对图像数据进行切帧处理，以得到多帧静态图片；

第二处理单元，用于将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果。

第三方面，一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的基于关键点及光流的人体行为识别方法步骤。

第四方面，一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，使得所述处理器执行如上述的基于关键点及光流的人体行为识别方法步骤。

本发明与现有技术相比的有益效果是：本发明在骨骼关键点位置特征中融合光流特征，然后对融合后的特征使用图卷积神经网络进行行为识别，很好的结合了关键点长短时间序列的特征，提高了识别率。

使用光流模型可以很好的提取光流信息，基于传统SIFT，MBH算子分别提取空间及时间信息，结合深度学习模块很好的进行光流检测。

另外，SPO-GCN可以同时提取原图信息，骨骼关键点位置信息以及光流信息，并将三者信息进行融合，同时在空间，时间序列维度上进行行为预测，使得模型更加鲁棒，提高了模型的准确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明技术手段，可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征及优点能够更明显易懂，以下特举较佳实施例，详细说明如下。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明具体实施例提供的基于关键点及光流的人体行为识别方法的应用场景示意图；

图2为本发明具体实施例提供的基于关键点及光流的人体行为识别方法的流程图；

图3为本发明具体实施例提供的基于关键点及光流的人体行为识别装置的示意性框图；

图4为本发明具体实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的基于关键点及光流的人体行为识别方法的应用场景示意图；图2为本发明具体实施例提供的基于关键点及光流的人体行为识别方法的流程图，该基于关键点及光流的人体行为识别方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，基于关键点及光流的人体行为识别方法，包括以下步骤：S10-S30。

S10、获取检测区域内的图像数据。

使用监控设备，例如监控摄像头来监控捕获需要检测区域内的视频数据(图像数据)。监控设备采用市面上常见的即可，本申请对此不做限定。

S20、对图像数据进行切帧处理，以得到多帧静态图片。

对检测出来的图像数据切帧成一帧一帧的RGB静态图片，用作人体行为预测模型的输入数据。

S30、将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果。

在一实施例中，步骤S30具体包括以下步骤：S301-S304。

S301、将多帧静态图片以图片序列的形式输入至跟踪模型进行处理，以得到带有id索引的人物图像。

在本实施例中，跟踪模型采用的StrongSORT，StrongSORT使用yolov5模型进行人体目标检测，使得人体目标框的坐标以及人体类别的置信度信息可以被得到，此外，对应的人物id索引信息也可以被得到。

在一实施例中，步骤S301具体包括以下步骤：S3011-S3012。

S3011、将多帧静态图片以图片序列的形式输入至跟踪模型，以检测出不同的人体目标框。

在本实施例中，将得到的多帧静态图片(帧视频流)以图片序列的形式输入至跟踪模型中，可以检测出不同的人体目标框，该目标框通过图片位置坐标(x_min,y_min)(x_max,y_max)，即目标框相对图片左上角坐标以及目标框相对图片右下角坐标来表示坐标的位置。

S3012、对检测出的不同的人体目标框赋予索引id，以得到带有id索引的人物图像。

在本实施例中，根据目标框进行裁剪，裁剪过后将带有独特id的单人图像。

S302、将带有id索引的人物图像输入目标检测与关键点检测模型进行处理，以得到不同id人物的人体骨骼关键点信息。

在本实施例中，目标检测与关键点检测模型采用的是基于yolopose的关键点检测模型，相对于top-down方法中先进行目标检测再进行关键点检测，该模型可以做到仅通过一个模型就可以同时检测行人的目标框以及人物的关键点坐标。

在一实施例中，步骤S302具体包括以下步骤：S3021。

S3021、对带有id索引的人物图像添加keypoints分支进行关键点检测，以得到id人物的人体骨骼关键点信息。

在本实施例中，通过对yolov5输出的head1，head2，head3，head4分别添加keypoints分支来进行关键点检测。该模型首先基于跟踪模型得出来的多个人体坐标框在原图上进行裁剪，然后对每一个裁剪的人体图像进行属性识别及关键点识别。这里的属性识别是基于目标检测进行识别，这样可以很好的加深模型的监督信息，比如：是否佩戴安全帽或者是否佩带口罩等场景都可以通过该模型进行属性识别。同时该模型也可以预测出每个拥有不同id行人的骨骼关键点坐标信息。基于不同id索引的多帧行人图像信息以及关键点坐标信息，在时间的基础上构建出不同行人的综合特征信息的时间帧序列。需要提到的是，本专利中光流模型和图模型的输入图像是基于跟踪模型检测出的目标框对原图进行裁剪后的带有id的单人图像。

S303、将带有id索引的人物图像输入至光流模型中进行处理，以得到二维光流特征图。

在本实施例中，光流模型因融合了跟踪模型中每个id对应的行人运动前后两帧图像的空间(Spatial)特征和时间(Temporal)特征而被命名为ST-Net

在一实施例中，步骤S302具体包括以下步骤：S3021-S3026。

S3021、使用特征描述算子对前后两帧带有id索引的人物图像分别提取运动显著特征，以得到第一特征图和第二特征图。

在本实施例中，空间网络S-Net首先使用了特征描述算子SIFT(Scale InvariableFeature Transform)对输入的前后帧图像I₁ I₂分别提取运动显著特征得到F₁ F₂。

S3022、将第一特征图和第二特征图逐像素求相关性处理，以得到相关性特征。

在本实施例中，将F₁ F₂进行逐像素求相关性得到特征图I₃。

S3022、将相关性特征输入到卷积层和残差层进行处理后，得到处理后的特征。

在本实施例中，将I₃输入到2层Conv7x7卷积层进行卷积操作之后，再输入到2层残差层得到特征图F₃。

S3023、将处理后的特征进行上采样放大处理，以得到第一阶段的光流信息。

在本实施例中，对F₃进行上采样放大得到第一阶段的光流输出Flow₁。

S3024、利用第一阶段的光流信息对提取到的光流特征图进行Warp操作，以得到Warp特征图。

在一实施例中，步骤S3024具体包括以下步骤：S30241-S30244。

S30241、使用特征描述算子运动边界直方图对前后两帧带有id索引的人物图像进行运动物体边界信息的特征提取。

S30242、对提取到的运动物体边界信息中的x方向和y方向上的光流图进行HOG特征计算，以得到x方向和y方向上光流特征图。

S30243、将x方向和y方向上的光流特征图进行合并，以得到合并后的光流特征图。

S30244、对合并后的光流特征图进行双线性插值处理，以得到Warp特征图。

对于S30241-S30244。在本实施例中，时间网络N-Net用到了特征描述算子运动边界直方图MBH(Motion Boundary Histograms)对I₁ I₂进行运动物体边界信息的特征提取。MBH对x和y方向上的光流图进行了HOG(HistogramofOriented Gradient)特征计算，得出x和y方向上的光流特征图F_x F_y。将F_x F_y进行合并，可以得到一张光流特征图F_flow，它包含了原始图像的运动信息和光流信息。此时，S-Net中得到的Flow₁将被用来对F_flow做Warp操作，也就是做一次双线性插值，得到F_warp特征图。

S3025、使用Subtracting Operator对第二特征图和Warp特征图进行element-wise subtraction处理，以得到特征差图。

在本实施例中，使用一个Subtracting Operator对原始的第2帧图像I₂和变化了维度和大小后的F_warp做一次element-wise subtraction，得到一张代表特征差的图F_difference，它可以有效的描述运动信息。

S3026、将特征差图和第一特征图输入到FlowNetCorr网络中进行光流估计，以得到二维光流特征图。

在本实施例中，将F_difference和I₁输入到一个FlowNetCorr网络中进行光流估计，得到最后的光流结果Flow_out,即一张带有速度和方向的二维光流特征图，FlowNetCorr中进行的上采样操作确保了输出的特征图大小与原图大小一致。

S304、将人体骨骼关键点信息、二维光流特征图输入至图模型进行处理，以得到人体行为识别结果。

在本实施例中，图模型为SPO-GCN模型，SPO-GCN模型融合了三种不同的特征来实现行为预测。三种特征分别基于骨骼(Skeleton)关键点，原图像素(Pixel)还有光流(Optical Flow)提取。

在一实施例中，步骤S304具体包括以下步骤：S3041-S3046。

S3041、基于人体骨骼关键点信息构建骨骼节点图。

在一实施例中，模型的一组输入是来自跟踪模型输出的相同id的行人的综合特征信息的时间帧序列和光流模型输出的光流序列。针对每一帧，基于SPO信息生成3张25x25的图(Graph)。首先基于骨骼关键点信息，使用关节(每一个关键点)作为图的节点，关节间的生理连接作为图的边构建出含25个节点、24条边的图Graph_s。除此之外，上下帧间相同节点也由一条边相连，代表时间维度的连接信息。由于使用NTU-RGB-120数据集，所有25个关节节点。通过预定义的拓扑结构，大小为25x25的邻接矩阵(Adjacency matrix)A_s可以自然的被构建。邻接矩阵一般用1和0表示图的连通性，但在这里对所有邻接矩阵A作了归一化，以此来增加低度数节点的权重，减少高度数节点的影响。需要提到的是，在骨骼特征提取和学习的整个过程中，A_s不会被更新。

S3042、基于静态图片的像素信息构建像素图。

S3043、基于二维光流特征图构建光流图。

对于S3042和S3043，在本实施例中，光流图和原图(基于静态图片的原像素)都需要通过划分Patches的方式来转换为图(Graph)的表示。本专利分别将它们划分为25个Patches，进行特征转换，然后将带有特征的Patches表示为图的节点。需要注意的是，基于像素和基于光流而构建的图(Graph)，它们的节点连接方式是不同的，也就是说，邻接矩阵(Adjacency matrix)的构建方法是不同的。考虑到光流不包含具体的RGB信息，使用原图中的位置信息作为索引来定义它的邻接信息。也就是说，相邻的Patches即为邻居节点。基于这样的思想，包含25个节点、44条边的图Graph_O、25x25大小的邻接矩阵A_O被得到。相同地，在光流特征提取和学习的整个过程中，A_O不会被更新。接下来轮到基于像素的图构建过程，使用比对像素方差的方法来计算各Patches之间的相似度，对于每个Patch，选择和它方差差值最小的5个Patches作为邻居节点，因此相似颜色纹理的Patches会被聚到一起，由此定义了每个Patch的邻居节点。因此，包含25个节点、125条边的图Graph_P、25x25大小的邻接矩阵A_P被得到。和A_S、A_O不同的是，A_P会在图卷积网络的每一层进行更新。

S3044、对骨骼节点图、像素图和光流图进行时间特征提取和空间特征提取，以得到第一时空特征图、第二时空特征图和第三时空特征图。

在本实施例中，Graph_s和A_s、Graph_O和A_O、Graph_P和A_P三组将被分别输入到8层图卷积网络(GCN)+时域卷积网络(TCN)中进行特征更新。在这个过程中，邻居节点将被聚合，所有节点将被更新。8层网络中，将输入数据首先通过第1层GCN+Residual Units和TCN+Residual Units，再将第一层输出输入到第二层GCN+Residual Units和TCN+ResidualUnits，以此一层一层的叠加网络提取特征，其中输出通道数会从64变为最后的256。

GCN网络中1x1Conv被用来改变通道，爱因斯坦求和约定(einsum)被用来实现矩阵相乘。在空间特征提取模块之后，加入2个Residual Units，通过残差层之后，得到3张更新过后的图Graph_s、Graph_O、Graph_P。此时将对它们进行时间维度的特征提取。时域卷积网络(TCN)由6个3x1Conv、2个1x1Conv、1个Max-Pooling组成。通过最后一层，也就是第8层时域卷积网络和残差单元之后，再通过一个globalpooling汇总特征，然后分别得到256维的特征图F_s、F_O、F_P。

S3045、将第一时空特征图、第二时空特征图和第三时空特征图进行融合处理，得到融合特征图。

在本实施例中，将得到的256维的特征图F_s、F_O、F_P进行特征合并，得到一个融合了三种特征的图F_all。

S3046、将融合特征图通过全连接层和SoftMax处理，以得到人体行为识别结果。

在本实施例中，将F_all通过一个全连接层和SoftMax，得到预测人体行为结果类别。

在本实施例中，类别有5个类别，分别是跳跃，奔跑，坐下，站立，行走。这样可以得到监控视频中不同人对应的行为预测。

另外，人体行为预测模型所使用到的损失函数包括目标检测的损失函数、yolopose损失函数、光流损失函数以及基于图模型的行为识别损失函数，其中：

目标检测的损失函数使用的是yolov5的损失函数，该损失函数主要由分类损失，定位损失以及置信度损失函数构成，即，

Loss＝Loss_分类+Loss_定位+Loss_置信度。

yolopose损失函数由目标检测损失函数以及关键点损失函数构成，这里的关键点损失函数采用的是OKS损失函数和关键点置信度损失函数构成。

Loss_total＝δ_clsLoss_cls+δ_boxLoss_box+δ_kptsLoss_kpts+δ_{kpts conf}Loss_{kpts conf}

这里的参数δ_cls＝0.5，δ_box＝0.5，δ_kpts＝0.5，δ_{kpts conf}＝0.5。Loss_cls为目标检测分类损失函数，Loss_box为目标检测目标框位置损失函数，Loss_kpts关键点损失函数，Loss_{kpts conf}为关键点置信度损失函数。

光流损失函数由S-Net中估计的光流损失

和T-Net中估计的光流损失

构成，统一使用端点误差(endpoint error，EPE)作为训练的损失函数，它表示预测的流向量和ground truth之间每个像素平均的欧几里得距离。

基于图模型的行为识别损失函数使用分类的交叉熵损失来进行模型训练。

本发明在骨骼关键点位置特征中融合光流特征，然后对融合后的特征使用图卷积神经网络进行行为识别，很好的结合了关键点长短时间序列的特征，提高了识别率。使用光流模型可以很好的提取光流信息，基于传统SIFT，MBH算子分别提取空间及时间信息，结合深度学习模块很好的进行光流检测。另外，SPO-GCN可以同时提取原图信息，骨骼关键点位置信息以及光流信息，并将三者信息进行融合，同时在空间，时间序列维度上进行行为预测，使得模型更加鲁棒，提高了模型的准确度。

图3是本发明实施例提供的基于关键点及光流的人体行为识别装置100的示意性框图。对应于上述的基于关键点及光流的人体行为识别方法，本发明具体实施例还提供了基于关键点及光流的人体行为识别装置100。该基于关键点及光流的人体行为识别装置100包括用于执行上述基于关键点及光流的人体行为识别方法的单元和模块，该装置可以被配置于服务器中。

如图3所示，基于关键点及光流的人体行为识别装置100，包括：

获取单元110，用于获取检测区域内的图像数据。

第一处理单元120，用于对图像数据进行切帧处理，以得到多帧静态图片。

第二处理单元130，用于将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果。

在一实施例中，第二处理单元130包括：

第一处理模块，用于将多帧静态图片以图片序列的形式输入至跟踪模型进行处理，以得到带有id索引的人物图像。

在一实施例中，第一处理模块包括：

检测子模块，用于将多帧静态图片以图片序列的形式输入至跟踪模型，以检测出不同的人体目标框。

赋予子模块，用于对检测出的不同的人体目标框赋予索引id，以得到带有id索引的人物图像。

第二处理模块，用于将带有id索引的人物图像输入目标检测与关键点检测模型进行处理，以得到不同id人物的人体骨骼关键点信息。

在一实施例中，第二处理模块包括：

关键点检测子模块，用于对带有id索引的人物图像添加keypoints分支进行关键点检测，以得到id人物的人体骨骼关键点信息。

第三处理模块，用于将带有id索引的人物图像输入至光流模型中进行处理，以得到二维光流特征图。

在一实施例中，第三处理模块包括：

运动特征提取子模块，用于使用特征描述算子对前后两帧带有id索引的人物图像分别提取运动显著特征，以得到第一特征图和第二特征图。

相关性处理子模块，用于将第一特征图和第二特征图逐像素求相关性处理，以得到相关性特征。

第一处理子模块，用于将相关性特征输入到卷积层和残差层进行处理后，得到处理后的特征。

放大处理子模块，用于将处理后的特征进行上采样放大处理，以得到第一阶段的光流信息。

第二处理子模块，用于利用第一阶段的光流信息对提取到的光流特征图进行Warp操作，以得到Warp特征图。

在一实施例中，第二处理子模块包括：

特征提取子模块，用于使用特征描述算子运动边界直方图对前后两帧带有id索引的人物图像进行运动物体边界信息的特征提取。

特征计算子模块，用于对提取到的运动物体边界信息中的x方向和y方向上的光流图进行HOG特征计算，以得到x方向和y方向上光流特征图。

合并子模块，用于将x方向和y方向上的光流特征图进行合并，以得到合并后的光流特征图。

插值处理子模块，用于对合并后的光流特征图进行双线性插值处理，以得到Warp特征图。

第三处理子模块，用于使用Subtracting Operator对第二特征图和Warp特征图进行element-wise subtraction处理，以得到特征差图。

光流估计子模块，用于将特征差图和第一特征图输入到FlowNetCorr网络中进行光流估计，以得到二维光流特征图。

第四处理模块，用于将人体骨骼关键点信息、二维光流特征图输入至图模型进行处理，以得到人体行为识别结果。

在一实施例中，第四处理模块包括：

第一构建子模块，用于基于人体骨骼关键点信息构建骨骼节点图。

第二构建子模块，用于基于静态图片的像素信息构建像素图。

第三构建子模块，用于基于二维光流特征图构建光流图。

时空特征提取子模块，用于对骨骼节点图、像素图和光流图进行时间特征提取和空间特征提取，以得到第一时空特征图、第二时空特征图和第三时空特征图。

融合子模块，用于将第一时空特征图、第二时空特征图和第三时空特征图进行融合处理，得到融合特征图。

第四处理子模块，用于将融合特征图通过全连接层和SoftMax处理，以得到人体行为识别结果。

上述基于关键点及光流的人体行为识别装置可以实现为计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

如图4所示，该计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述的基于关键点及光流的人体行为识别方法步骤。

该计算机设备700可以是终端或服务器。该计算机设备700包括通过***总线710连接的处理器720、存储器和网络接口750，其中，存储器可以包括非易失性存储介质730和内存储器740。

该非易失性存储介质730可存储操作***731和计算机程序732。该计算机程序732被执行时，可使得处理器720执行任意一种基于关键点及光流的人体行为识别方法。

该处理器720用于提供计算和控制能力，支撑整个计算机设备700的运行。

该内存储器740为非易失性存储介质730中的计算机程序732的运行提供环境，该计算机程序732被处理器720执行时，可使得处理器720执行任意一种基于关键点及光流的人体行为识别方法。

该网络接口750用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备700的限定，具体的计算机设备700可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。其中，所述处理器720用于运行存储在存储器中的程序代码，以实现以下步骤：

基于关键点及光流的人体行为识别方法，包括：

获取检测区域内的图像数据；

对图像数据进行切帧处理，以得到多帧静态图片；

在一实施例中：所述将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果，包括：

在一实施例中：所述将多帧静态图片以图片序列的形式输入至跟踪模型进行处理，以得到带有id索引的人物图像，包括：

在一实施例中：所述将带有id索引的人物图像输入目标检测与关键点检测模型进行处理，以得到不同id人物的人体骨骼关键点信息，包括：

在一实施例中：所述将带有id索引的人物图像输入至光流模型中进行处理，以得到二维光流特征图，包括：

在一实施例中：所述利用第一阶段的光流信息对提取到的光流特征图进行Warp操作，以得到Warp特征图，包括：

在一实施例中：所述将人体骨骼关键点信息、二维光流特征图输入至图模型进行处理，以得到人体行为识别结果，包括：

基于人体骨骼关键点信息构建骨骼节点图；

基于静态图片的像素信息构建像素图；

基于二维光流特征图构建光流图；

应当理解，在本申请实施例中，处理器720可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器720还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域技术人员可以理解，图4中示出的计算机设备700结构并不构成对计算机设备700的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在本发明的另一实施例中提供了一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的基于关键点及光流的人体行为识别方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.基于关键点及光流的人体行为识别方法，其特征在于，包括：

获取检测区域内的图像数据；

对图像数据进行切帧处理，以得到多帧静态图片；

2.根据权利要求1所述的基于关键点及光流的人体行为识别方法，其特征在于，所述将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果，包括：

3.根据权利要求2所述的基于关键点及光流的人体行为识别方法，其特征在于，所述将多帧静态图片以图片序列的形式输入至跟踪模型进行处理，以得到带有id索引的人物图像，包括：

4.根据权利要求2所述的基于关键点及光流的人体行为识别方法，其特征在于，所述将带有id索引的人物图像输入目标检测与关键点检测模型进行处理，以得到不同id人物的人体骨骼关键点信息，包括：

5.根据权利要求2所述的基于关键点及光流的人体行为识别方法，其特征在于，所述将带有id索引的人物图像输入至光流模型中进行处理，以得到二维光流特征图，包括：

6.根据权利要求5所述的基于关键点及光流的人体行为识别方法，其特征在于，所述利用第一阶段的光流信息对提取到的光流特征图进行Warp操作，以得到Warp特征图，包括：

7.根据权利要求2所述的基于关键点及光流的人体行为识别方法，其特征在于，所述将人体骨骼关键点信息、二维光流特征图输入至图模型进行处理，以得到人体行为识别结果，包括：

基于人体骨骼关键点信息构建骨骼节点图；

基于静态图片的像素信息构建像素图；

基于二维光流特征图构建光流图；

8.基于关键点及光流的人体行为识别装置，其特征在于，包括：

获取单元，用于获取检测区域内的图像数据；

9.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～7中任意一项所述的基于关键点及光流的人体行为识别方法步骤。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，使得所述处理器执行如权利要求1～7任意一项所述的基于关键点及光流的人体行为识别方法步骤。