CN115346275A

CN115346275A - 基于光流及图的双分支人体行为预测方法、装置及设备

Info

Publication number: CN115346275A
Application number: CN202211012592.XA
Authority: CN
Inventors: 胡懋成; 王秋阳; 周婧雯; 汪玉冰; 郑博超; 凤阳
Original assignee: Shenzhen Sunwin Intelligent Co Ltd
Current assignee: Shenzhen Sunwin Intelligent Co Ltd
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-11-15

Abstract

本发明实施例公开了一种基于光流及图的双分支人体行为预测方法、装置及设备，其中方法包括：获取检测区域内的图像数据；对图像数据进行切帧处理，以得到多帧静态图片；将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为预测结果。本发明在时间维度上结合了人体行为的瞬时光流信息以及长序列信息，空间维度上使用图卷积网络很好的学习了行人的身体局部信息。通过结合空间信息和时间信息的方法，提升了预测的准确率。通过迭代方式细化输出的光流可以清晰的区分运动中的行人与背景的差异，同时，预测出的光流方向及光流速度信息也可以为模型预测人体行为类别提供一定的监督信息。

Description

基于光流及图的双分支人体行为预测方法、装置及设备

技术领域

本发明涉及计算机视觉技术领域，更具体地说是一种基于光流及图的双分支人体行为预测方法、装置及设备。

背景技术

随着社会快速发展，人体行为预测是目前工业界和学界的一个研究热点和难点，其在实际生活中有重要应用价值。针对人体行为预测目前有以下几种方式：

第一种是首先对采集的可见光图像及红外图像进行图像处理得到跟踪目标区域，接着检测待跟踪目标区域是否包括行人，当包含行人的时候对行人进行跟踪，并在跟踪的过程中检测行人边缘以从待跟踪目标区域获得行人待识别区域，将行人待识别区域输入到识别模型得到行人行为识别结果。该专利基于红外的方式对目标进行跟踪，设备需要额外的花费，且基于传统的方向梯度直方图的方式对图像进行特征提取来判断行人目标，受光照影响严重，效果较差，且该方法仅仅基于人物外观轮廓进行行为识别忽略了空间时间融合信息，识别效果较差。

第二种是通过运用多任务深度学习的方法训练3D卷积神经网络，将多种人体行为属性以背景视频的固定连续帧数的帧快作为网络的输入，经过3D卷积神经网络训练后完成识别任务。该方法仅仅对固定位置的人体行为进行识别，且仅针对单个人进行行为识别，有很大的局限性。此外，基于3D卷积进行行为识别，模型效率较低，训练的模型容易受背景因素的影响严重，导致识别效果差。

第三种是通过获取视频片段，对视频片段中的图像帧序列进行特征提取以及降维处理，然后对降维后的特征向量进行编码，将降维特征向量进行扩充，得到预设个数的扩充特征向量。将扩充特征向量和所述编码特征向量输入到三层单层解码器进行解码，再将最后一层解码特征向量输入至单层全连接前馈网络进行计算，得到多个预测值。再将预测值输入至逻辑回归网络得到对应的预测概率，选取最大概率值对应的类别作为最后一层解码特征向量对应矩形框的人体行为动作类别。该方法先采取空间信息，接着再通过不同时间段的空间特征进行时间特征的提取，很容易在时间特征提取的过程中丢失空间信息，很难做到空间特征与时间特征的融合，因此动作识别的准确度会被降低。

发明内容

本发明的目的在于克服现有技术的不足，提供基于光流及图的双分支人体行为预测方法、装置及设备。

为实现上述目的，本发明采用以下技术方案：

第一方面，基于光流及图的双分支人体行为预测方法，包括：

获取检测区域内的图像数据；

对图像数据进行切帧处理，以得到多帧静态图片；

将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为预测结果。

其进一步技术方案为：所述将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为预测结果，包括：

将多帧静态图片以图片序列的形式输入至跟踪模型进行处理，以得到带有id索引的人物图像；

将带有id索引的人物图像输入至光流模型进行处理，以得到二维光流特征图；

将带有id索引的人物图像与二维光流特征图进行特征融合，以得到融合特征图；

将融合特征图输入至图模型进行处理，以得到人体行为预测结果。

其进一步技术方案为：所述将多帧静态图片以图片序列的形式输入至跟踪模型进行处理，以得到带有id索引的人物图像，包括：

将多帧静态图片以图片序列的形式输入至跟踪模型，以检测出不同的人体目标框；

对检测出的不同的人体目标框赋予索引id，以得到带有id索引的人物图像。

其进一步技术方案为：所述将带有id索引的人物图像输入至光流模型进行处理，以得到二维光流特征图，包括:

采用空洞卷积核对前后两帧带有id索引的人物图像进行特征提取，并经过ReLU激活层和Max Pooling层处理，以得到第一特征图和第二特征图；

将第一特征图和第二特征图进行全像素求相关性处理，以得到相关性特征图；

构建第0次循环的光流信息；

利用第0次循环的光流信息对第二特征图进行Warp操作，以得到第1次循环的Warp结果；

将前后两帧带有id索引的人物图像通过遮挡掩模的AsymOFMM处理得到的结果与第1次循环的Warp结果进行合并，得到第一合并特征；

将第一合并特征与第一特征图、相关性特征图进行合并后得到的结果输入到编码网络中处理，以得到第1次循环的光流信息；

利用1次循环的光流信息对第二特征图进行Warp操作，以得到第2次循环的Warp结果；

将前后两帧带有id索引的人物图像通过遮挡掩模的AsymOFMM处理得到的结果与第2次循环的Warp结果进行合并，得到第二合并特征；

利用第二合并特征与第一特征图、相关性特征图进行合并后得到的结果输入到编码网络中处理，以得到第2次循环的光流信息；

根据设定的循环次数，完成所有循环后得到第一阶段的光流信息；

将第一阶段的光流信息输入到ConvGRU中处理，以得到最终的二维光流特征图。

其进一步技术方案为：所述构建第0次循环的光流信息，包括：

将第一特征图、第二特征图和相关性特征图进行合并，以得到合并特征图；

将合并特征图输入到编码网络中处理，以得到第0次循环的光流信息。

其进一步技术方案为：所述将带有id索引的人物图像与二维光流特征图进行特征融合，以得到融合特征图，包括：

采用Sobel算子从带有id索引的人物图像上提取边缘特征，以得到初始边缘特征图；

使用Laplacian滤波对初始边缘特征图进行边缘锐化，精细化边缘特征图；

将精细化边缘特征图通过3x3卷积处理后，并使用Average Pooling进行下采样处理，以得到下采样特征图；

使用双线性差值将下采样特征图调整为与原图大小相同的调整特征图；

将二维光流特征图与调整特征图进行特征融合，以得到融合特征图。

其进一步技术方案为：所述将融合特征图输入至图模型进行处理，以得到人体行为预测结果，包括：

每一帧对应的融合特征图与原图进行拼接，以得到拼接图；

将拼接图划分为3种不同Patch Size的图；

根据Patch Size的大小将拼接图划分为相应数量的等大小Patches，以得到3个Patches块；

对3个Patches块进行特征变换，以得3组Graph的节点；

使用感知哈希算法基于拼接图中的RGB信息分别对3个Patches块进行相似度计算，以构成出3个Patches块的动态邻接矩阵；

将3个Patches块的动态邻接矩阵输入到12层的图卷积网络和时间卷积网络叠加块中进行节点的学习和特征更新，并将第12层的图卷积网络和时间卷积网络叠加块的输出通过GlobalPooling层汇总特征，以得到每个序列的512维特征向量；

将每个序列的512维特征向量输入到全连接层处理，以生成每个Patches块的人体行为类别的初步预测概率；

将生成的每个Patches块的人体行为类别的初步预测概率采用一个共识函数处理，以得到共识预测；

将共识预测输入到SoftMax函数中处理，以得到最终的人体行为预测结果。

第二方面，基于光流及图的双分支人体行为预测装置，包括：

获取单元，用于获取检测区域内的图像数据；

切帧处理单元，用于对图像数据进行切帧处理，以得到多帧静态图片；

预测单元，用于将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为预测结果。

第三方面，一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的基于光流及图的双分支人体行为预测方法步骤。

第四方面，一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，使得所述处理器执行如上述的基于光流及图的双分支人体行为预测方法步骤。

本发明与现有技术相比的有益效果是：本发明在时间维度上结合了人体行为的瞬时光流信息以及长序列信息，空间维度上使用图卷积网络很好的学习了行人的身体局部信息。通过结合空间信息和时间信息的方法，提升了预测的准确率。通过迭代方式细化输出的光流可以清晰的区分运动中的行人与背景的差异，同时，预测出的光流方向及光流速度信息也可以为模型预测人体行为类别提供一定的监督信息。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明技术手段，可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征及优点能够更明显易懂，以下特举较佳实施例，详细说明如下。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明具体实施例提供的基于光流及图的双分支人体行为预测方法的应用场景示意图；

图2为本发明具体实施例提供的基于光流及图的双分支人体行为预测方法的流程图；

图3为本发明具体实施例提供的基于光流及图的双分支人体行为预测装置的示意性框图；

图4为本发明具体实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的基于光流及图的双分支人体行为预测方法的应用场景示意图；图2为本发明具体实施例提供的基于光流及图的双分支人体行为预测方法的流程图，该基于光流及图的双分支人体行为预测方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，基于光流及图的双分支人体行为预测方法，包括以下步骤：S10-S30。

S10、获取检测区域内的图像数据。

使用监控设备，例如监控摄像头来监控捕获需要检测区域内的视频数据(图像数据)。监控设备采用市面上常见的即可，本申请对此不做限定。

S20、对图像数据进行切帧处理，以得到多帧静态图片。

对检测出来的图像数据切帧成一帧一帧的RGB静态图片，用作人体行为预测模型的输入数据。

S30、将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为预测结果。

在一实施例中，步骤S30具体包括以下步骤：S301-S304。

S301、将多帧静态图片以图片序列的形式输入至跟踪模型进行处理，以得到带有id索引的人物图像。

在本实施例中，跟踪模型使用的是BoT-SORT模型，BoT-SORT模型中使用了yolov7模型作为行人检测器，同时为了减少因人物遮挡导致id切换的情况不仅仅基于人体特征作为匹配基准，同时加入了前后帧光流特征。基于行人检测器得出的人体特征与光流特征作为融合来作为判断前后帧行人的索引是否匹配加入辅助信息。这里的光流特征提取主要采用了密集光流提取方法Farneback，这样使模型预测人体索引id的参考信息更丰富，尤其对于快速运动的人体更加适应，提高了模型跟踪目标的准确率。

在一实施例中，步骤S301具体包括以下步骤：S3011-S3012。

S3011、将多帧静态图片以图片序列的形式输入至跟踪模型，以检测出不同的人体目标框。

在本实施例中，将得到的多帧静态图片(帧视频流)以图片序列的形式输入至跟踪模型中，可以检测出不同的人体目标框，该目标框通过图片位置坐标(x_min,y_min)(x_max,y_max)，即目标框相对图片左上角坐标以及目标框相对图片右下角坐标来表示坐标的位置。

S3012、对检测出的不同的人体目标框赋予索引id，以得到带有id索引的人物图像。

在本实施例中，对检测出来的人体目标框赋予索引id，同样的索引id代表同一个人，并实时地基于不同的人物id索引对不同人进行视频跟踪。需要说明的是，光流模型和图模型的输入图像是基于跟踪模型检测出的目标框对原图(即指使用监控设备检测出来的图像数据切帧成一帧一帧的RGB静态图片的图)进行裁剪后的带有id的单人图像。

S302、将带有id索引的人物图像输入至光流模型进行处理，以得到二维光流特征图。

在一实施例中，步骤S302具体包括以下步骤：S3021-S30292。

S3021、采用空洞卷积核对前后两帧带有id索引的人物图像进行特征提取，并经过ReLU激活层和MaxPooling层处理，以得到第一特征图和第二特征图。

在本实施例中，采用4个扩张率为2，大小为3x3的空洞卷积核对跟踪模型中输出的前后两帧带有id索引的人物图像I₁I₂进行特征提取，随后经过一层ReLU激活层和一层MaxPooling层，得到特征图F₁F₂。

S3022、将第一特征图和第二特征图进行全像素求相关性处理，以得到相关性特征图。

在本实施例中，由于光流模型会根据设定的循环次数N重复利用每一次输出的光流Flow_i(i∈N)，对F₂进行Warp操作，所以在第0次循环，没有可利用的光流信息的情况下，直接将F₁F₂进行一次全像素求相关性操作得到特征图F_match。

S3023、构建第0次循环的光流信息。

在一实施例中，步骤S3023具体包括以下步骤：S30231-S30232。

S30231、将第一特征图、第二特征图和相关性特征图进行合并，以得到合并特征图。

S30232、将合并特征图输入到编码网络中处理，以得到第0次循环的光流信息。

对于S30231、S30232，在本实施例中，第0次循环时，由于没有可以利用的光流Flow₀，所以直接将F₁F₂和F_match进行合并得到一张新的特征图F_{0_concat}(代表第0次循环的concat结果)输入到一个由编码器和解码器组成的编码网络中进行光流估计。编码网络由5个Convolution+BatchNorm+ReLU，2个残差层和3个MaxPooling层组成，解码层由4个反卷积层和3次上采样组成，其中还融合了来自编码层的低层特征信息。上采样的方法使用为最近邻插值法(Nearest interpolation)。经过解码层，第0次循环的光流输出Flow₀被得到。

S3024、利用第0次循环的光流信息对第二特征图进行Warp操作，以得到第1次循环的Warp结果。

S3025、将前后两帧带有id索引的人物图像通过遮挡掩模的AsymOFMM处理得到的结果与第1次循环的Warp结果进行合并，得到第一合并特征；

S3026、将第一合并特征与第一特征图、相关性特征图进行合并后得到的结果输入到编码网络中处理，以得到第1次循环的光流信息；

S3027、利用1次循环的光流信息对第二特征图进行Warp操作，以得到第2次循环的Warp结果。

S3028、将前后两帧带有id索引的人物图像通过遮挡掩模的AsymOFMM处理得到的结果与第2次循环的Warp结果进行合并，得到第二合并特征；

S3029、利用第二合并特征与第一特征图、相关性特征图进行合并后得到的结果输入到编码网络中处理，以得到第2次循环的光流信息。

S30291、根据设定的循环次数，完成所有循环后得到第一阶段的光流信息。

S30292、将第一阶段的光流信息输入到ConvGRU中处理，以得到最终的二维光流特征图。

对于S3024-S30292，在本实施例中，未直接将Flow₀作为结果输出，而是使用Flow₀对之前的F₂进行了Warp操作，得到I_{1_warp}，记作第1次循环的Warp结果。然后使用I₁I₂通过一个遮挡掩模的非对称特征匹配模块(AsymOFMM)生成一个occlusionmask与I_{1_warp}合并，得到一个MaskedImageI_{1_mask}。根据先前的描述，在第0次循环的时候，F_{0_concat}是由前后两帧带有id索引的人物图像F₁F₂和F_match得到，而在这之后的循环中，都将使用I_{i_mask}(i∈N)与第一特征图、相关性特征图进行合并。这样就实现了每一次循环时，前一次输出的光流的迭代利用。根据循环次数的设定，完成所有循环后第一阶段的光流Flow_out1将被输出。随后基于迭代更新的思想，在光流模型中加入了ConvGRU循环神经网络。将第一阶段的光流输出Flow_out1和作为context information的I₁输入到ConvGRU中，输出最终的光流估计结果Flow_output。Flow_output是一张包含速度和方向两个特征的二维光流特征图。

S303、将带有id索引的人物图像与二维光流特征图进行特征融合，以得到融合特征图。

在一实施例中，步骤S303具体包括以下步骤：S3031-S3035。

S3031、采用Sobel算子从带有id索引的人物图像上提取边缘特征，以得到初始边缘特征图。

S3032、使用Laplacian滤波对初始边缘特征图进行边缘锐化，精细化边缘特征图。

S3033、将精细化边缘特征图通过3x3卷积处理后，并使用Average Pooling进行下采样处理，以得到下采样特征图。

S3034、使用双线性差值将下采样特征图调整为与原图大小相同的调整特征图。

S3035、将二维光流特征图与调整特征图进行特征融合，以得到融合特征图。

对于S3031-S3035，在本实施例中，将Sobel算子作用于图像I上提取边缘特征，得到特征图I_s。随后使用Laplacian滤波对I_s进行边缘锐化，得到边缘信息更加鲜明的精细化边缘特征图I_l。将I_l通过一个3x3的卷积后，使用Average Pooling进行下采样操作得到F_a。随后使用双线性差值将F_a调整为与原图大小相同的特征图F_b。将光流模型中输出的二维光流特征图与F_b进行特征融合，得到新的特征图。对一组时间帧序列中每一帧进行预处理及光流特征融合，得到特征序列F₁,F₂…F_N，也就是融合特征图，即图模型的输入。

S304、将融合特征图输入至图模型进行处理，以得到人体行为预测结果。

在本实施例中，图模型使用的是Feature-GCN模型。Feature-GCN模型通过将特征图序列转化为图(Graph)的表示输入到图卷积网络和时序卷积网络中提取不同维度特征，从而进行人体行为类别的预测。

在一实施例中，步骤S304具体包括以下步骤：S3041-S3049。

S3041、每一帧对应的融合特征图与原图进行拼接，以得到拼接图。

S3042、将拼接图划分为3种不同PatchSize的图。

S3043、根据Patch Size的大小将拼接图划分为相应数量的等大小Patches，以得到3个Patches块。

S3044、对3个Patches块进行特征变换，以得3组Graph的节点。S3045、使用感知哈希算法基于拼接图中的RGB信息分别对3个Patches块进行相似度计算，以构成出3个Patches块的动态邻接矩阵。

S3046、将3个Patches块的动态邻接矩阵输入到12层的图卷积网络和时间卷积网络叠加块中进行节点的学习和特征更新，并将第12层的图卷积网络和时间卷积网络叠加块的输出通过Global Pooling层汇总特征，以得到每个序列的512维特征向量。

S3047、将每个序列的512维特征向量输入到全连接层处理，以生成每个Patches块的人体行为类别的初步预测概率。

S3048、将生成的每个Patches块的人体行为类别的初步预测概率采用一个共识函数处理，以得到共识预测。

S3049、将共识预测输入到SoftMax函数中处理，以得到最终的人体行为预测结果。

对于S3041-S3049，在本实施例中，将每一帧对应的特征图F(此处用F代表任意一张特征图)与原图进行拼接，得到F_concat，输入到图模型中。考虑到图像中人物大小的不同，将F_concat划分为了3种不同Patch Size(P＝9,16,25)的图(Graph)，然后根据P的大小将F_concat划分为相应数量的等大小Patches，得到3个Patches块(这里为一帧图像3个Patches块，N帧则为3N个)，称为P_s,P_m,P_l。其中字母对应的是small，middle，large，分别代表此Patches块的大小，如P＝9，代表此块中只有9个Patches，数量小。对每个Patch进行特征变换后，得到3组特征X＝[x_s1,…x_s9],X＝[x_m1,…x_m16],X＝[x_l1,…x_l25]，随后将带有特征的Patches表示为图(Graph)的节点，得到3组V＝[v_s1,…v_s9],V＝[v_m1,…v_m16],V＝[v_l1,…v_l25]。由于需要对时间帧序列的预测，所以动态时间信息需要被考虑。因此每张图(Graph)的节点会存在两种类型的边，一种是与其他Patches的连接，一种是与前后帧相同位置Patches的连接，代表在时间维度上的邻居节点。随后，使用感知哈希算法(Perceptualhash algorithm)基于F_concat中的RGB信息对Patches进行相似度计算。对每个Patch生成一个fingerprint字符串，然后比较不同Patches之间的fingerprint。通过这样处理，对于每个Patch，找到和它相似度最接近的N个Patches作为它的邻居节点以构建邻接矩阵。基于此，构建了3个初始的动态邻接矩阵A_s,A_m,A_l，大小分别为9x9、16x16、25x25，在随后的每一层特征更新中，邻接矩阵也会动态更新。因此，在最初几层中，图模型倾向于根据颜色等低级特征来确定邻居节点，而在最后几层，图模型提取的特征将具有更强的语义信息。基于特征X，节点V，邻接矩阵A，3个GraphG_s,G_m,G_l被构建。首先将对G_s,G_m,G_l进行batchnormalization之后，再将G_s,G_m,G_l和邻接矩阵A_s,A_m,A_l分别输入到12层的图卷积网络和时间卷积网络叠加块中进行节点的学习和特征更新，也就是说每一层总网络有两个子网络，一共有12层总网络，每三层改变一次输出通道数，分别为64、128、256、512。以第一层为例，通过一层图卷积网络时，可以得到特征图G_{s_s},G_{s_m},G_{s_l}，代表在空间(spatial)维度上的特征。在每一层GCN网络中，使用stride为1，padding为0，1x1Conv进行卷积操作。目的是为了改变通道。随后，基于GCN的原理，爱因斯坦求和约定(einsum)被使用，对应的特征X和邻接矩阵A将进行矩阵相乘，以此来聚合节点的邻居信息，进行节点特征更新。之后将特征图G_{s_s},G_{s_m},G_{s_l}输入到时间卷积网络中提取时间维度特征。

另外，分别给每个特征图使用了3个6x1的卷积核来提取时间信息，其中stride为1。之后通过一个Max Pooling层，得到特征图G_{T_s},G_{T_m},G_{T_l}，代表在时间(temporal)维度上的特征。通过12层总网络之后本专利将最后一层时间卷积网络的输出通过Global Pooling层汇总特征，得到每个序列的512维特征向量。最后输入到一个全连接层。此时每个原始的Patches块都将生成自己的行为类别的初步预测概率。随后使用一个共识函数(consensusfunction)产生一个共识预测，再把它输入到SoftMax函数中，得到一个最终的人体行为预测结果。主要包含5种人体行为类别：跑步、行走、跳跃、摔倒、站立。图模型最后会对行人的动作进行预测，得到以上5个类别中的一种。

另外，人体行为预测模型所使用到的损失函数包括对于目标跟踪的检测损失函数主要是目标检测的损失函数、光流损失函数以及基于图模型的行为识别损失函数，其中：

对于目标检测的损失函数，使用的是yolov7的损失函数，该损失函数主要由分类损失，定位损失以及置信度损失函数构成，即，

Loss＝Loss_分类+Loss_定位+Loss_置信度。

对于光流损失函数，所有的循环单元会输出创建一个光流预测序列Flow₀、Flow₁、Flow₂....Flow_N，总损失是每个循环块输出的预测值与真实值之间的损失之和。这里的光流损失函数统一使用平均端点误差(endpoint error，EPE)作为训练的损失函数，它表示预测的流向量和ground truth之间每个像素平均的欧几里得距离。

对于基于图模型的行为识别损失函数，使用分类的交叉熵损失来进行模型训练。

本发明在时间维度上结合了人体行为的瞬时光流信息以及长序列信息，空间维度上使用图卷积网络很好的学习了行人的身体局部信息。通过结合空间信息和时间信息的方法，提升了预测的准确率。通过迭代方式细化输出的光流可以清晰的区分运动中的行人与背景的差异，同时，预测出的光流方向及光流速度信息也可以为模型预测人体行为类别提供一定的监督信息。

图3是本发明实施例提供的基于光流及图的双分支人体行为预测装置100的示意性框图。对应于上述的基于光流及图的双分支人体行为预测方法，本发明具体实施例还提供了基于光流及图的双分支人体行为预测装置100。该基于光流及图的双分支人体行为预测装置100包括用于执行上述基于光流及图的双分支人体行为预测方法的单元和模块，该装置可以被配置于服务器中。

如图3所示，基于光流及图的双分支人体行为预测装置100，包括：

获取单元110，用于获取检测区域内的图像数据。

切帧处理单元120，用于对图像数据进行切帧处理，以得到多帧静态图片。

预测单元130，用于将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为预测结果。

在一实施例中，预测单元130包括。

第一处理模块，用于将多帧静态图片以图片序列的形式输入至跟踪模型进行处理，以得到带有id索引的人物图像。

第二处理模块，用于将带有id索引的人物图像输入至光流模型进行处理，以得到二维光流特征图。

特征融合模块，用于将带有id索引的人物图像与二维光流特征图进行特征融合，以得到融合特征图。

第三处理模块，用于将融合特征图输入至图模型进行处理，以得到人体行为预测结果。

在一实施例中，第一处理模块包括：

检测子模块，用于将多帧静态图片以图片序列的形式输入至跟踪模型，以检测出不同的人体目标框。

赋予子模块，用于对检测出的不同的人体目标框赋予索引id，以得到带有id索引的人物图像。

在一实施例中，第二处理模块包括：

特征提取子模块，用于采用空洞卷积核对前后两帧带有id索引的人物图像进行特征提取，并经过ReLU激活层和Max Pooling层处理，以得到第一特征图和第二特征图。

相关性处理子模块，用于将第一特征图和第二特征图进行全像素求相关性处理，以得到相关性特征图。

构建子模块，用于构建第0次循环的光流信息。

第一Warp处理子模块，欧诺个鱼利用第0次循环的光流信息对第二特征图进行Warp操作，以得到第1次循环的Warp结果。

第一结合子模块，用于将前后两帧带有id索引的人物图像通过遮挡掩模的AsymOFMM处理得到的结果与第1次循环的Warp结果进行合并，得到第一合并特征。

第一合并处理子模块，用于利用第一合并特征与第一特征图、相关性特征图进行合并后得到的结果输入到编码网络中处理，以得到第1次循环的光流信息。

第二Warp处理子模块，用于利用1次循环的光流信息对第二特征图进行Warp操作，以得到第2次循环的Warp结果。

第二结合子模块，用于将前后两帧带有id索引的人物图像通过遮挡掩模的AsymOFMM处理得到的结果与第2次循环的Warp结果进行合并，得到第二合并特征。

第二合并处理子模块，用于利用第二合并特征与第一特征图、相关性特征图进行合并后得到的结果输入到编码网络中处理，以得到第2次循环的光流信息。

循环处理子模块，用于根据设定的循环次数，完成所有循环后得到第一阶段的光流信息。

集中处理子模块，用于将第一阶段的光流信息输入到ConvGRU中处理，以得到最终的二维光流特征图。

在一实施例中，构建子模块包括：

合并子模块，用于将第一特征图、第二特征图和相关性特征图进行合并，以得到合并特征图。

编码子模块，用于将合并特征图输入到编码网络中处理，以得到第0次循环的光流信息。

在一实施例中，特征融合模块包括：

边缘特征提取子模块，用于采用Sobel算子从带有id索引的人物图像上提取边缘特征，以得到初始边缘特征图。

边缘锐化子模块，用于使用Laplacian滤波对初始边缘特征图进行边缘锐化，精细化边缘特征图。

下采样处理子模块，用于将精细化边缘特征图通过3x3卷积处理后，并使用Average Pooling进行下采样处理，以得到下采样特征图。

大小调整子模块，用于使用双线性差值将下采样特征图调整为与原图大小相同的调整特征图。

特征融合子模块，用于将二维光流特征图与调整特征图进行特征融合，以得到融合特征图。

在一实施例中，第三处理模块包括：

拼接子模块，用于每一帧对应的融合特征图与原图进行拼接，以得到拼接图。

第一划分子模块，用于将拼接图划分为3种不同Patch Size的图。

第二划分子模块，用于根据Patch Size的大小将拼接图划分为相应数量的等大小Patches，以得到3个Patches块。

特征变换子模块，用于对3个Patches块进行特征变换，以得3组Graph的节点。

特征变换子模块，用于使用感知哈希算法基于拼接图中的RGB信息分别对3个Patches块进行相似度计算，以构成出3个Patches块的动态邻接矩阵。

汇总子模块，用于将3个Patches块的动态邻接矩阵输入到12层的图卷积网络和时间卷积网络叠加块中进行节点的学习和特征更新，并将第12层的图卷积网络和时间卷积网络叠加块的输出通过Global Pooling层汇总特征，以得到每个序列的512维特征向量。

全连接处理子模块，用于将每个序列的512维特征向量输入到全连接层处理，以生成每个Patches块的人体行为类别的初步预测概率。

共识预测子模块，用于将生成的每个Patches块的人体行为类别的初步预测概率采用一个共识函数处理，以得到共识预测。

最终处理子模块，用于将共识预测输入到SoftMax函数中处理，以得到最终的人体行为预测结果。

上述基于光流及图的双分支人体行为预测装置可以实现为计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

如图4所示，该计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述的基于光流及图的双分支人体行为预测方法步骤。

该计算机设备700可以是终端或服务器。该计算机设备700包括通过***总线710连接的处理器720、存储器和网络接口750，其中，存储器可以包括非易失性存储介质730和内存储器740。

该非易失性存储介质730可存储操作***731和计算机程序732。该计算机程序732被执行时，可使得处理器720执行任意一种基于光流及图的双分支人体行为预测方法。

该处理器720用于提供计算和控制能力，支撑整个计算机设备700的运行。

该内存储器740为非易失性存储介质730中的计算机程序732的运行提供环境，该计算机程序732被处理器720执行时，可使得处理器720执行任意一种基于光流及图的双分支人体行为预测方法。

该网络接口750用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备700的限定，具体的计算机设备700可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。其中，所述处理器720用于运行存储在存储器中的程序代码，以实现以下步骤：

基于光流及图的双分支人体行为预测方法，包括：

获取检测区域内的图像数据；

对图像数据进行切帧处理，以得到多帧静态图片；

在一实施例中：所述将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为预测结果，包括：

在一实施例中：所述将多帧静态图片以图片序列的形式输入至跟踪模型进行处理，以得到带有id索引的人物图像，包括：

在一实施例中：所述将带有id索引的人物图像输入至光流模型进行处理，以得到二维光流特征图，包括:

构建第0次循环的光流信息；

在一实施例中：所述构建第0次循环的光流信息，包括：

在一实施例中：所述将带有id索引的人物图像与二维光流特征图进行特征融合，以得到融合特征图，包括：

在一实施例中：所述将融合特征图输入至图模型进行处理，以得到人体行为预测结果，包括：

每一帧对应的融合特征图与原图进行拼接，以得到拼接图；

将拼接图划分为3种不同Patch Size的图；

对3个Patches块进行特征变换，以得3组Graph的节点；

将3个Patches块的动态邻接矩阵输入到12层的图卷积网络和时间卷积网络叠加块中进行节点的学习和特征更新，并将第12层的图卷积网络和时间卷积网络叠加块的输出通过Global Pooling层汇总特征，以得到每个序列的512维特征向量；

应当理解，在本申请实施例中，处理器720可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器720还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域技术人员可以理解，图4中示出的计算机设备700结构并不构成对计算机设备700的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在本发明的另一实施例中提供了一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的基于光流及图的双分支人体行为预测方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.基于光流及图的双分支人体行为预测方法，其特征在于，包括：

获取检测区域内的图像数据；

对图像数据进行切帧处理，以得到多帧静态图片；

2.根据权利要求1所述的基于光流及图的双分支人体行为预测方法，其特征在于，所述将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为预测结果，包括：

3.根据权利要求2所述的基于光流及图的双分支人体行为预测方法，其特征在于，所述将多帧静态图片以图片序列的形式输入至跟踪模型进行处理，以得到带有id索引的人物图像，包括：

4.根据权利要求2所述的基于光流及图的双分支人体行为预测方法，其特征在于，所述将带有id索引的人物图像输入至光流模型进行处理，以得到二维光流特征图，包括:

构建第0次循环的光流信息；

5.根据权利要求4所述的基于光流及图的双分支人体行为预测方法，其特征在于，所述构建第0次循环的光流信息，包括：

6.根据权利要求2所述的基于光流及图的双分支人体行为预测方法，其特征在于，所述将带有id索引的人物图像与二维光流特征图进行特征融合，以得到融合特征图，包括：

7.根据权利要求2所述的基于光流及图的双分支人体行为预测方法，其特征在于，所述将融合特征图输入至图模型进行处理，以得到人体行为预测结果，包括：

每一帧对应的融合特征图与原图进行拼接，以得到拼接图；

将拼接图划分为3种不同Patch Size的图；

对3个Patches块进行特征变换，以得3组Graph的节点；

8.基于光流及图的双分支人体行为预测装置，其特征在于，包括：

获取单元，用于获取检测区域内的图像数据；

9.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～7中任意一项所述的基于光流及图的双分支人体行为预测方法步骤。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，使得所述处理器执行如权利要求1～7任意一项所述的基于光流及图的双分支人体行为预测方法步骤。