CN113762017A

CN113762017A - 一种动作识别方法、装置、设备及存储介质

Info

Publication number: CN113762017A
Application number: CN202110042177.8A
Authority: CN
Inventors: 朱博; 姜婷
Original assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Current assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-12-07
Anticipated expiration: 2041-01-13
Also published as: CN113762017B

Abstract

本发明实施例公开了一种动作识别方法、装置、设备及存储介质。该方法包括：获取待识别的视频数据；其中，所述视频数据包括至少两个视频帧；根据与各所述视频帧分别对应的预设特征点的像素位置，确定所述视频数据对应的光流权重矩阵；其中，所述光流权重矩阵用于表征所述视频数据中动作区域的时间特征和空间特征；将所述视频数据和光流权重矩阵输入到动作识别网络模型中，得到输出的与所述视频数据对应的动作识别结果。本发明实施例通过确定视频数据的光流权重矩阵，并将光流权重矩阵输入到动作识别网络模型中，解决了现有动作识别网络模型特征提取能力欠佳的问题，提高了动作识别网络模型的识别结果的准确度，进而保证了生产过程中的安全性。

Description

一种动作识别方法、装置、设备及存储介质

技术领域

本发明实施例涉及视频识别技术领域，尤其涉及一种动作识别方法、装置、设备及存储介质。

背景技术

随着网络的发展和视频采集设备的快速普及，视频监控被广泛应用于各种生产场景。通过对视频中工作人员的行为进行实时监控和异常行为预警，可以有效降低各类安全生产风险。

工作人员的工作行为和动作是否符合规范是安全生产关注的重点，例如，在快递物流的分拣场景中，需要对视频中的分拣人员的分拣动作进行实时分析和预警。

在实现本发明的过程中，发明人发现现有技术中至少存在以下技术问题：

现有的动作识别方法由于时间域特征和空间域特征提取能力欠佳，使得最终得到的动作识别结果准确度不高，进而无法有效保证生产过程中的安全性。

发明内容

本发明实施例提供了一种动作识别方法、装置、设备及存储介质，以提高动作识别网络模型的识别结果的准确度，进而保证生产过程中的安全性。

第一方面，本发明实施例提供了一种动作识别方法，该方法包括：

获取待识别的视频数据；其中，所述视频数据包括至少两个视频帧；

根据与各所述视频帧分别对应的预设特征点的像素位置，确定所述视频数据对应的光流权重矩阵；其中，所述光流权重矩阵用于表征所述视频数据中动作区域的时间特征和空间特征；

将所述视频数据和光流权重矩阵输入到动作识别网络模型中，得到输出的与所述视频数据对应的动作识别结果。

第二方面，本发明实施例还提供了一种动作识别装置，该装置包括：

视频数据获取模块，用于获取待识别的视频数据；其中，所述视频数据包括至少两个视频帧；

光流权重矩阵模块，用于根据与各所述视频帧分别对应的预设特征点的像素位置，确定所述视频数据对应的光流权重矩阵；其中，所述光流权重矩阵用于表征所述视频数据中动作区域的时间特征和空间特征；

动作识别结果输出模块，用于将所述视频数据和光流权重矩阵输入到动作识别网络模型中，得到输出的与所述视频数据对应的动作识别结果。

第三方面，本发明实施例还提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述所涉及的任一所述的动作识别方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行上述所涉及的任一所述的动作识别方法。

上述发明中的实施例具有如下优点或有益效果：

本发明实施例通过根据视频数据中各视频帧对应的预设特征点的像素位置，确定视频数据的光流权重矩阵，并将视频数据和光流权重矩阵同时输入到动作识别网络模型中，其中，光流权重矩阵表征了视频数据中动作区域的时间特征和空间特征，解决了现有动作识别网络模型特征提取能力欠佳的问题，提高了动作识别网络模型的识别结果的准确度，进而保证了生产过程中的安全性。

附图说明

图1是本发明实施例一提供的一种动作识别方法的流程图。

图2是本发明实施例一提供的一种光流权重矩阵确定方法的流程图。

图3是本发明实施例二提供的一种动作识别网络模型的示意图。

图4A是本发明实施例二提供的一种注意力模块的原理图。

图4B是本发明实施例二提供的一种动作识别方法的具体实例的流程图。

图5是本发明实施例三提供的一种动作识别装置的示意图。

图6是本发明实施例四提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种动作识别方法的流程图，本实施例可适用于对视频中的行为动作进行识别的情况，该方法可以由动作识别装置来执行，该装置可采用软件和/或硬件的方式实现，该装置可以配置于终端设备中，示例性的，终端设备可以是移动终端、笔记本电脑、台式机、服务器和平板电脑等智能终端。具体包括如下步骤：

S110、获取待识别的视频数据。

其中，示例性的，视频数据可以是录像设备实时采集到的视频，也可以是用户输入的视频。在本实施例中，视频数据包括至少两个视频帧。其中，视频帧可用于描述组成视频数据的静止画面。

S120、根据与各视频帧分别对应的预设特征点的像素位置，确定视频数据对应的光流权重矩阵。

其中，具体的，视频数据中每个视频帧都有各自对应的预设特征点，示例性的，各视频帧对应的预设特征点可以相同也可以不同。在一个实施例中，可选的，将视频帧中的目标对象构成的像素点作为预设特征点。具体的，假设视频帧中包含人物A，将人物A在当前视频帧中所占的像素点均作为预设特征点。在另一个实施例中，可选的，将视频帧中所有像素点作为预设特征点。

在上述实施例的基础上，可选的，根据与各视频帧分别对应的预设特征点的像素位置，确定视频数据对应的光流权重矩阵，包括：针对当前视频帧对应的预设特征点，基于预设特征点在当前视频帧中的当前像素位置和预设特征点在下一视频帧中的下一像素位置，确定预设特征点的光流速度；基于各视频帧中预设特征点的光流速度，确定视频数据对应的光流权重矩阵。

其中，光流速度用于表征运动对象在成像平面上的像素运动的瞬时速度，是利用图像序列中预设特征点的像素位置在时间域上的变化以及相邻帧之间的相关性来确定相邻帧之间运动对象的运动信息。其中，具体的，光流速度包括光流速率和光流方向。举例而言，预设特征点在当前视频帧中的当前像素位置为(x1,y1)且在下一视频帧中的下一像素位置为(x2,y2)，当前视频帧和下一视频帧的时间间隔为dt，则预设特征点的移动距离(dx,dy)＝(x2,y2)-(x1,y1)，光流速度沿x轴的速度矢量

光流速度沿y轴的速度矢量

其中，示例性的，计算光流速度的方法包括但不限于金字塔L-K光流法、Horn-Schunck算法、FlowNetSimple模型或FlowNetCorr模型。在一个实施例中，可选的，将视频数据的各视频帧数据输入到FlowNetCorr模型中，得到输出的与各视频帧对应的光流速度。

上述实施例的基础上，可选的，光流速度包括水平光流速度和垂直光流速度，相应的，基于各视频帧中预设特征点的光流速度，确定视频数据对应的光流权重矩阵，包括：针对每个视频帧，基于视频帧中预设特征点对应的水平光流速度和垂直光流速度，确定视频帧对应的热力图矩阵；对各视频帧对应的热力图矩阵分别进行归一化处理，得到视频数据对应的光流权重矩阵。

在一个实施例中，可选的，针对每个预设特征点，将预设特征点对应的水平光流速度和垂直光流速度进行开平方和运算，得到预设特征点对应的热力值。示例性的，假设水平光流速度为ux，垂直光流速度为uy，则热力值h满足公式：

在一个实施例中，当视频帧中的预设特征点为所有像素点时，则该视频帧对应的热力图矩阵包括每个像素点对应的热力值。示例性的，如果视频帧的分辨率为a×b，则热力图矩阵的行数为a，列数为b。其中，具体的，视频数据对应的热力图矩阵(heatmap)为[h1,h2,......hn]，其中，hn表示第n个视频帧的热力图矩阵。

其中，具体的，对视频数据对应的热力图矩阵中的每个热力值进行sigmoid(归一化)操作，得到视频数据对应的光流权重矩阵。以视频帧为单位进行计算，单一视频帧对应的光流权重矩阵满足公式：

其中，wn表示第n个视频帧对应的光流权重矩阵，(x_m,y_m)表示该视频帧中的位于m行m列的像素点，hn表示第n个视频帧对应的热力图矩阵，hn(x_m,y_m)表示该热力图矩阵中第m行m列的热力值。

其中，具体的，视频数据对应的光流权重矩阵为[w1,w2,......wn]，其中，wn表示第n个视频帧的帧光流权重矩阵。

图2是本发明实施例一提供的一种光流权重矩阵确定方法的流程图。图2中的虚线框表示FlowNetSimple模型的模型架构，具体的，FlowNetSimple模型包括收缩部分网络结构和放大部分网络结构，其中，收缩部分网络结构主要由卷积层组成，放大部分网络结构主要由反卷积层组成。将视频数据输入到FlowNetSimple模型中，得到输出的与各视频帧对应的光流速度。基于光流速度确定视频数据的热力图矩阵，基于该热力图矩阵进行归一化操作，得到视频数据的光流权重矩阵。

在本实施例中，光流权重矩阵用于表征视频数据中动作区域的时间特征和空间特征。其中，具体的，动作区域用于描述视频数据中运动对象所处的图像区域。由于光流速度本身是用于描述运动对象的像素运动，从而光流权重矩阵可表征动作区域的空间特征。在本实施例中，基于各视频帧的光流速度确定了整个视频数据的光流权重矩阵，因此该光流权重矩阵可表征动作区域的时间特征。

S130、将视频数据和光流权重矩阵输入到动作识别网络模型中，得到输出的与视频数据对应的动作识别结果。

其中，示例性的，动作识别网络模型包括但不限于双流卷积网络模型、三维卷积网络模型或长短时记忆网络模型。在本实施例中，动作识别网络模型可以是任意可用于进行动作识别的网络模型，此处对动作识别网络模型的具体类型不作限定。

其中，示例性的，动作识别结果可以是具体的行为动作，比如拿起、放下和平移等。当然，动作识别结果还可以是预设动作的判别结果，如预设动作可以是暴力动作，则动作识别结果为该视频数据是否包含暴力动作。此处对动作识别结果的具体输出内容不作限定。

现有的动作识别模型主要有三类：第一类是基于提取到的时间域特征和空间域特征进行融合分类识别的双流卷积网络方法；第二类是基于长短时记忆网络的动作识别方法；第三类是增加了时间维度通道的三维卷积网络方法。由于双流卷积网络只关注当前步骤的卷积映射，因此只能捕捉短时间内的时空域特征，无法表示长时间的时空域特征；长短时记忆网络模型在一定程度上能解决上时间建模的问题，但由于长短时记忆网络模型的输入是直接从全连接层提取的语义特征，因此缺乏时空域特征细节的提取能力；三维卷积网络虽然增加了时间维度的通道，但其时空域特征细节的提取能力仍有待提高。

本实施例的技术方案，通过根据视频数据中各视频帧对应的预设特征点的像素位置，确定视频数据的光流权重矩阵，并将视频数据和光流权重矩阵同时输入到动作识别网络模型中，其中，光流权重矩阵表征了视频数据中动作区域的时间特征和空间特征，解决了现有动作识别网络模型特征提取能力欠佳的问题，提高了动作识别网络模型的识别结果的准确度，进而保证了生产过程中的安全性。

实施例二

图3是本发明实施例二提供的一种动作识别网络模型的示意图，本实施例的技术方案是上述实施例的基础上的进一步细化，在本实施例中，可选的，动作识别网络模型包括中间网络模块210、输出模块230和至少一个注意力模块220；中间网络模块210，用于对输入的视频帧进行预设处理，得到中间图像数据；注意力模块220，用于基于中间网络模块210输出的中间图像数据和光流权重矩阵，进行比例融合处理得到注意力特征图；输出模块230，用于基于注意力模块220输出的注意力特征图确定与视频数据对应的动作识别结果。

其中，示例性的，当预设处理为最大池化处理时，中间网络模块210为最大池化层。当预设处理为平均池化处理时，中间网络模块210为平均池化层。当当预设处理为卷积处理时，中间网络模块210为卷积层。此处对中间网络模块210的具体类型不作限定。

需要注意的是，图2仅示出了动作识别网络模型中各模块之间的其中一种连接关系。当动作识别网络模型包括多种中间网络模块210和多种注意力模块220时，以两种中间网络模块和两种注意力模块为例，连接关系可以是中间网络模块A、注意力模块A、中间网络模块B和注意力模块B，连接关系也可以是中间网络模块A、中间网络模块B、注意力模块A和注意力模块B，当然，连接关系还可以是中间网络模块A、注意力模块A、注意力模块B和中间网络模块B。此处对动作识别网络模型中各模块之间的连接关系不作限定。

在一个实施例中，可选的，中间网络模块210包括修正处理模块，用于对输入的各视频帧分别进行修正处理，得到修正后的视频帧；其中，修正处理包括减去均值处理和/或缩放处理。其中，具体的，修正处理模块的输入为输入到动作识别网络模型的视频数据中的视频帧。其中，减去均值处理，具体的，将各视频帧中各像素点对应的像素值对应相加求均值，得到视频数据对应的均值图像，将各视频帧分别与该均值图像进行相减，得到修正后的视频帧。这样设置的好处在于，通过减去视频数据中平稳的像素数据，从而突出各视频帧中的动作区域的空间特征。其中，缩放处理，具体的，对视频帧的分辨率进行调整，以使视频帧对应的视频分辨率满足动作识别网络模型对输入数据的分辨率要求，从而保证动作识别网络模型输出稳定且准确的动作识别结果。在本实施例中，中间网络模块210输出的中间图像数据为修正后的视频帧。

在一个实施例中，可选的，注意力模块220包括网络节点单元和注意力单元；网络节点单元，用于基于输入的中间图像数据确定节点特征图；注意力单元，用于基于光流权重矩阵，对网络节点单元输出的节点特征图进行比例融合处理，得到注意力特征图。

其中，具体的，网络节点单元可用于对中间图像数据进行特征提取得到节点特征图。网络节点单元包括至少一种网络层，示例性的，网络节点单元包括但不限于卷积层、反卷积层、池化层、激活函数层、归一化层和全连接层中至少一种。此处对网络节点单元中的网络层的具体类型、数量和连接方式不作限定。

其中，示例性的，当视频数据包括n个视频帧时，则网络节点单元输出的节点特征图U＝[F1,F2,......Fn]，其中，Fn表示第n个视频帧对应的特征图。在一个实施例中，可选的，节点特征图包括与各视频帧分别对应的至少一个通道特征图。其中，示例性的，Fn的大小满足a×b×c，其中，a×b表示通道特征图的分辨率，c表示通道特征图的个数。

在上述实施例的基础上，当节点特征图包括与各视频帧分别对应的至少一个通道特征图时，注意力单元，具体用于：针对每个视频帧，基于光流权重矩阵中与视频帧对应的帧光流权重矩阵，对视频帧对应的各通道特征图分别进行比例融合运算，得到与视频帧对应的帧注意力特征图；基于各帧注意力特征图，生成视频数据对应的注意力特征图。

其中，帧光流权重矩阵表示与单一视频帧对应的光流权重矩阵，具体的，视频数据对应的光流权重矩阵为[w1,w2,......wn]，则与第n个视频帧对应的帧光流权重矩阵为wn。将帧光流权重矩阵分别与各通道特征图进行比例融合(Scale)计算，得到帧注意力特征图，其中，帧注意力特征图满足公式：

sn[1]＝wn*Fn[1]......sn[c]＝wn*Fn[c]

其中，sn[1]表示与第1个通道对应的帧注意力特征图，Fn[1]表示第1个通道特征图，sn[c]表示与第c个通道对应的帧注意力特征图，Fn[c]表示第c个通道特征图。

其中，与第n个视频帧对应的帧注意力特征图为[sn[1],sn[2],......sn[c]]，与视频数据对应的注意力特征图为[s1,s2,......sn]。

图4A是本发明实施例二提供的一种注意力模块的原理图。如图4A所示，最左边的3个矩形体表示输入到注意力模块中的中间网络模型输出的中间图像数据，中间的三个矩形体表示网络节点单元U输出的节点特征图，具体的，节点特征图包括与n个视频帧分别对应的特征图Fn，每个特征图Fn的大小满足a×b×c。网络节点单元U上方的三个矩形表示输入的光流权重矩阵，该光流权重矩阵包括与n个视频帧分别对应的帧光流权重矩阵，其中，每个帧光流权重矩阵的大小满足a×b。将光流权重矩阵与节点特征图进行Scale(比例融合)，得到视频数据对应的注意力特征图。

图4B是本发明实施例二提供的一种动作识别方法的具体实例的流程图，图4B中最左边的三个矩阵表示视频数据中的视频帧。一方面，将视频数据输入到FlowNetCorr模型中，基于输出的光流速度确定光流权重矩阵。另一方面，将视频数据和光流权重矩阵输入到动作识别网络模型中，图4B中的下方虚线框表示动作识别网络模型，上方的两个虚线框均表示动作识别网络模型中的注意力模块。具体的，在本实施例中，两个注意力模块中的网络节点单元分别为7×7×7卷积层和3×3×3卷积层，中间网络模块包括修正处理模块和1×3×3最大池化层。其中，动作识别网络模型中的“...”可以表示重复注意力模块和1×3×3最大池化层。在本实施例中，动作识别网络模型还包括2×7×7平均池化层和输出模块为1×1×1卷积层。需要说明的是，本实施例以动作识别网络模型为三维卷积网络模型为例进行举例解释说明，但并不对动作识别网络模型的具体网络架构进行限定。

在上述实施例的基础上，可选的，注意力模块还包括分辨率单元，用于如果光流权重矩阵对应的视频帧的图像分辨率与节点特征图的图像分辨率不同，则对光流权重矩阵进行采样处理，以使光流权重矩阵对应的图像分辨率与节点特征图的图像分辨率相同；其中，采样处理包括上采样处理或下采样处理。

其中，示例性的，假设FlowNetCorr模型预测的是视频帧中所有像素点对应的光流速度，视频帧的图像分辨率为a×b，则光流权重矩阵对应的图像分辨率也为a×b。由于网络节点单元对输入的中间图像数据进行特征提取，提取得到的节点特征图可能会存在与原有视频帧的图像分辨率不一致的情况，在进行比例融合处理之前，对光流权重矩阵进行采样处理。具体的，如果光流权重矩阵对应的图像分辨率大于节点特征图的图像分辨率，则对光流权重矩阵进行下采样处理，如果光流权重矩阵对应的图像分辨率小于节点特征图的图像分辨率，则对光流权重矩阵进行上采样处理。这样设置的好处在于，保证后续比例融合处理时不会因为图像分辨率不同导致比例融合失败的。

在上述实施例的基础上，可选的，该方法还包括：获取待训练视频数据，其中，待训练视频数据包括至少两个待训练视频帧；根据与各待训练视频帧分别对应的预设特征点的像素位置，确定待训练视频数据对应的光流权重矩阵；将待训练视频数据和光流权重矩阵输入到初始动作识别网络模型中，根据输出的动作识别结果和标准识别结果对初始动作识别网络模型的模型参数进行调整，直到得到训练完成的动作识别网络模型。

本实施例的技术方案，通过在动作识别网络模型中设置注意力模块，解决了动作识别网络模型对光流权重矩阵的处理问题，使得光流权重矩阵与动作识别网络模型已有的网络节点单元进行结合，从而得到输出的注意力特征图，提高了动作识别网络模型的识别结果的准确度，此外，本技术方案无需对现有的动作识别网络模型作过多修改，只需将现有网络节点的输出与光流权重矩阵进行结合，便可实现动作区域的无监督聚焦，从而提高了注意力模块的可移植性。

实施例三

图5是本发明实施例三提供的一种动作识别装置的示意图。本实施例可适用于对视频中的行为动作进行识别的情况，该装置可采用软件和/或硬件的方式实现，该装置可以配置于终端设备中。该动作识别装置包括：视频数据获取模块310、光流权重矩阵确定模块320和动作识别结果输出模块330。

其中，视频数据获取模块310，用于获取待识别的视频数据；其中，视频数据包括至少两个视频帧；

光流权重矩阵确定模块320，用于根据与各视频帧分别对应的预设特征点的像素位置，确定视频数据对应的光流权重矩阵；其中，光流权重矩阵用于表征视频数据中动作区域的时间特征和空间特征；

动作识别结果输出模块330，用于将视频数据和光流权重矩阵输入到动作识别网络模型中，得到输出的与视频数据对应的动作识别结果。

在上述技术方案的基础上，可选的，光流权重矩阵确定模块320包括：

光流速度确定单元，用于针对当前视频帧对应的预设特征点，基于预设特征点在当前视频帧中的当前像素位置和预设特征点在下一视频帧中的下一像素位置，确定预设特征点的光流速度；

光流权重矩阵确定单元，用于基于各视频帧中预设特征点的光流速度，确定视频数据对应的光流权重矩阵。

在上述技术方案的基础上，可选的，光流速度包括水平光流速度和垂直光流速度，相应的，光流权重矩阵确定单元，具体用于：

针对每个视频帧，基于视频帧中预设特征点对应的水平光流速度和垂直光流速度，确定视频帧对应的热力图矩阵；

对各视频帧对应的热力图矩阵分别进行归一化处理，得到视频数据对应的光流权重矩阵。

在上述技术方案的基础上，可选的，动作识别网络模型包括中间网络模块、输出模块和至少一个注意力模块；

中间网络模块，用于对输入的视频帧进行预设处理，得到中间图像数据；

注意力模块，用于基于中间网络模块输出的中间图像数据和光流权重矩阵，进行比例融合处理得到注意力特征图；

输出模块，用于基于注意力模块输出的注意力特征图确定与视频数据对应的动作识别结果。

在上述技术方案的基础上，可选的，注意力模块包括网络节点单元和注意力单元；

网络节点单元，用于基于输入的中间图像数据确定节点特征图；

注意力单元，用于基于光流权重矩阵，对网络节点单元输出的节点特征图进行比例融合处理，得到注意力特征图。

在上述技术方案的基础上，可选的，节点特征图包括与各视频帧分别对应的至少一个通道特征图；

相应的，注意力单元，具体用于：针对每个视频帧，基于光流权重矩阵中与视频帧对应的帧光流权重矩阵，对视频帧对应的各通道特征图分别进行比例融合运算，得到与视频帧对应的帧注意力特征图；基于各帧注意力特征图，生成视频数据对应的注意力特征图。

在上述技术方案的基础上，可选的，注意力模块还包括分辨率单元，用于如果光流权重矩阵对应的视频帧的图像分辨率与节点特征图的图像分辨率不同，则对光流权重矩阵进行采样处理，以使光流权重矩阵对应的图像分辨率与节点特征图的图像分辨率相同；其中，采样处理包括上采样处理或下采样处理。

在上述技术方案的基础上，可选的，中间网络模块包括修正处理模块，用于对输入的各视频帧分别进行修正处理，得到修正后的视频帧；其中，修正处理包括减去均值处理和/或缩放处理。

本发明实施例所提供的动作识别装置可以用于执行本发明实施例所提供的动作识别方法，具备执行方法相应的功能和有益效果。

值得注意的是，上述动作识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例四

图6是本发明实施例四提供的一种电子设备的结构示意图，本发明实施例为本发明上述实施例的动作识别方法的实现提供服务，可配置上述实施例中的动作识别装置。图6示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图6显示的电子设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

其中，示例性的，电子设备12可以是移动终端、笔记本电脑、台式机、服务器和平板电脑等智能终端。在一个实施例中，可选的，电子设备12为摄像头。

如图6所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，***存储器28，连接不同***组件(包括***存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、***总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MAC)总线、增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

电子设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图6所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元16通过运行存储在***存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的动作识别方法。

通过上述电子设备，解决了现有动作识别网络模型特征提取能力欠佳的问题，提高了动作识别网络模型的识别结果的准确度，进而保证了生产过程中的安全性。

实施例五

本发明实施例五还提供了一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种动作识别方法，该方法包括：

获取待识别的视频数据；其中，视频数据包括至少两个视频帧；

根据与各视频帧分别对应的预设特征点的像素位置，确定视频数据对应的光流权重矩阵；其中，光流权重矩阵用于表征视频数据中动作区域的时间特征和空间特征；

将视频数据和光流权重矩阵输入到动作识别网络模型中，得到输出的与视频数据对应的动作识别结果。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作，还可以执行本发明任意实施例所提供的动作识别方法中的相关操作。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种动作识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据与各所述视频帧分别对应的预设特征点的像素位置，确定所述视频数据对应的光流权重矩阵，包括：

针对当前视频帧对应的预设特征点，基于所述预设特征点在当前视频帧中的当前像素位置和所述预设特征点在下一视频帧中的下一像素位置，确定所述预设特征点的光流速度；

基于各所述视频帧中预设特征点的光流速度，确定所述视频数据对应的光流权重矩阵。

3.根据权利要求2所述的方法，其特征在于，所述光流速度包括水平光流速度和垂直光流速度，相应的，所述基于各所述视频帧中预设特征点的光流速度，确定所述视频数据对应的光流权重矩阵，包括：

针对每个视频帧，基于所述视频帧中预设特征点对应的水平光流速度和垂直光流速度，确定所述视频帧对应的热力图矩阵；

对各所述视频帧对应的热力图矩阵分别进行归一化处理，得到所述视频数据对应的光流权重矩阵。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述动作识别网络模型包括中间网络模块、输出模块和至少一个注意力模块；

所述中间网络模块，用于对输入的视频帧进行预设处理，得到中间图像数据；

所述注意力模块，用于基于所述中间网络模块输出的中间图像数据和所述光流权重矩阵，进行比例融合处理得到注意力特征图；

所述输出模块，用于基于所述注意力模块输出的注意力特征图确定与所述视频数据对应的动作识别结果。

5.根据权利要求4所述的方法，其特征在于，所述注意力模块包括网络节点单元和注意力单元；

所述网络节点单元，用于基于输入的所述中间图像数据确定节点特征图；

所述注意力单元，用于基于所述光流权重矩阵，对所述网络节点单元输出的节点特征图进行比例融合处理，得到注意力特征图。

6.根据权利要求5所述的方法，其特征在于，所述节点特征图包括与各所述视频帧分别对应的至少一个通道特征图；

相应的，所述注意力单元，具体用于：针对每个视频帧，基于所述光流权重矩阵中与所述视频帧对应的帧光流权重矩阵，对所述视频帧对应的各所述通道特征图分别进行比例融合运算，得到与所述视频帧对应的帧注意力特征图；

基于各所述帧注意力特征图，生成所述视频数据对应的注意力特征图。

7.根据权利要求5所述的方法，其特征在于，所述注意力模块还包括分辨率单元，用于如果所述光流权重矩阵对应的视频帧的图像分辨率与所述节点特征图的图像分辨率不同，则对所述光流权重矩阵进行采样处理，以使所述光流权重矩阵对应的图像分辨率与所述节点特征图的图像分辨率相同；其中，所述采样处理包括上采样处理或下采样处理。

8.根据权利要求4所述的方法，其特征在于，所述中间网络模块包括修正处理模块，用于对输入的各所述视频帧分别进行修正处理，得到修正后的视频帧；其中，所述修正处理包括减去均值处理和/或缩放处理。

9.一种动作识别装置，其特征在于，包括：

光流权重矩阵确定模块，用于根据与各所述视频帧分别对应的预设特征点的像素位置，确定所述视频数据对应的光流权重矩阵；其中，所述光流权重矩阵用于表征所述视频数据中动作区域的时间特征和空间特征；

10.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的动作识别方法。

11.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的动作识别方法。