CN107808150A

CN107808150A - 人体视频动作识别方法、装置、存储介质及处理器

Info

Publication number: CN107808150A
Application number: CN201711154691.0A
Authority: CN
Inventors: 周文明; 王志鹏
Original assignee: Zhuhai Xi Yue Information Technology Co Ltd
Current assignee: Zhuhai Xi Yue Information Technology Co Ltd
Priority date: 2017-11-20
Filing date: 2017-11-20
Publication date: 2018-03-16

Abstract

本发明公开了一种人体视频动作识别方法、装置、存储介质及处理器。其中，该方法包括：根据预设全通道三维卷积核创建第一卷积神经网络模型；根据预设动作识别数据集训练第一卷积神经网络模型，得到第二卷积神经网络模型；将第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元，得到第三卷积神经网络模型；根据预设动作识别数据集和第二卷积神经网络模型训练第三卷积神经网络模型，得到目标卷积神经网络模型；输入待识别视频至目标卷积神经网络模型，得到目标识别结果。本发明解决了现有技术中存在的人体动作识别方式计算精度较低、计算效率较差的技术问题。

Description

人体视频动作识别方法、装置、存储介质及处理器

技术领域

本发明涉及视频处理领域，具体而言，涉及一种人体视频动作识别方法、装置、存储介质及处理器。

背景技术

随着社会的信息化、网络化发展浪潮，各种视频大量涌现，如监控***安防视频、自拍视频、网络媒体视频等。智能的动作分析识别技术对于大规模视频检索、人机交互、安防监控预警、视频分类等应用具有重要作用。

传统动作识别借助光流法、密集轨迹分析等技术进行，人工设计并选取特征，计算复杂，且存在性能瓶颈。伴随着深度学习在图像分类领域的突破进展，深度学习相关技术也逐渐渗透至视频分析动作识别领域。但是，目前的人体动作识别方式存在计算精度较低、计算效率较差的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种人体视频动作识别方法、装置、存储介质及处理器，以至少解决现有技术中存在的人体动作识别方式计算精度较低、计算效率较差的技术问题。

根据本发明实施例的一个方面，提供了一种人体视频动作识别方法，该方法包括：根据预设全通道三维卷积核创建第一卷积神经网络模型；根据预设动作识别数据集训练上述第一卷积神经网络模型，得到第二卷积神经网络模型，其中，上述第二卷积神经网络模型为达到收敛状态的上述第一卷积神经网络模型；将上述第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元，得到第三卷积神经网络模型；根据上述预设动作识别数据集和上述第二卷积神经网络模型训练上述第三卷积神经网络模型，得到目标卷积神经网络模型，其中，上述目标卷积神经网络模型为达到收敛状态的上述第三卷积神经网络模型；输入待识别视频至上述目标卷积神经网络模型，得到目标识别结果。

进一步地，在根据预设动作识别数据集训练上述第一卷积神经网络模型之前，上述方法还包括：获取目标视频中的视频数据；将上述视频数据分割成多个视频短片段，其中，每个上述视频短片段仅包含单一动作类别；对上述视频短片段添加预设类别标签，得到上述预设动作识别数据集。

进一步地，上述将上述第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元包括：将上述至少部分全通道三维卷积层替换为上述单通道三维卷积层；在上述单通道三维卷积层的后位层级添加批规范化层、非线性层、残差分支、叠加单元和1x1分组卷积层，得到上述单通道三维卷积单元。

进一步地，上述输入待识别视频至上述目标卷积神经网络模型，得到目标识别结果包括：对上述待识别视频进行分割，得到多个具有同一预设长度的第二视频序列；将多个上述第二视频序列输入至上述目标卷积神经网络，得到上述多个上述第二视频序列对应的初步识别结果；根据预设数据处理方式对上述初步识别结果进行处理，得到上述目标识别结果，其中，上述预设数据处理方式包括下述至少之一：获取上述初步识别结果的极值、获取上述初步识别结果的平均值以及对上述初步识别结果进行加权求和。

根据本发明实施例的另一方面，还提供了一种人体视频动作识别装置，该装置包括：创建单元，用于根据预设全通道三维卷积核创建第一卷积神经网络模型；第一训练单元，用于根据预设动作识别数据集训练上述第一卷积神经网络模型，得到第二卷积神经网络模型，其中，上述第二卷积神经网络模型为达到收敛状态的上述第一卷积神经网络模型；替换单元，用于将上述第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元，得到第三卷积神经网络模型；第二训练单元，用于根据上述预设动作识别数据集和上述第二卷积神经网络模型训练上述第三卷积神经网络模型，得到目标卷积神经网络模型，其中，上述目标卷积神经网络模型为达到收敛状态的上述第三卷积神经网络模型；处理单元，用于输入待识别视频至上述目标卷积神经网络模型，得到目标识别结果。

进一步地，上述装置还包括：获取单元，用于获取目标视频中的视频数据；分割单元，用于将上述视频数据分割成多个视频短片段，其中，每个上述视频短片段仅包含单一动作类别；添加单元，用于对上述视频短片段添加预设类别标签，得到上述预设动作识别数据集。

进一步地，上述替换单元包括：替换子单元，用于将所述至少部分全通道三维卷积层替换为所述单通道三维卷积层；添加子单元，用于在所述单通道三维卷积层的后位层级添加批规范化层、非线性层、残差分支、叠加单元和1x1分组卷积层，得到所述单通道三维卷积单元。

进一步地，上述处理单元包括：分割子单元，用于对上述待识别视频进行分割，得到多个具有同一预设长度的第二视频序列；输入子单元，用于将多个上述第二视频序列输入至上述目标卷积神经网络，得到上述多个上述第二视频序列对应的初步识别结果；处理子单元，用于根据预设数据处理方式对上述初步识别结果进行处理，得到上述目标识别结果，其中，上述预设数据处理方式包括下述至少之一：获取上述初步识别结果的极值、获取上述初步识别结果的平均值以及对上述初步识别结果进行加权求和。

根据本发明实施例的另一方面，又提供了一种存储介质，上述存储介质包括存储的程序，其中，在上述程序运行时控制上述存储介质所在设备执行上述的人体视频动作识别方法。

根据本发明实施例的另一方面，又提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述的人体视频动作识别方法。

在本发明实施例中，采用根据预设全通道三维卷积核创建第一卷积神经网络模型的方式；根据预设动作识别数据集训练第一卷积神经网络模型，得到第二卷积神经网络模型，其中，第二卷积神经网络模型为达到收敛状态的第一卷积神经网络模型；通过将第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元，得到第三卷积神经网络模型；根据预设动作识别数据集和第二卷积神经网络模型训练第三卷积神经网络模型，得到目标卷积神经网络模型，其中，目标卷积神经网络模型为达到收敛状态的第三卷积神经网络模型；达到了输入待识别视频至目标卷积神经网络模型，得到目标识别结果的目的，从而实现了提升人体动作识别精度、提高人体动作识别的效率的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的人体视频动作识别方法的流程示意图；

图2是根据本发明实施例的另一种可选的人体视频动作识别方法的流程示意图；

图3是根据本发明实施例的又一种可选的人体视频动作识别方法的流程示意图；

图4是根据本发明实施例的又一种可选的人体视频动作识别方法的流程示意图；

图5是根据本发明实施例的一种可选的人体视频动作识别装置的结构示意图；

图6是根据本发明实施例的一种可选的第一卷积神经网络模型的结构示意图；

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种人体视频动作识别方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的人体视频动作识别方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤S102，根据预设全通道三维卷积核创建第一卷积神经网络模型；

步骤S104，根据预设动作识别数据集训练第一卷积神经网络模型，得到第二卷积神经网络模型，其中，第二卷积神经网络模型为达到收敛状态的第一卷积神经网络模型；

步骤S106，将第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元，得到第三卷积神经网络模型；

步骤S108，根据预设动作识别数据集和第二卷积神经网络模型训练第三卷积神经网络模型，得到目标卷积神经网络模型，其中，目标卷积神经网络模型为达到收敛状态的第三卷积神经网络模型；

步骤S110，输入待识别视频至目标卷积神经网络模型，得到目标识别结果。

可选地，步骤S102中的第一卷积神经网络包含：输入层、三维卷积层、三维池化层、非线性层、全连接层、输出层。其中，输入层尺寸为[H,W,3,F]，其中H和W分别为输入视频的高度与宽度，F为视频中包含的图像帧数。其中，三维池化层采用最大池化函数。

可选地，步骤S104中，可以将预设动作识别数据集中的视频分割为长度为F的不重叠的视频序列，输入至第一卷积神经网络模型中，采用梯度下降法进行训练，目标函数为交叉熵误差。

可选地，步骤S106中，将第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元包含：将三维卷积层中的三维卷积核的全通道连接模式替换为单通道连接模式，得到单通道三维卷积单元，计算公式为：输入特征图为X[h,w,c,f]，输出特征图为Y[h1,w1,c,f1]，卷积核为K[k,k,c,d]，步长为1，偏置向量为b，单通道三维卷积单元输出为：在上述单通道三维卷积单元的后位层级添加批规范化层、非线性层、残差分支、叠加单元和1x1分组卷积层。

可选地，步骤S108中，可以将预设动作识别数据集中的视频分割为长度为F的不重叠的视频序列，输入至第二卷积神经网络模型和第三卷积神经网络模型中，得到软标签和预测输出值。计算预测输出值和软标签之间的交叉熵误差，并计算预测输出值与视频真实类别标签之间的交叉熵误差，进行加权求和，得到总误差，采用梯度下降法进行训练。

可选地，本申请实施例中的人体视频动作识别方法基于单通道三维卷积单元，构造动作识别卷积神经网络，可以同时利用输入视频中的时间信息和空间信息，相比于传统的二维卷积神经网络，更适合于处理视频数据，提升动作识别的精度。

可选地，本申请实施例中的人体视频动作识别方法中的单通道三维卷积单元包含单通道三维卷积层、批规范化层、非线性层、残差分支、叠加单元、1x1分组卷积层。其中，采用单通道三维卷积，相比于原始三维卷积，降低了计算量及参数量。采用残差分支及1x1分组卷积层，有效弥补参数降低造成的精度损失，从而解决了现有动作识别技术中存在的识别精度低、计算效率差的技术问题。

可选地，图2是根据本发明实施例的另一种可选的人体视频动作识别方法的流程示意图，如图2所示，在执行步骤S104之前，即在根据预设动作识别数据集训练第一卷积神经网络模型之前，该方法还可以包括：

步骤S202，获取目标视频中的视频数据；

步骤S204，将视频数据分割成多个视频短片段，其中，每个视频短片段仅包含单一动作类别；

步骤S206，对视频短片段添加预设类别标签，得到预设动作识别数据集。

可选地，图3是根据本发明实施例的又一种可选的人体视频动作识别方法的流程示意图，如图3所示，执行步骤S106，即将第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元包括：

步骤S302，将至少部分全通道三维卷积层替换为单通道三维卷积层；

步骤S304，在单通道三维卷积层的后位层级添加批规范化层、非线性层、残差分支、叠加单元和1x1分组卷积层，得到单通道三维卷积单元。

可选地，图4是根据本发明实施例的又一种可选的人体视频动作识别方法的流程示意图，如图4所示，执行步骤S110，输入待识别视频至目标卷积神经网络模型，得到目标识别结果包括：

步骤S402，对待识别视频进行分割，得到多个具有同一预设长度的第二视频序列；

步骤S404，将多个第二视频序列输入至目标卷积神经网络，得到多个第二视频序列对应的初步识别结果；

步骤S406，根据预设数据处理方式对初步识别结果进行处理，得到目标识别结果，其中，预设数据处理方式包括下述至少之一：获取初步识别结果的极值、获取初步识别结果的平均值以及对初步识别结果进行加权求和。

实施例2

根据本发明实施例的另一方面，还提供了一种人体视频动作识别装置，如图5所示，该装置包括：

创建单元501，用于根据预设全通道三维卷积核创建第一卷积神经网络模型；第一训练单元503，用于根据预设动作识别数据集训练第一卷积神经网络模型，得到第二卷积神经网络模型，其中，第二卷积神经网络模型为达到收敛状态的第一卷积神经网络模型；替换单元505，用于将第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元，得到第三卷积神经网络模型；第二训练单元507，用于根据预设动作识别数据集和第二卷积神经网络模型训练第三卷积神经网络模型，得到目标卷积神经网络模型，其中，目标卷积神经网络模型为达到收敛状态的第三卷积神经网络模型；处理单元509，用于输入待识别视频至目标卷积神经网络模型，得到目标识别结果。

可选地，图6是根据本发明实施例的一种可选的第一卷积神经网络模型的结构示意图，如图6所示，该第一卷积神经网络模型包括输入层、十二个全通道三维卷积层、五个三维池化层、二维卷积层、全连接层、输出层。具体地，第一卷积神经网络模型中每一层的参数可以是：输入层尺寸为[H,W,3,F]，其中H和W分别为输入视频的高度与宽度，F为视频中包含的图像帧数。可选的，输入层的H设为128，W设为171，F设为16。十二个全通道三维卷积层卷积核尺寸为3x3x3，步长为[1,1,1]，通道数分别为16、32、64、64、64、128、128、128、256、256、512、512。三维池化层的池化尺寸分别是[2,2,1]、[2,2,2]、[2,2,2]、[2,2,2]、[2,2,3]，采用最大池化函数。

可选地，装置还可以包括：获取单元，用于获取目标视频中的视频数据；分割单元，用于将视频数据分割成多个视频短片段，其中，每个视频短片段仅包含单一动作类别；添加单元，用于对视频短片段添加预设类别标签，得到预设动作识别数据集。

可选地，替换单元包括：替换子单元，用于将至少部分全通道三维卷积层替换为单通道三维卷积层；添加子单元，用于在单通道三维卷积层的后位层级添加批规范化层、非线性层、残差分支、叠加单元和1x1分组卷积层，得到单通道三维卷积单元。

可选地，处理单元包括：分割子单元，用于对待识别视频进行分割，得到多个具有同一预设长度的第二视频序列；输入子单元，用于将多个第二视频序列输入至目标卷积神经网络，得到多个第二视频序列对应的初步识别结果；处理子单元，用于根据预设数据处理方式对初步识别结果进行处理，得到目标识别结果，其中，预设数据处理方式包括下述至少之一：获取初步识别结果的极值、获取初步识别结果的平均值以及对初步识别结果进行加权求和。

根据本发明实施例的另一方面，又提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行本申请实施例1中的人体视频动作识别方法。

根据本发明实施例的另一方面，又提供了一种处理器，处理器用于运行程序，其中，程序运行时执行本申请实施例1中的人体视频动作识别方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种人体视频动作识别方法，其特征在于，包括：

根据预设全通道三维卷积核创建第一卷积神经网络模型；

根据预设动作识别数据集训练所述第一卷积神经网络模型，得到第二卷积神经网络模型，其中，所述第二卷积神经网络模型为达到收敛状态的所述第一卷积神经网络模型；

将所述第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元，得到第三卷积神经网络模型；

根据所述预设动作识别数据集和所述第二卷积神经网络模型训练所述第三卷积神经网络模型，得到目标卷积神经网络模型，其中，所述目标卷积神经网络模型为达到收敛状态的所述第三卷积神经网络模型；

输入待识别视频至所述目标卷积神经网络模型，得到目标识别结果。

2.根据权利要求1所述的方法，其特征在于，在根据预设动作识别数据集训练所述第一卷积神经网络模型之前，所述方法还包括：

获取目标视频中的视频数据；

将所述视频数据分割成多个视频短片段，其中，每个所述视频短片段仅包含单一动作类别；

对所述视频短片段添加预设类别标签，得到所述预设动作识别数据集。

3.根据权利要求1所述的方法，其特征在于，所述将所述第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元包括：

将所述至少部分全通道三维卷积层替换为所述单通道三维卷积层；

在所述单通道三维卷积层的后位层级添加批规范化层、非线性层、残差分支、叠加单元和1x1分组卷积层，得到所述单通道三维卷积单元。

4.根据权利要求1所述的方法，其特征在于，所述输入待识别视频至所述目标卷积神经网络模型，得到目标识别结果包括：

对所述待识别视频进行分割，得到多个具有同一预设长度的第二视频序列；

将多个所述第二视频序列输入至所述目标卷积神经网络，得到所述多个所述第二视频序列对应的初步识别结果；

根据预设数据处理方式对所述初步识别结果进行处理，得到所述目标识别结果，其中，所述预设数据处理方式包括下述至少之一：获取所述初步识别结果的极值、获取所述初步识别结果的平均值以及对所述初步识别结果进行加权求和。

5.一种人体视频动作识别装置，其特征在于，包括：

创建单元，用于根据预设全通道三维卷积核创建第一卷积神经网络模型；

第一训练单元，用于根据预设动作识别数据集训练所述第一卷积神经网络模型，得到第二卷积神经网络模型，其中，所述第二卷积神经网络模型为达到收敛状态的所述第一卷积神经网络模型；

替换单元，用于将所述第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元，得到第三卷积神经网络模型；

第二训练单元，用于根据所述预设动作识别数据集和所述第二卷积神经网络模型训练所述第三卷积神经网络模型，得到目标卷积神经网络模型，其中，所述目标卷积神经网络模型为达到收敛状态的所述第三卷积神经网络模型；

处理单元，用于输入待识别视频至所述目标卷积神经网络模型，得到目标识别结果。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

获取单元，用于获取目标视频中的视频数据；

分割单元，用于将所述视频数据分割成多个视频短片段，其中，每个所述视频短片段仅包含单一动作类别；

添加单元，用于对所述视频短片段添加预设类别标签，得到所述预设动作识别数据集。

7.根据权利要求5所述的装置，其特征在于，所述替换单元包括：

替换子单元，用于将所述至少部分全通道三维卷积层替换为所述单通道三维卷积层；

添加子单元，用于在所述单通道三维卷积层的后位层级添加批规范化层、非线性层、残差分支、叠加单元和1x1分组卷积层，得到所述单通道三维卷积单元。

8.根据权利要求5所述的装置，其特征在于，所述处理单元包括：

分割子单元，用于对所述待识别视频进行分割，得到多个具有同一预设长度的第二视频序列；

输入子单元，用于将多个所述第二视频序列输入至所述目标卷积神经网络，得到所述多个所述第二视频序列对应的初步识别结果；

处理子单元，用于根据预设数据处理方式对所述初步识别结果进行处理，得到所述目标识别结果，其中，所述预设数据处理方式包括下述至少之一：获取所述初步识别结果的极值、获取所述初步识别结果的平均值以及对所述初步识别结果进行加权求和。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求4中任意一项所述的人体视频动作识别方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至权利要求4中任意一项所述的人体视频动作识别方法。